青岛SEO行业知识分享:
在完成web页的收集后,就要对这些web的内容进行分析,归类,以便进行所需要的查询,而这个过程叫做网络索引。网络索引又包括数据纠错,索引文件到桶中和分类三个步骤。 数据纠错——在下载到的web页中,免不了会出现大量错误,比如HTML排版,ASCII码纠错,HTML标签验证等等。Google为此专门设计了一个用于处理这些可能出现的错误的解析器。
由于web页的性质,状态和数据类型多种多样,它们是否有错误,这些错误该如何纠正并没有一个统一的标准。因此如何设计解析器,并使它们能够高效运作仍然是一个长远的工作。 索引文件到桶中——当每个文件都通过纠错后,它便要通过编译存入一系列桶中。每个单词通过一个在内存中的hash表——字典被转换成一个wordID。新加入字典的hash表则存入另一个文件夹。一旦单词被转换成wordID,它们在当前文件中的事件便被翻译成字符列表,并写入前端的桶中,即向前索引。
分类——为了能够产生转换索引,分类器先取出向前索引部分桶内的数据,根据wordID进行挑选,然后将这些内容按挑选的顺序依次放入转换索引桶中。在这个过程中,一个进程所占用的系统资源不多,但一次只能处理一个桶。为了提高效率,我们也可以使用多处理器,在一个进程中同时处理多个桶,达到并列计算的目的。另外,由于桶的数量较多,容量较大,很可能无法全部装入主存中。这时分类器会将桶按照不同的wordID和docID进行分类,放入不同的篮子中,根据程序的需要选择相应的篮子装入主存,或按一定的顺序逐个依次将篮子装入。