搜索引擎优化方案行业知识分享:
简单相似度模型 所谓的简单相似度模型,即采用网页链入链接的向量内积来度量网页间的相似度。简单的说来,我们使用两个网页具有相同链入链接的数量来衡量这两个网页的相似度,如果具有越多的相同的链入链接,那么这两个网页的相似度也就越高 。
为了获得简单相似度形式化的表达,我们先在网络中生成每个网页的链入链接向量V,采用的方法是对搜索引擎所涵盖的全部网页进行编号:l, 2,…,n,对于任意网页j, n维向量V中的第i个分量为1当且仅当有网页i指向网页j的超链接,否则为0。这里假设网页j有指向自身的超链接时,该向量的分量j为0。
这样,向量内积被用来进行网页间相似性度量的形式化表示为 Sim(i,j)=Vi.Vj
很明显,如果网页i和j是不同的,那么sim(i,j)表示了那些共同指向网页i和j网页的数量,可以简单的描述网页i和j的相似度。