我们将创意变成现实
为产品和体验带来生命

Work hard in the direction of creating value

当前位置:首页 > 观点 > 建站知识 > 搜索引擎Google是通过哪些方面来判定原创文章与伪原创.

搜索引擎Google是通过哪些方面来判定原创文章与伪原创.

发布者:中工互联  发布时间:2021-08-26
很多做谷歌优化的站长在做站群的时候生成大量的内容来填充网站,由于时间和精力的局限,绝大多数站长一般都会借助采集软件采集+伪原创,对于原创和伪原创Google是怎么判断的呢?其实Google对于伪原创的判别要比百度来的准的多,现在我们就来看下Google是通过哪几方面判定原创与伪原创的。

内容相似度
内容相似度是搜索引擎去重用的最多的算法,用的比较多的一种是TF/IDF算法,这个也是计算相关性的算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。

IDF反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

当一篇文章根据TF/IDF进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。

关于TF/IDF与向量算法的详细请参看Google黑板报的数学之美12-余弦定理与新闻分类

数据指纹
当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。
这时候你可以想象出,现在很多伪原创工具,只是把关键词进行了替换,你想关键词替换后,标点符号指纹是不变的,甚至连TF词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。那么这样的伪原创工具有没有价值你就可想而知了。(可能对于百度还是有作用的)

代码噪音
前面说的这些,都是基于一个条件的,就是搜索引擎要知道文章是什么,因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。


一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。



更多高端网站建设、专业网站设计、网站制作、网站开发等相关,欢迎您咨询深圳中工互联!

标签: SEO 网站优化
数字化建站营销落地服务商首页服务案例观点关于联系

联系我们

135-3085-1084
185-6577-9115

深圳市中工互联网络开发有限公司
地址:深圳市南山区沙河西路3151号健兴科技大厦A座7楼.

我们的优势

我们为满足不同客户的独特需求,并对独特需求做彻底理解,更注重用户体验,以用户体验为核心,创意、视觉、交互、营销,四大维度助力商业价值提升,为客户量身订造,竭尽我们的专业所能,不遗余力, 我们专业、敬业,富有激情和创意,尊重并深入理解每一位客户的理念,并致力于运用我们的设计能力将其充分实现,9年来,凭借对设计的深刻理解,对互联网营销趋势的敏锐洞察,我们不断修正服务导向,完善创作品格,始终注重专业探索,为所有合作企业机构全力以赴,确保网站的视觉体验与营销转化能力。

我们以专业的设计,创新的理念,精湛的技术服务于众多知名企业,创造出了综合集团企业、时尚零售、互联网电商、智能科技、金融投资、教育培训、餐饮食品、制造生产等多行业、多平台的优秀网络作品。包括:拓邦股份、茂硕电源、洲明科技、鱼跃医疗、大族激光、华为、百丽、华大基因、深圳地铁、捷顺科技、腾讯、迈瑞、华侨城、上海三思、立达信、三雄极光、兆驰股份、安吉尔、欧瑞博、中广核、创维、融创、生迪、中国建设银行、科瑞技术、长园、崧盛股份、奋达、小米、倍思等在内的近两千多家客户。

专业团队为您提供深圳网站建设、深圳网站制作、深圳营销型网站建设、外贸网站建设等服务,深圳建网站就找中工互联 | 网站建设地图

深圳市中工互联网络开发有限公司 备案号:粤ICP备17083864号 Copyright 2014版权所有

客服微信 ×

立即扫描,添加客服微信