百度搜索原创识别“起源”算法

百度算法来源:百度搜索资源平台1,9621

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。百度的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。

首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;文章源自SEO视频网-https://www.seoshipin.cn/baiduseo/baidusuanfa/1985.html

其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;文章源自SEO视频网-https://www.seoshipin.cn/baiduseo/baidusuanfa/1985.html

最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。文章源自SEO视频网-https://www.seoshipin.cn/baiduseo/baidusuanfa/1985.html

目前,通过百度的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决。文章源自SEO视频网-https://www.seoshipin.cn/baiduseo/baidusuanfa/1985.html 文章源自SEO视频网-https://www.seoshipin.cn/baiduseo/baidusuanfa/1985.html

 
  • 版权声明 本文源自 百度搜索资源平台, 潮涌SEO 整理 发表于 2017年12月28日 15:24:03
  • 转载请务必保留本文链接:https://www.seoshipin.cn/baiduseo/baidusuanfa/1985.html