wordpress采集插件-胖鼠采集使用方法及采集规则

SEO工具2,526

核心五部曲: 列表采集规则核心只需要填写这五个空。

wordpress采集插件-胖鼠采集使用方法及采集规则文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html


  • 采集地址: 大家采集目标页面的地址
  • 采集范围: 你要采集目标页面的哪一块数据
  • 采集规则: Jquery选择器,选择页面上的区域
  • 详情页采集范围: 同上
  • 详情页采集规则: 同上

来看这是一个例子

先科普一下, 在 html 中文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

class 对应 Jquery 的 .文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

id 对应 Jquery 的 #文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

我下面的例子中每个选择器都有 . 或者 # 大家放大图仔细看。文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

不要拉下这些小符号了文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

目标采集目标地址:  这是国内某游戏新闻列表页文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

打开页面文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

在页面中 点击右键->检查 即可出现下方的框框。可看到页面的源代码文章源自SEO视频网-https://www.seoshipin.cn/gongju/2845.html

胖鼠采集插件使用

如图所画:

他每页有十篇新闻

黄色区域就是我们本页面所有文章所在的范围

黄色区域 对应右侧的代码 区域 class = down-nr

解释: 加上 ul  li 会循环每一个文章所在的区域。达到了我们列表批量采集的目的

注意: 这一步 请务必使用debug功能测试。(下面有介绍如何使用)

最终列表采集范围结果  .down-nr>ul>li

列表十篇文章的区域找到了,下面就找找十篇文章区域,所对应的文章链接吧

因为拿到具体的文章链接我们就能去采集每篇文章的内容啊!

恭喜完成第一步

现在我们已经定位到了文章区域,我们现在要找到区域中文章的链接

wordpress采集插件使用

一般的文章区域只有一个a就是文章地址。但是这个例子不太一样

大家截图中观察 li 里面的文章区域有两个 a

第一个a是新闻列表页地址 第二个a才是我们需要的文章地址

我们用 Jquery 的 eq 语法 a:eq(1)   意是取 所在区域的 第二个 a

注:代码中从 0 开始(只有一个 a标签 可以只填 a 即可),

注:如果目标站链接是相对链接。程序会自动补全的

当当当~

最终列表采集规则:   a:eq(1) href

href 意思选择a标签的 href属性(就是文章地址)

注: 请使用Debug功能(下面有介绍如何使用)

第二步完成了。。。

我们要进入文章详情页面啦、

有点累了。下面大家自己悟把。很简单。

注:请使用Debug功能,每一步都使用debug功能看结果。

详情采集范围   .sub-cont

解释: 看图 .sub-cont 包括了 标题和内容 是他们的父级区域 选择这个区域可

详情采集规则   title = .n_title

详情采集规则   content = .sub-nr

解释: 看图 .n_title 是文章的标题

解释: 看图 .sub-nr 使文章的内容

当当当~~~

终于所有的都搞完了。最终 完成的配置

属性解释

  • href 基本指 a 标签的 href 属性(这个属性存储的是点击后跳转地址)
  • text 取区域的文本 ,一般用于标题
  • html 取区域的所有的html  一般用到取内容,内容比较多。且内容有排版里面有 image css js 很多东西 。所以要拿到所有的原始html

标签过滤怎么用呢?给大家描述一下(多个过滤规则中间使用空格区分)

  • a 就是去除掉区域所有a标签跳转功能。保留文字
  • -a 删除a标签 包括删除a标签里面包含的内容 (不建议使用,因为有些图片是在a里面的 删除a 里面的 图片也没了。)
  • -div 删除所有div
  • -p 同上
  • -b 同上
  • -span 同上
  • -p:first  删除第一个 p标签
  • -p:last  删除最后一个 p标签
  • -p:eq(-2) 删除倒数 二个p
  • -p:eq(2) 删除正数 二个p
  • 就是这个套路…

标签过滤支持所有 Jquery 语法,灰常强大。能帮你处理各种杂乱的数据

请看下图。只是一部分过滤方法。居然更多请自行百度。

请看下图

胖鼠采集插件过滤规则

请看上图,只是过滤的一部分。大家自行百度,胖鼠采集过滤功能很强大。

新手可以导入默认例子品尝。全部都是配好的规则直接用

 Debug功能使用方法

胖鼠采集插件Debug功能使用方法

给大家实战一下

上面是debug是测试采集10条link有没有采集成功。有了link之后就可以采集详情页面了

大家同样要使用debug功能 测试 详情页 title content 是否可以获取正确。

测试过 link title content 三个规则数据都对了。那么采集应该就十拿九稳啦。

一次花点时间配一次 就可以一直使用。希望大家花一点点时间学习一下。

这个网站只是其中一个例子。

目标站 html 与这种不同,可以动动脑筋,多改改。用Debug多看看结果

 
  • 本文由 潮涌SEO 发表于 2020年3月24日 13:50:53
  • 转载请务必保留本文链接:https://www.seoshipin.cn/gongju/2845.html