火车头采集器使用发布规则图文教程

发布日期:2021-06-20 14:01
作者:admin
阅读量:

今天和大家分享火车头采集器使用发布规则图文教程,具体如下:

一,新建采集分组和任务

火车头教程图文教程1

二,设置采集网址规则

填写任务名称和添加网址
火车头教程图文教程2
填写采集列表网址获取规则
1,根据我们要采的页面可以看到列表网址以及我们要采五页内容
火车头教程图文教程3
火车头教程图文教程4
2,添加获取内容页网址的区域规则
火车头教程图文教程5
根据页面的源代码可以看到,内容网址列表区域选取头尾唯一字符,如下图红框
火车头教程图文教程6
填写,过滤区域看情况,需要加入.html等过滤掉栏目网址等,本次没有其他网址,可以不写
火车头教程图文教程7
测试网址采集,如下图可以看到,都采到了
火车头教程图文教程8

三,采集内容规则填写

1,填写测试内容页网址
2,点击标题设置标题采集规则
火车头教程图文教程9
根据网页源代码可以看到标题在唯一字符<h2 class="center">和</h2>之间
火车头教程图文教程10
填入
火车头教程图文教程11
点击测试可以看到,标题采集成功
火车头教程图文教程12
设置采集内容规则-双击内容
火车头教程图文教程13
从源代码可以看到,内容在网页唯一字符<div class="pagebox">和<div align="center">之间,填入点击测试
火车头教程图文教程14
点击测试后可以看到采集内容成功但是有很多代码和图片网址等
火车头教程图文教程15
点击内容
火车头教程图文教程16

火车头教程图文教程17
设置过滤不需要的标签
火车头教程图文教程18
如果需要采集图片用来当封面可以使用高级功能提取第一张图片,具体设置如下
火车头教程图文教程19
如果下载失败需要勾选“将相对地址补全为绝对地址,然后填入绝对地址”,如果还没下载到可以使用字符替换,把相对地址替换成绝对地址
火车头教程图文教程20
简单的加头尾伪原创功能:
火车头教程图文教程21
火车头教程图文教程22
火车头教程图文教程23

四,同义词替换伪原创功能

火车头教程图文教程24
需要自己建立词库
火车头教程图文教程25
火车头教程图文教程26

五,设置完成,开始任务采集

火车头教程图文教程27

相关文章