<tbody id="w6ldx"></tbody>

    <th id="w6ldx"></th>
    <legend id="w6ldx"></legend>

        <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>

      1. <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>

        5
        新手入门 功能点介绍

        【智能模式】【流程图模式】如何批量生成网址

        2020-10-16 17:31:16
        浏览 59339 次

        摘要:本文主要给大家介绍如何使用后羿采集器的批量生成网址功能。 免费下载软件

        后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示:

        批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况:

        第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。

        第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过批量生成的方式来生成,而无需手动填写。

        一般情况下,网址的基本结构都是:固定网址+变化参数

        这里我们用后羿采集器官网作为例子来给大家介绍一下,网址示例如下:

        http://www.065103.com/?type=list&cat_id=148

        http://www.065103.com/?type=list&cat_id=148&page=2

        http://www.065103.com/?type=list&cat_id=148&page=3

        http://www.065103.com/?type=list&cat_id=148&page=4

        上面几个网址对应的网页如下图所示,我们可以看到除了首页,其余网址除了红色部分数字不同,其余部分都是相同的。

        (注:针对首页不符合规则的情况,我们可以尝试手动修改成符合规则的样子,即:http://www.065103.com/?type=list&cat_id=148&page=1,如果修改前后都能够访问同一个网页,则可以一起生成,否则第一个网址需要单独采集,本文这个网址是不满足的)

        下面我们来介绍一下使用批量生成网址的步骤。

        步骤一:输入第一部分的固定网址:

        http://www.065103.com/?type=list&cat_id=148&page=

        步骤二:点击添加参数:

        步骤三:设置第一个参数,参数类型设为数字,然后对起始值、截止值和步长等参数进行配置(因为这里第一个网址修改之后不能用,所以我们设置为从2到10,步长为1,递增,数字前不补零)

         

        我们可以在网址预览中看到最终生成的网址样式。

        温馨提示:

        本文仅以数字类型参数为例进行了描述,后羿采集器支持的参数类型还包括字母和时间,大家可以参考本文进行设置。

        在使用批量生成网址时一定要注意是否需要关闭分页设置,如果不需要翻页就必须关闭分页设置,否则会出现大量重复数据。如下图所示:

        分享到:
        python爬虫 网页内容关键字提取 正则匹配邮箱 网页下载成word 批量生成网址 批量下载视频 数据自动整理成excel 批量下载图片 php爬虫 python数据采集
        关闭
        亚洲国产精品无码一区二区
        <tbody id="w6ldx"></tbody>

          <th id="w6ldx"></th>
          <legend id="w6ldx"></legend>

              <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>

            1. <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>