<tbody id="w6ldx"></tbody>

  <th id="w6ldx"></th>
  <legend id="w6ldx"></legend>

    <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>

   1. <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>

    5
    新手入门 功能点介绍

    【智能模式】【流程图模式】如何设置数据去重

    2019-12-24 16:08:34
    浏览 12809 次

    摘要:本教程为大家介绍了如何设置数据去重 免费下载软件

    数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。

    在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。

    1、去重条件

    1)所有字段都重复

    勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。

    需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大致相同,但是都会判定为非重复的数据。

    2)某些字段重复

    勾选此去重条件,软件可以针对某一个或者某几个字段进行去重。

    按照字段去重可以设置多个字段,点击“+”或者“—”符号进行设置,多个字段之间的关系是并且关系,即如果设置了两个字段去重,则需要满足字段1和2与已保存的某一条数据中的两个字段都相同,则判定该数据为一条重复数据。

    2、执行动作

    满足去重条件时,我们可以设置在这个去重条件下是跳过继续采集,还是停止任务。

    分享到:
    python数据采集 批量下载视频 python爬虫 批量生成网址 网页内容关键字提取 数据自动整理成excel 正则匹配邮箱 网页下载成word 批量下载图片 php爬虫
    关闭
    亚洲国产精品无码一区二区
    <tbody id="w6ldx"></tbody>

     <th id="w6ldx"></th>
     <legend id="w6ldx"></legend>

       <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>

      1. <rp id="w6ldx"><object id="w6ldx"><blockquote id="w6ldx"></blockquote></object></rp>