电脑系统下载官网 - 系统下载更安全,最好的系统光盘下载网站!
首页 XP系统 win11系统 Win7系统 Win8系统 Win10系统 纯净版系统 笔记本系统 一键重装系统
当前位置:主页 > 软件下载 > 网络软件 > 火车采集器 V9.1

火车采集器 V9.1

  • 大小:20.29 MB
  • 语言:简体中文
  • 授权:免费软件
  • 更新:2016-09-10
  • 支持系统:Windows10, Windows8, Windows7, WinXP
  • 安全监测:

    360安全卫士 360杀毒 电脑管家
  • 星级评价:

系统介绍

  火车采集器(LocoySpider)是一款专业的功能强大的网络数据/信息挖掘软件,通过灵活的配置,您可以很轻松的从网页上抓取文字、图片、文件等任何资源。火车采集器支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等,同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。

火车采集器 V9.1

基本功能

  1、规则自定义

  通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。

  2、多任务,多线程

  可以同时进行多个信息采集任务,每个任务可以使用多个线程。

  3、所见即所得

  任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。

  4、数据保存

  数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。

  5、断点续采

  信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。

  6、网站登录

  支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。

  7、计划任务

  通过这个功能可以让你的采集任务定时、定量或者一直循环执行。

  8、采集范围限制

  可以根据采集的深度和网址的标识来限制采集的范围。

  9、文件下载

  可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。

  10、结果替换

  可以将采集的结果根据规则替换成你定义的内容。

  11、条件保存

  可以根据某个条件来决定那些信息保存,那些信息过滤。

  12、过滤重复内容

  软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。

  13、特殊链接识别

  运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。

  14、数据发布

  可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。

  15、预留编程接口

  定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。

特色功能

  1、支持所有网站编码

  完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。

  2、多种发布方式

  支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。

  3、全自动

  无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。

  4、本地编辑

  本地可视化编辑已采集的数据。

  5、采集测试

  这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。

  6、管理方便

  使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。

软件特色

  1、通用性强

  无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。

  2、稳定、高效

  五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。

  3、扩展性强、适用范围广

  自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。

更新日志

  1、二级代理服务器新增Socks代理

  2、任务运行过程中可修改线程数等参数,实时调节运行速度,添加可查看任务运行当前及总体速度功能

  3、支持SSH(SFTP文件)上传

  4、内容提取新增JSON提取方式,提取JSON数据更加简单

  5、插件编辑器新增C#源码文件插件,类似PHP源码插件一样,编辑后直接生效,但比PHP源码插件支持更多的插件接口

  6、软件闪退,支持保存未完成的任务进度

  7、新增消息机制

  8、V9将采网址和采内容的方式合并,列表采集及内容采集使用不同队列,优化采集流程,更新数据内容的方式由Update改为insert,大幅提升采集及入库速度;

  9、任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计;

  10、修改了原有的无限级列表页网址获取模式,使无限级配置操作更加简单;

  11、字段重复性对比功能不再使用数据库unique方式,改为内存Md5_16对比,更加精准;

  12、标签数据的来源更加细致化,可设置从默认页、分页和多页的源码,URL地址及返回头信息中提取。

系统激活工具