博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
JSpider(2):JSpider是什么?
阅读量:6989 次
发布时间:2019-06-27

本文共 836 字,大约阅读时间需要 2 分钟。

从名字可以看出,JSpider是一个用Java实现的Web Spider。JSpider官方网站这样说的:


None.gif
JSpider is: 
None.gif•    A highly configurable and customizable Web Spider engine. 
None.gif•    Developed under the LGPL Open Source license 
None.gif•    In 
100
% pure Java 
None.gifYou can use it to : 
None.gif•    Check your site for errors (internal server errors
,
 dot.gif
None.gif•    Outgoing and/or internal link checking 
None.gif•    Analyze your site structure (creating a sitemap
,
 dot.gif
None.gif•    Download complete web sites 
None.gif•    Any task you want
,
 if you write a JSpider plugin. 
None.gif

JSpider的执行格式如下:


jspider [URL] [ConfigName]
URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。

JSpider的行为是由配置文件具体配置的,比如采用什么插件,结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的配置种类很少,用途也不大。但是JSpider非常容易扩展,可以利用它开发强大的网页抓取与数据分析工具。要做到这些,需要对JSpider的原理有深入的了解,然后根据自己的需求开发插件,撰写配置文件。

本文转自xiaotie博客园博客,原文链接http://www.cnblogs.com/xiaotie/archive/2005/10/07/249761.html如需转载请自行联系原作者

xiaotie 集异璧实验室(GEBLAB)

你可能感兴趣的文章
css居中div的几种常用方法
查看>>
css3
查看>>
C# Window编程随记——ClickOnce程序部署
查看>>
小白系列-免费广告路由器web认证设置(2)
查看>>
Top 16 Java 应用类 - 这些功能再也不用自己写了
查看>>
面试题之矩阵与转置矩阵相乘
查看>>
linux光盘、U盘的挂载与卸载
查看>>
linux sudo命令
查看>>
LeetCode-最长回文子串
查看>>
【HDOJ】3400 Line belt
查看>>
JVM Guide
查看>>
大数模版
查看>>
HDU4044 GeoDefense(树形dp+分组背包)
查看>>
Microsoft .Net Remoting系列专题之三:Remoting事件处理全接触
查看>>
JavaScript常用标签和方法总结
查看>>
GO语言的进阶之路-网络编程之socket
查看>>
作业—四则运算题目生成器
查看>>
第十四周翻译-《Pro SQL Server Internals, 2nd edition》
查看>>
jdbcUrl is required with driverClassName spring boot 2.0版本
查看>>
C# 关于JArray和JObject封装JSON对象
查看>>