HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。咖啡公司游戏下载-咖啡公司(The Coffee Inc)1.0.2 手机最新版
1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
展开内容
童话小公主经营咖啡屋游戏下载-童话小公主经营咖啡屋1.0.3 最新版
手机视讯app下载-江苏广电手机电视软件(手机视讯)1.1 官网最新客户端
boss中国店铺管理系统下载-boss中国店铺管理系统1.1官网版
果果英语app3.1.9 安卓版
智慧公益平台下载-贵州智慧公益平台app1.0.0 官方最新版
Brick-game(水平砖破碎机)1.0.1 最新版
宝藏探险1.16地图下载-宝藏探险1.16正式版附攻略
拯救南瓜游戏下载-拯救南瓜游戏(Save Pumpkin)1.0.5 最新版
图度talk(在线工作管理系统的IM聊天工具)v2.8.11.22490 官方版
象形识字app-幼儿象形识字app1.2 启蒙版
猛犸数藏app下载-猛犸数藏安卓app1.0.0 官方正版
棉花笔记iphone下载-棉花笔记ios版2.4.4 苹果版
猫箱物语手游下载-猫箱物语手游1.5.2安卓版
广汽丽新出行安卓客户端-丽新出行app1.0.0 官网最新版
Crazy Car On Highway1.0 免费中文版
销售员工转正申请书-销售员工转正申请书范文doc格式免费下载
10.0/870.7M
新加入了一个大家庭好喜欢这里,那时你需要做的是什么?准备好一篇转正申请交给你的老板是必须的,这里我们东坡下载站给大家免费的提供了一篇销售员工转正申请书范文,希望...
9.4/145.1M
这是一款非常有趣味性的神兽合成分红赚钱小游戏,在游戏中你只需要将各种神兽进行合成就可以赚钱了,整体的玩法非常的简单,赚到的钱提现也是非常快到站的,非常不错。我要...
花瓣采集插件下载-蜜图插件(花瓣网素材下载)1.1.1 官方版
7.9/1,920.2M
蜜图插件(花瓣网素材下载),众所周知,花瓣网是一个免费的、可移动的素材库,发现、搜索、采集和管理素材都特别的方便,但使用久了之后你会发现一些功能很不便捷,蜜图扩...
Nature Studio v3.12绿色汉化版 快速制作动态效果图
8.8/1,070.1M
百度空间有很多模板的背景图是雪花飘飘的,煞是好看。但您知道该背景图是如何制作的吗?其实很简单,用NatureStudio一分钟就可以生成。NatureStudi...
安卓小白点下载-手机桌面小白点(EasyPoint)1.0 安卓最新版
9.9/587.8M
手机上经常使用home键会影响它的使用,便现在很多功能都要靠这个键,怎样节约它的寿命减少使用呢?东坡带来的手机桌面小白点(EasyPoint)就能做到,它支持上...
9.3/1,511.0M
极无双九游版是一款三国题材动作RPG手游,游戏原名IF.三国,极无双九游版秉承无双系列的经典玩法,喜欢的小伙伴快来下载试试吧!极无双》手游玩法内容多样且丰富,无...
7.6/1,891.2M
这是一个手机相册软件,可以一键制作属于你自己的相册,非常多模板可以选择,免费在线使用,一键分享你的美好生活,还可以快速帮你洗照片!软件介绍满月时光是一款唯美相机...
7.8/864.1M
今天小编为大家带来一款由腾讯出品的腾讯充值应用,有了这款应用,你可以在这里充值Q币、开通QQ服务等各种与腾讯有关的充值服务,是不是很实用呢?赶紧下载使用吧!软件...
搜狐视频会员账号分享器下载-羊羊搜狐视频会员账号分享器1.4 免费版
9.3/129.5M
羊羊搜狐视频会员账号分享器是一款免费分享搜狐视频会员的软件,让你不在了不是VIP而看不了好片烦恼了,让你成为尊贵的VIP,有需要的赶紧来东坡下载使用吧。搜狐视频...
8.1/1,581.2M
越来越多的赶海视频以及赶海直播火起来了,人类就是喜欢自己亲手发现未知美食的过程,不如自己亲自在这里体验一把,很真实的3D赶海游戏,适合每一个喜欢赶海的玩家,这里...
死神觉醒无限纷争官方最新版下载-死神觉醒无限纷争2.79.363 官方正版
9.0/688.4M
作为大家都非常熟悉的动漫死神改编的动作格斗手游,玩家在死神觉醒中可以操作各种死神中的角色,通过培养自己喜欢的角色,可以让自己在和其它玩家对战的时候获得更多的优势...
死神vs火影sang改版下载直装-死神vs火影BVNsang改2.0V㈀⸀ 自制版
8.7/1,313.3M
死神vs火影sang改是玩家自制的最新版本,并且有大量二次元人物乱入哦。大家在进行火影乱斗的时候,会发现有各种无厘头的二次元人物可以解锁。每个角色还自带超酷必杀...
Sonsii摄像头app下载-Sonsii摄像头app1.0.2 安卓版
9.4/1,087.8M
Sonsii摄像头app是一款智能摄像头app,搭配您的智能产品使用,可以用来控制摄像头,随时查看录像视频,并且具有实时警告提醒功能,保护您的家庭安全!Sons...
格兰蒂亚秘闻两项修改器-格兰蒂亚秘闻两项修改器0.59 MrAntiFun版
8.0/803.4M
格兰蒂亚秘闻两项修改器可以在游戏中获得2种变态的功能,让你在游戏里疯狂的输出,喜欢玩着游戏的赶紧来下载使用吧。格兰蒂亚秘闻两项修改器功能F1无限生命+无限护甲格...
挖掘侏罗纪游戏下载-挖掘侏罗纪ios版1.1.0 苹果最新版
8.4/1,074.8M
挖掘侏罗纪ios版是一款恐龙冒险类游戏,游戏画面简单精美,玩法也是非常的有趣,玩家在游戏中需要选择一辆汽车,然后开始一段冒险旅程!游戏介绍孩子们和大人都可以去挖...
9.0/92.0M
秘儿管家app是一款非常好用的社区管理软件,你可以在这款软件里面找到一些自己想要的服务还是非常简单的,而且这款软件可以很好的为社区里面的一些住户进行一些交流,让...
Thug Life Photo Studio()1.11 手机最新版
8.5/231.9M
ThugLifeMaker安卓版是由LiveStarEmpiresDev研发的一款手机修图客户端,是国外非常火爆的暴徒照片生产器,喜欢就快来东坡免费下载试试吧!...
8.8/1,249.2M
这年头但凡有点本事的都自称为哥,就像是今天介绍我是网盘哥,它就是款功能相当强大的云盘资源搜索器,不管是多难找的资源,在它这里就不存在找不到的可能,而且他操作界面...
9.9/1,820.7M
给自己的电脑上带来一些不一样的安全以及备份吧,同时也支持快速的恢复你的额一些数据,是现在电脑上不可以缺少的一款实用工具了,赶快来体验下吧!小松鼠...
英语专业大学生职业规划书-2016英语专业大学生职业规划书范文doc格式【免费下载】
8.3/1,880.1M
这是一篇英语专业大学生职业规划书范文,内容比较丰富对未来的规划介绍的比较详细,值得一看的职业规划书。全篇规划书共有4189个字,有需要的朋友可以来我们东坡下载站...
九视通用快递查询软件最新版(支持各类快递查询)1.0.0.8 绿色版
10.0/704.9M
九视通用快递查询软件最新版(支持各类快递查询),是一款便捷实用的快递单号查询工具,适用于广大有快递查询需求的普通人群,也适用于专业的B2C,C2C等平台的卖家。...
9.2/1,031.4M
玫瑰之香是一款聚合类型的手机盒子,实用性很强在于可以看直播,还支持磁链搜索,更主要的是还有火热的免费电视节目供我们选择。本版本无需注册码,不需要花钱就能看到隐私...
9.6/1,152.6M
空气卫士app是一款智能家居控制终端软件,用户下载这款软件连接家庭或者车载硬件就能够一键开启或者关闭消毒机设备,并且还能够智能监测空气环境,自动开启净化,非常的...
欧美风格婚礼ppt模板免费下载-欧美风格婚礼庆典主题ppt模板完整版
7.8/108.2M
恰逢节假日,结婚的小伙伴应该都非常多,想要一个浪漫的婚礼吗?小编为你提供欧美风格婚礼庆典主题ppt模板,简单大方却又非常温馨,如果你打算办一场欧式婚礼,欢迎来下...
9.0/997.5M
高校思想政治理论课程网站客户端,如果你是学生的话是需要注册登录之后进行学习的,在线完成课程任务,获得学分以及相关的成绩数据要求,完成学习目标,实时在线学习看得到...