博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【java】html解析
阅读量:6289 次
发布时间:2019-06-22

本文共 570 字,大约阅读时间需要 1 分钟。

一、首推Jsoup(凭直接首推的,对该类库不熟悉)

中文文档:

Jsoup使用: 

最简单实用:

/**     * 解析一个html字符串,只得到此字符串中的文本     * @param html     * @return     */    public static String html2txt(String html) {        //测试1        Document document = Jsoup.parse(html);        String content = document.text();        return content;    }

自己的代码:

//读取了html的全部文字部分,没有标签//data可以是不完整的html页面数据Document doc = Jsoup.parse(data);text = doc.text();//获取全部图片标签media = doc.select("img[src]");//获取标签的链接String imgurl = src.attr("abs:src");

 

二、htmlparser

使用:

转载于:https://www.cnblogs.com/549294286/archive/2012/08/09/2630921.html

你可能感兴趣的文章
正文提取算法
查看>>
轻松学PHP
查看>>
Linux中的网络监控命令
查看>>
this的用法
查看>>
windows下安装redis
查看>>
CentOS7 yum 安装git
查看>>
启动日志中频繁出现以下信息
查看>>
httpd – 对Apache的DFOREGROUND感到困惑
查看>>
分布式锁的一点理解
查看>>
idea的maven项目,install下载重复下载本地库中已有的jar包,而且下载后jar包都是lastupdated问题...
查看>>
2019测试指南-web应用程序安全测试(二)指纹Web服务器
查看>>
树莓派3链接wifi
查看>>
js面向对象编程
查看>>
Ruby中类 模块 单例方法 总结
查看>>
jQuery的validate插件
查看>>
5-4 8 管道符 作业控制 shell变量 环境变量配置
查看>>
Enumberable
查看>>
开发者论坛一周精粹(第五十四期) 求购备案服务号1枚!
查看>>
validate表单验证及自定义方法
查看>>
javascript 中出现missing ) after argument list的错误
查看>>