一、首推Jsoup(凭直接首推的,对该类库不熟悉)
中文文档:
Jsoup使用:
最简单实用:
/** * 解析一个html字符串,只得到此字符串中的文本 * @param html * @return */ public static String html2txt(String html) { //测试1 Document document = Jsoup.parse(html); String content = document.text(); return content; }
自己的代码:
//读取了html的全部文字部分,没有标签//data可以是不完整的html页面数据Document doc = Jsoup.parse(data);text = doc.text();//获取全部图片标签media = doc.select("img[src]");//获取标签的链接String imgurl = src.attr("abs:src");
二、htmlparser
使用: