From c6f2754221df73f9f8c5b4b7f9d0ea004fa9be45 Mon Sep 17 00:00:00 2001 From: Looly Date: Wed, 11 Sep 2019 16:02:54 +0800 Subject: [PATCH] add test and fix comment --- .../main/java/cn/hutool/http/HtmlUtil.java | 19 +++++--- .../cn/hutool/http/test/HtmlUtilTest.java | 48 +++++++++++++++++++ 2 files changed, 60 insertions(+), 7 deletions(-) diff --git a/hutool-http/src/main/java/cn/hutool/http/HtmlUtil.java b/hutool-http/src/main/java/cn/hutool/http/HtmlUtil.java index 74a1433f7..5224390ff 100644 --- a/hutool-http/src/main/java/cn/hutool/http/HtmlUtil.java +++ b/hutool-http/src/main/java/cn/hutool/http/HtmlUtil.java @@ -7,11 +7,15 @@ import cn.hutool.core.util.StrUtil; /** * HTML工具类 * + *

+ * 比如我们在使用爬虫爬取HTML页面后,需要对返回页面的HTML内容做一定处理,
+ * 比如去掉指定标签(例如广告栏等)、去除JS、去掉样式等等,这些操作都可以使用此工具类完成。 + * * @author xiaoleilu * */ public class HtmlUtil { - + public static final String NBSP = StrUtil.HTML_NBSP; public static final String AMP = StrUtil.HTML_AMP; public static final String QUOTE = StrUtil.HTML_QUOTE; @@ -36,12 +40,12 @@ public class HtmlUtil { TEXT['<'] = LT.toCharArray(); // 小于号 TEXT['>'] = GT.toCharArray(); // 大于号 } - + /** * 转义文本中的HTML字符为安全的字符,以下字符被转义: *