IT基地
用户登陆
我要注册
用户名或密码错误
登 陆
注 册
IT基地 >Mr.Li的博客 >我要发文
PHP中去除正文中所有js,html,css等代码,以便获取纯文本
作者:Mr.Li   发布时间:2017-04-07 13:56:37   点击数:7500

我们在使用file_get_contents($weburl)获得链接地址中的内容时,肯定是连带着html\css\js代码一起获取了过来,这时候我们就需要进行一系列的处理以获得纯文本,下面是封装好的一个方法,希望对大家有所帮助:

function html2text($document){
	$search = array("'<script[^>]*?>.*?</script>'si", // 去掉 javascript 
					"'<style[^>]*?>.*?</style>'si", // 去掉 css 
					"'<[/!]*?[^<>]*?>'si", // 去掉 HTML 标记 
					"'<!--[/!]*?[^<>]*?>'si", // 去掉 注释标记 
					"'([rn])[s]+'", // 去掉空白字符 
					"'&(quot|#34);'i", // 替换 HTML 实体 
					"'&(amp|#38);'i", 
					"'&(lt|#60);'i", 
					"'&(gt|#62);'i", 
					"'&(nbsp|#160);'i", 
					"'&(iexcl|#161);'i", 
					"'&(cent|#162);'i", 
					"'&(pound|#163);'i", 
					"'&(copy|#169);'i", 
					"'&#(d+);'e"
					);
	$replace = array ("", "", "", "", "\1", "\"", "&", "<", ">", " ", chr(161), chr(162), chr(163), chr(169), "chr(\1)"); 
	//$document为需要处理字符串,如果来源为文件可以$document = file_get_contents('http://www.sina.com.cn'); 
	$out = preg_replace($search, $replace, $document); 
	return $out; 
}


本站部分数据来自软件的自动采集,仅用于学习交流,决不用于商用,如有侵犯您的合法权益,请联系我们删除。
发表技术文档,,记录个人生活,聚集意见领袖,众多IT精英,以我们的技术让开发更便捷。
IT基地版权所有,伪版必究 京ICP备17064610号-1
微信QQ空间QQ好友新浪微博FacebookTwitter