接触正则表达式的时间不长,感觉挺有意思,所以试着抓取了一下某网站数据.
Code:
private String getInformation(String t)
{
Regex r;
Match m;
r=new Regex("<tr\\s*bgcolor=\"#FFFFFF\">(?<1>(.|\n)*?)</tr>",RegexOptions.Compiled|RegexOptions.IgnoreCase);
StringBuilder sql = new StringBuilder();
for (m = r.Match(t); m.Success; m = m.NextMatch())
{
string buffer = m.Groups[1].Value.Trim();
Regex rx;
rx = new Regex("<td height=\"28\"\\s.*align=\"center\"><a href=\"(?<1>.*)\"\\s.*target=\"_blank\">(?<2>.*)</a></td>\\s*<td height=\"28\"\\s.*align=\"center\">(?<3>.*)</td>\\s*[\\s|\\S]*<td width=\"236\"\\s*align=\"center\">(?<4>.*)</td>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
String companyUrl = rx.Match(buffer).Groups[1].Value.Trim();
String companyName = rx.Match(buffer).Groups[2].Value.Trim();
if (companyName.Contains("font"))
{
Regex rn;
rn = new Regex("<font\\s*color=\"#FF0000\">(?<1>.*)</font>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
companyName = rn.Match(companyName).Groups[1].Value.Trim();
}
String companyRegion = rx.Match(buffer).Groups[3].Value.Trim();
String companyBrand = rx.Match(buffer).Groups[4].Value.Trim();
sql.AppendLine("insert into information values('"+companyName+"','"+companyUrl+"','"+companyRegion+"','"+companyBrand+"');");
}
return sql.ToString();
}
分享到:
相关推荐
特定网站信息的抓取工具 只是个示例作用。。。。
本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考,具体如下: 这里以抓取京东商城商品详情为例。 1、创建JdRobber.cs程序类 public class JdRobber { /// /// 判断是否京东链接 /// ...
java解析html抓取网站数据采集网站信息
本程序编写了一个从网页中抓取信息(如最新的头条新闻,新闻的来源,标题,内容等)的类,而且本程序文件夹中含有word文件,文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...
内部资料,MATLAB 版本的抓取各大网站的二手房信息,包括房源大小,是否靠近地铁站等,只用于大家交流学习。
网页爬虫工具能够抓取网页信息的软件网页爬虫工具[PClawer] V1.1 绿色版 PClawer 是一款定制功能较强的网页抓取工具,需要用到正则表达式,适合高级用户使用
用户抓取百度地图的地址信息,关键字抓取,调用百度API ,安全可靠
抓取G529数据中...完成! 抓取G1204数据中...完成! 抓取G279数据中...... 抓取G276数据中......抓取G1022数据中......抓取G280数据中......抓取G1206数据中......抓取G1224数据中......数据保存在站次信息表格中,请注意查看!
抓取各大网站信息,抓取到的都是HTML源码,经过解析之后得到你想要的信息。
实现思路为先抓取目标网页的Html代码,然后通过正则表达式匹配出相应的信息,并且附带有定时抓取的功能, 隔一段时间就会抓取一次,保证信息的实时性
而“益众网站信息抓取工具”(WebSpider)是一个以互联网数据抓取为目的的跨平台的软件:它主要用于网络数据采集,比如采集新闻、技术文章、商业数据、股市数据、博彩数据、招聘信息等不同类别、不同来源、不同格式的...
官方解释curl是一个利用URL语法在命令行方式下工作的文件传输工具。curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, ... socks5代理服务器
在Jupyter环境利用Python核实现网页信息的抓取。
网络爬虫,抓取视频信息,基于structs+hibernate+spring架构设计,需要安装myeclipse和tomcat 导入工程后即可运行
抓取知乎、V2EX等网站热榜信息
今日热榜是一个获取各大热门网站热门头条的聚合网站,使用Go语言编写,多协程异步快速抓取信息
网络书目信息抓取系统的设计与实现 关于网络爬虫的设计技术