抓取网站信息 - maybe723 - ITeye博客

`

maybe723

浏览: 44931 次
来自: ...

最近访客更多访客>>

wmswu

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

nashwill：测试了下，好像用不了，什么原因？
利用spring拦截struts(1.x)中的action
hdf336： java加密后。net解密都不一样别来误导人
java和.net中的des加密和解密
cwmwss：你好，java和.NET加密的结果为什么不一样呢？能不能做到 ...
java和.net中的des加密和解密

抓取网站信息

博客分类：

.net

正则表达式 SQL

阅读更多

接触正则表达式的时间不长,感觉挺有意思,所以试着抓取了一下某网站数据.

Code:

private String getInformation(String t)
    {

        Regex r;
        Match m;
        r=new Regex("<tr\\s*bgcolor=\"#FFFFFF\">(?<1>(.|\n)*?)</tr>",RegexOptions.Compiled|RegexOptions.IgnoreCase);

        StringBuilder sql = new StringBuilder();
        for (m = r.Match(t); m.Success; m = m.NextMatch())
        {
            string buffer = m.Groups[1].Value.Trim();
            Regex rx;
            rx = new Regex("<td height=\"28\"\\s.*align=\"center\"><a href=\"(?<1>.*)\"\\s.*target=\"_blank\">(?<2>.*)</a></td>\\s*<td height=\"28\"\\s.*align=\"center\">(?<3>.*)</td>\\s*[\\s|\\S]*<td width=\"236\"\\s*align=\"center\">(?<4>.*)</td>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
          

            String companyUrl = rx.Match(buffer).Groups[1].Value.Trim();
            String companyName = rx.Match(buffer).Groups[2].Value.Trim();
            if (companyName.Contains("font"))
            {
                Regex rn;
                rn = new Regex("<font\\s*color=\"#FF0000\">(?<1>.*)</font>", RegexOptions.Compiled | RegexOptions.IgnoreCase);
                companyName = rn.Match(companyName).Groups[1].Value.Trim();
            }
            String companyRegion = rx.Match(buffer).Groups[3].Value.Trim();
            String companyBrand = rx.Match(buffer).Groups[4].Value.Trim();
          
            sql.AppendLine("insert into information values('"+companyName+"','"+companyUrl+"','"+companyRegion+"','"+companyBrand+"');");
        }
      
        return sql.ToString();

 
    }

分享到：

解决.net中使用prototype产生乱码 | 类的加载过程

2008-07-19 11:31
浏览 923
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

特定网站信息的抓取工具: 特定网站信息的抓取工具只是个示例作用。。。。

C#使用正则表达式抓取网站信息示例: 本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考，具体如下：这里以抓取京东商城商品详情为例。 1、创建JdRobber.cs程序类 public class JdRobber { /// /// 判断是否京东链接 /// ...

java解析html抓取网站数据采集网站信息: java解析html抓取网站数据采集网站信息

基于C# 网页信息抓取: 本程序编写了一个从网页中抓取信息（如最新的头条新闻，新闻的来源，标题，内容等）的类，而且本程序文件夹中含有word文件，文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...

自动抓取二手房网站信息: 内部资料，MATLAB 版本的抓取各大网站的二手房信息，包括房源大小，是否靠近地铁站等，只用于大家交流学习。

网页爬虫工具能够抓取网页信息的软件: 网页爬虫工具能够抓取网页信息的软件网页爬虫工具[PClawer] V1.1 绿色版 PClawer 是一款定制功能较强的网页抓取工具，需要用到正则表达式，适合高级用户使用

百度地图抓取抓取地址信息: 用户抓取百度地图的地址信息，关键字抓取，调用百度API ，安全可靠

matlab爬虫抓取高铁信息数据: 抓取G529数据中...完成! 抓取G1204数据中...完成! 抓取G279数据中...... 抓取G276数据中......抓取G1022数据中......抓取G280数据中......抓取G1206数据中......抓取G1224数据中......数据保存在站次信息表格中，请注意查看！

c#,asp.net网站数据抓取程序: 抓取各大网站信息，抓取到的都是HTML源码，经过解析之后得到你想要的信息。

Winform抓取赶集网车票转让信息: 实现思路为先抓取目标网页的Html代码，然后通过正则表达式匹配出相应的信息，并且附带有定时抓取的功能，隔一段时间就会抓取一次,保证信息的实时性

网站内容抓取: 而“益众网站信息抓取工具”(WebSpider)是一个以互联网数据抓取为目的的跨平台的软件：它主要用于网络数据采集，比如采集新闻、技术文章、商业数据、股市数据、博彩数据、招聘信息等不同类别、不同来源、不同格式的...

使用PHP curl模拟浏览器抓取网站信息: 官方解释curl是一个利用URL语法在命令行方式下工作的文件传输工具。curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议：FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, ... socks5代理服务器

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓: 在Jupyter环境利用Python核实现网页信息的抓取。

网络爬虫，抓取视频信息: 网络爬虫，抓取视频信息，基于structs+hibernate+spring架构设计，需要安装myeclipse和tomcat 导入工程后即可运行

Python-抓取知乎V2EX等网站热榜信息: 抓取知乎、V2EX等网站热榜信息

Go-今日热榜是一个获取各大热门网站热门头条的聚合网站使用Go语言编写多协程异步快速抓取信息: 今日热榜是一个获取各大热门网站热门头条的聚合网站，使用Go语言编写，多协程异步快速抓取信息

网络书目信息抓取系统的设计与实现: 网络书目信息抓取系统的设计与实现关于网络爬虫的设计技术

Global site tag (gtag.js) - Google Analytics