博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【.NET】使用HtmlAgilityPack抓取网页数据
阅读量:5363 次
发布时间:2019-06-15

本文共 4837 字,大约阅读时间需要 16 分钟。

原文:

刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨,在codeplex里有一个开源项目提供了用XPath解析HTML文件,下面掩饰如何使用该类库的使用

首先说下XPath路径表达式

XPath路径表达式

  用来选取XML文档中的节点或节点集的

  1、术语:节点(Node):7种类型:元素,属性,文本,命名空间,处理命令,注释,文档(根)节点

  2、节点关系:父(Parent),子(Children),同胞(Sibling),先辈(Ancestor),后代(Descendant)

  3、路径表达式

   nodename  节点名,选取此节点的所有子节点  例: childnode  当前节点中的childnode子节点,不包含孙子及以下的节点

      /     从根节点选取  例:/root/childnode/grandsonnode  

       //     表示所有后代节点  例://childnode    所有名为childnode的后代节点

      .    表示当前节点  例:  ./childnode    表示当前节点的childnode节点

      ..     表示父节点  例:  ../nearnode     表示父亲节点的nearnode子节点

       @    选取属性  /root/childnode/@id     表示childnode的所有含有id属性的节点集

  4、谓语(Predicates)

    谓语可以对节点集进行一些限制,使选择更精确

      /root/book[1]    节点集中的第一个节点

      /root/book[last()]  节点集中最后一个节点

      /root/book[position() - 1]  节点集中倒数第二个节点集

      /root/book[position() < 5]  节点集中前五个节点集

      /root/book[@id]      节点集中含有属性id的节点集

      /root/book[@id='chinese']  节点集中id属性值为chinese的节点集

      /root/book[price > 35]/title  节点集中book的price元素值大于35的title节点集

  5、通配符:XPath路径中同样支持通配符(*,@*,node(), text())

    例:  /bookstore/*

        //title[@*]

  6、XPath轴

    定义相对于当前节点的节点集

      ancestor    所有祖先节点

      attribute    所有属性节点

      child      所有子元素

      descendant  所有后代节点(子,孙。。。)

      following    结束标记后的所有节点      preceding   开始标记前的所有节点

      following-sibling  结束标记后的所有同胞节点

      preceding-sibling  开始标记前的所有同胞节点

      namespace   当前命名空间的所有节点

      parent     父节点

      self       当前节点

    用法:轴名称::节点测试[谓语]

      例:  ancestor::book

            child::text()

  7、运算符

    |  两个节点集的合并  例:/root/book[1] | /root/book[3]

    +,-,*,dev,mod

    =,!=,<,>,<=,>=

    or,and  或和与

 

htmlDoc.DocumentNode.SelectNodes("//div[@ispublished='false' or @ispublished='False']");

 

//Xpath node selection - how to select 2 different elements - htmlagilitypack//选择两种不同标签的节点string srxPathOfCategory = "//div[@class='breadcrumbs']//li[@class='product'] | //div[@class='breadcrumbs']//a"; //So for " or " just need to use " | "

  

  

 

//删除注释,script,style    node.Descendants()                .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment")                .ToList().ForEach(n => n.Remove());    //遍历node节点的所有后代节点    foreach(var HtmlNode in node.Descendants())    {            }

 

 

HtmlAgilityPack类库用法

  1、首先需要获取到html页面数据,可以通过WebRequest类来获取

 

public static string GetHtmlStr(string url)        {                try            {                WebRequest rGet = WebRequest.Create(url);                WebResponse rSet = rGet.GetResponse();                Stream s = rSet.GetResponseStream();                StreamReader reader = new StreamReader(s, Encoding.UTF8);                return reader.ReadToEnd();            }            catch (WebException)            {                //连接失败                return null;            }        }

 

  2、通过HtmlDocument类加载html数据

string htmlstr = GetHtmlStr("http://www.hao123.com");        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();        doc.LoadHtml(htmlstr);        HtmlNode rootnode = doc.DocumentNode;    //XPath路径表达式,这里表示选取所有span节点中的font最后一个子节点,其中span节点的class属性值为num        //根据网页的内容设置XPath路径表达式        string xpathstring = "//span[@class='num']/font[last()]";            HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring);    //所有找到的节点都是一个集合                if(aa != null)        {            string innertext = aa[0].InnerText;            string color = aa[0].GetAttributeValue("color", "");    //获取color属性,第二个参数为默认值            //其他属性大家自己尝试        }

  也可以通过HtmlWeb类来获得HtmlDocument

HtmlWeb web = new HtmlWeb();        HtmlAgilityPack.HtmlDocument doc = web.Load(url);        HtmlNode rootnode = doc.DocumentNode;

 

补充:

  多个属性条件查询      //div[@align='center' and @height='24']

  不存在class属性       //div[not(@class)]

提取的时候需要判断是这个标签的class属性是否包含某个指定的属性值,google了一下(百度搜索没有相应的结果),利用Xpath的contains可以解决,代码如下:

另一种解析方式,假如我们需要根据div的class属性是否包含post值来提取div中的InnerText:

可以用以下方法来提取符合条件的所有HtmlNode节点

提取得到节点数据之后,根据实际处理即可。

posted on
2016-04-30 13:13 阅读(
...) 评论(
...)

转载于:https://www.cnblogs.com/lonelyxmas/p/5448628.html

你可能感兴趣的文章
Oracle命令(一):Oracle登录命令
查看>>
业务建模 之 业务用例图
查看>>
正则相关的知识分享
查看>>
无缝滚动-另类-移动端
查看>>
VMware Funsion 修改vmnet1/vmnet8默认网络地址及DHCP地址
查看>>
R学习笔记之三:对象
查看>>
EasyUI基础入门之Pagination(分页)
查看>>
一次PHP代码上线遇到的问题
查看>>
显示密码
查看>>
实现one hot encode独热编码的两种方法
查看>>
ubuntu中文英文环境切换
查看>>
[sql]mysql启停脚本
查看>>
[elk]Mutate filter plugin增删改查字段
查看>>
mysql的查询、子查询及连接查询
查看>>
Java内功心法,行为型设计模式
查看>>
向github项目push代码后,Jenkins实现其自动构建
查看>>
C语言时间头文件
查看>>
Java8中的 lambda 和Stream API
查看>>
兼容性测试相关
查看>>
对称排序
查看>>