xpath_基础用法

3 min read

XML Path Language

xml路径语法，xml是常见的一种序列化方式，html页面就是一种xml。学习xpath可以使用其快速定位xml元素。

首先打开http://xpather.com/，这个页面是一个很好的学习xpath语法的页面，上方的输入框可以输入xpath语法，过滤出来的元素会高亮，并在右侧显示。

选取节点：

例如选取第一个extra-notes下的一级子节点中的第二个note元素，就可以这么写：

//extra-notes[1]//note[2]

选取属性和文本

/@ 拿属性，app/@name 表示获取app元素中的name属性值.
//@ 拿属性，app//@name 表示app及以下所有元素中的name属性值
[@xx='aa'] 过滤属性xx值是aa的节点。
/text() 获取当前元素下的文本
//text() 获取当前元素和子元素下的文本
[text()='hh'] 获取文本内容是hh的元素，
/normalize-space() 获取当前元素的内部文本去掉空格。经常hh前面有空格，导致匹配不出来可以使用//*[normalize-space() = 'hh']，注意该函数修饰的节点如果有子节点文本是拼起来用空格隔开的。

常见的函数（除了上面的text normalize-space）