常用的Regex

Posted on 2017-11-02 Edited on 2024-05-13 In 编程相关 Views: Word count in article: 301 Reading time ≈ 1 mins.

当进行数据分析时，我们常使用正则表达式爬取字符串得到目标数据。（有点爬虫的感觉）

目标数据为单行的情况

最简单的情况，字符串可能是这样的：
!@#$%[mark1]data[mark2]!@#$%
!@#$%[mark1]data[mark2]!@#$%
…

其中“!@#$%”为一大段不关心的字符，[mark1]和[mark2]为特定字符用于标记数据。我们的目标是将这个data得到。
以源字符串、[mark1]和[mark2]分别为srcData、”#”、”!”为例，可以这样匹配：

1	string value = Regex.Match(srcData, "(?<=#).*?(?=!)").Value;

此段代码将对#和!之间的除\n之外的字符进行非贪婪匹配。
注意，由于使用了通配符”.”,如果目标数据是多行,该正则表达式将不能正确匹配。

前段时间的一个项目中要求从.c文件中获得某一struct的全部成员变量，一般而言struct内部都是多行的，因此上一种方式无法正确匹配。

1	string value = Regex.Match(srcData, @"(?<=[START])[\s\S]+?(?=[END])").Value;

这种方式就比较粗暴了，直接非贪婪匹配所有字符（非空格和空格字符），所以得到的数据通常包括\r\n。