C# 正则获取网页内容, 抓取html源代码里的 title

C# 正则获取网页内容, 抓取html源代码里的 title

using System.Text.RegularExpressions;

        static void Main(string[] args)
        {
            // 注意文本编码, 建议选择utf-8格式编码, 要不容易出现乱码
            string content = System.IO.File.ReadAllText("html源代码.txt");

            // 建立正则匹配, 抓取html源代码里的title
            string titleReg = "(?<=<title>)(.*?)(?=</title>)";
            string title = "";
            try
            {
                // 正则匹配
                Match m = Regex.Match(content, titleReg);
                if (m.Success)
                {
                    title = m.Value;
                }
                Console.WriteLine(title);
            }
            catch (Exception ex)
            {
                Console.WriteLine(ex.Message);
            }
            Console.Read();
        }


“html源代码.txt”示例内容

<!DOCTYPE html>

<html>
<head>
    <title>标题</title>
</head>

<body>
内容
</body>
</html>



热门推荐