cnDenis的笔记

用Python解析HTML，BeautifulSoup使用简介

Beautiful Soup是一个用于解析HTML文件的Python库，这里介绍一下它的基本使用方法。

Beautiful Soup字面意思是美好的汤，主页在 http://www.crummy.com/software/BeautifulSoup/，下载与安装无需啰嗦，假设你已经装好了，现在开始吧。

首先要把待解析的HTML装入BeautifulSoup。BeautifulSoup可以接受文件句柄或是字符串作为输入：

    from bs4 import BeautifulSoup
    fp = open("index.html")
    soup1 = BeautifulSoup(fp)
    soup2 = BeautifulSoup("<html>data</html>")

标签对应于HTML元素，也就是应于一对HTML标签以及括起来的内容（包括内层标签和文本），如：

    soup = BeautifulSoup('<b class="boldest …

more ...