用Python解析HTML,BeautifulSoup使用简介
Beautiful Soup是一个用于解析HTML文件的Python库,这里介绍一下它的基本使用方法。
Beautiful Soup字面意思是美好的汤,主页在 http://www.crummy.com/software/BeautifulSoup/, 下载与安装无需啰嗦,假设你已经装好了,现在开始吧。
装汤——Making the Soup
首先要把待解析的HTML装入BeautifulSoup。BeautifulSoup可以接受文件句柄或是字符串作为输入:
from bs4 import BeautifulSoup
fp = open("index.html")
soup1 = BeautifulSoup(fp)
soup2 = BeautifulSoup("<html>data</html>")
汤料——Soup中的对象
标签(Tag)
标签对应于HTML元素,也就是应于一对HTML标签以及括起来的内容(包括内层标签和文本),如:
soup = BeautifulSoup('<b class="boldest …