beautiful soup库是python中用来解析html文件的一个工具,他能做到将html文件依据他的标签的特征来取出相应的标签块,比如取出网页的title啊,body啊,或者是某个id对应的东西啊,等等。从而为进一步的加工处理创造条件。从某种程度上讲是替代了正则的作用,但是比正则表达式使用的更加方便。
现在的beautiful soup库已经是第4.2版本了,所以我们通常叫他bs4。bs4作为一个库,其实是有很多的用法的。至于其具体用法,我是参考以下的文档的:
http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
这里讲的比较详细,查阅起来也很方便。至于安装,我一般是用来pip进行的,这个比较方便快捷,也便于管理。
这里权且记录下一些基本的用法:
1 | html_doc = """ |