数据采集
文档状态:编辑中....
Intro
1.[lib]I choose bs4
2.[version]python3.x
Object[BeautifulSoup]
构造参数
Encode
输入编码其实可以自动检测,但是不一定准哦,输出指定UTF8
- from_encoding[以文档指定的编码解析]E:from_encoding="iso-8859-8"
- exclude_encodings[排除编码]E: exclude_encodings=["ISO-8859-7"]
Parser
- xml
- lxml[推荐]
- html5lib
- html.parser[内置]
- 差异比较
parse_only
- SoupStrainer对象
- SoupStrainer("TAG_NAME")
- SoupStrainer(id='##')[选择器]
- SoupStrainer(method引用)
Attribute
Method
Normal
- soup.prettify([编码默认utf8])[格式化输出] [IO]
- soup.get_text()---[获得文本]
- soup.get_text("character")[tag之间character分割]
- soup.get_text("|", strip=True)[以‘|’分割标签,移除空白]
Search
- soup.new_tag("a", href="url")[增加新标签] [增]
- soup.new_string("string", Comment)[Comment] [添加注释] [增]
- soup.find_all('tag')---[查找.标签] [得到.列表] [查]
- soup.find(id='#')------[查找.定位] [得到.唯一] [查]
- soup.select("tag")[CSS选择器] [直接查找] [查]
Traversal
周末放映室
没想到center标签不支持width属性,只能自定义<div>了