lxml を使う

BeautifulSoupが不満足になったら、lxmlを使ってみる。

日本語のサイトをスクレイプする際には、

fo = open(folder+'/%d_%d.html'%(m_code,m),'rb')
root = lxml.html.fromstring((fo.read()).decode('utf-8'))

decode('utf-8')とutf-8でデコードする。
BeautifulSoupではこのようにケアする必要がなかったがlxmlでは必要。