Pythonで文字コードが不明な文字列(例えばインターネット上のHTMLは文字コードが間違っている場合があります)はnkf
を使うと簡単に取り扱うことができるみたいです。
# emerge -pv app-i18n/nkf
These are the packages that would be merged, in order:
Calculating dependencies... done!
[ebuild R ] app-i18n/nkf-2.0.7 USE="python -perl"
USEフラグにpython
を付けているとPythonからnkf
が使えます。
>>> import nkf
>>> nkf.nkf('-w', 'こんにちは').decode('utf-8')
u'\u3053\u3093\u306b\u3061\u306f'
手軽なので重宝しそうです。