「String」タグアーカイブ

Pythonで全角を2文字として文字数を数える方法

Pythonの文字列はlen関数で文字数をカウントできますが、全角と半角の区別はしません。

>>> len(u'abcde')
5
>>> len(u'あいうえお')
5

これはこれで便利な実装なのですが、日本語のテキスト処理をしていると、等幅フォントを使ったときに幅をそろえたいなどで、全角を2文字として数えると何文字になるか調べたいことがあります。そういう場合にはunicodedataのeast_asian_widthが使えるようです。

unicodedata.east_asian_width(chr)
ユニコード文字 chr に割り当てられたeast asian widthを文字列で返します。
http://docs.python.jp/3.3/library/unicodedata.html

east_asian_widthの戻り値はF H W Na A Nで、それぞれ次のような意味になっているようです。

F（Fullwidth; 全角）- 互換分解特性を持つ互換文字。文字の名前に “FULLWIDTH” を含む。いわゆる全角英数など。
H（Halfwidth; 半角）- 互換分解特性を持つ互換文字。文字の名前に “HALFWIDTH” を含む。いわゆる半角カナなど。
W（Wide; 広）- 上記以外の文字で、従来文字コードではいわゆる全角であったもの。漢字や仮名文字、東アジアの組版にしか使われない記述記号（たとえば句読点）など。
Na（Narrow; 狭）- 上記以外の文字で、従来文字コードでは対応するいわゆる全角の文字が存在したもの。いわゆる半角英数など。
A（Ambiguous; 曖昧）- 文脈によって文字幅が異なる文字。東アジアの組版とそれ以外の組版の両方に出現し、東アジアの従来文字コードではいわゆる全角として扱われることがある。ギリシア文字やキリル文字など。
N（Neutral; 中立）- 上記のいずれにも属さない文字。東アジアの組版には通常出現せず、全角でも半角でもない。アラビア文字など。
http://ja.wikipedia.org/wiki/%E6%9D%B1%E3%82%A2%E3%82%B8%E3%82%A2%E3%81%AE%E6%96%87%E5%AD%97%E5%B9%85

実際に使ってみると次のようになります。

>>> from unicodedata import east_asian_width
>>> east_asian_width(u'１')
F
>>> east_asian_width(u'ｱ')
H
>>> east_asian_width(u'あ')
W
>>> east_asian_width(u'a')
Na
>>> east_asian_width(u'α')
A

これを使って、全角を2文字として文字数をカウントするには、例えば次のようにできます。

>>> def length(s):
...   len = 0
...   for i in s:
...     if 'NaH'.count(east_asian_width(i)) > 0:
...       len += 1
...     else:
...       len += 2
...
>>> length(u'hello, 世界!')
12

Pythonの新しい文字列書式操作

コメントを残す

Pythonのformatを使った新しい文字列の書式操作^注は、{}を使って次のようにして使います。

>>> '{0} + {1} = {2}'.format(1, 2, 1+2)
'1 + 2 = 3'

{0} {1} {2}が順になっている場合はポジション引数は省略可能です。

>>> '{} + {} = {}'.format(1, 2, 1+2)
'1 + 2 = 3'

キーワード引数は次のように使います。

>>> 'Hello {name}!'.format(name='John')
'Hello John!'

dxobを使って、10進表記、16進表記などでも表示できます。

>>> '{0:d} {0:x} {0:o} {0:b}`.format(15)
15 f 17 1111

#オプションで0xなどのプリフィックスが追加されます。

>>> '{0:#d} {0:#x} {0:#o} {0:#b}`.format(15)
15 0xf 0o17 0b1111

少し便利な機能として、1000ごとに,を追加することもできます。

>>> '{:,}`.format(1234567890)
1,234,567,890

%03.2fは{:03.2f}と書き換えます。

>>> '{:05.2f}'.format(3.141592)
03.14

その他、詳細はリンク先を参照してください。

7.1. string — 一般的な文字列操作 — Python 2.7ja1 documentation
http://docs.python.jp/2/library/string.html

^注 Python 3.0では%を使った書式指定より好ましい書き方とされています。

Shift_JISからUTF-8に変換するサンプル（Windowsストアアプリ）

コメントを残す

MultiByteToWideCharが使えるようです。

WinRT／Metro TIPS：シフトJISのデータを読み取るには？［WP 8］ – ＠IT
http://www.atmarkit.co.jp/ait/articles/1301/17/news074.html

My note

パソコンやプログラミング関連で勉強したことの覚え書き

「String」タグアーカイブ

Pythonで全角を2文字として文字数を数える方法

Pythonの新しい文字列書式操作

Shift_JISからUTF-8に変換するサンプル（Windowsストアアプリ）