String」タグアーカイブ

Pythonで全角を2文字として文字数を数える方法

Pythonの文字列はlen関数で文字数をカウントできますが、全角と半角の区別はしません。

>>> len(u'abcde')
5
>>> len(u'あいうえお')
5

これはこれで便利な実装なのですが、日本語のテキスト処理をしていると、等幅フォントを使ったときに幅をそろえたいなどで、全角を2文字として数えると何文字になるか調べたいことがあります。そういう場合にはunicodedataeast_asian_widthが使えるようです。

unicodedata.east_asian_width(chr)
ユニコード文字 chr に割り当てられたeast asian widthを文字列で返します。
http://docs.python.jp/3.3/library/unicodedata.html

east_asian_widthの戻り値はF H W Na A Nで、それぞれ次のような意味になっているようです。

F(Fullwidth; 全角)- 互換分解特性 を持つ互換文字。文字の名前に “FULLWIDTH” を含む。いわゆる全角英数など。
H(Halfwidth; 半角)- 互換分解特性 を持つ互換文字。文字の名前に “HALFWIDTH” を含む。いわゆる半角カナなど。
W(Wide; 広)- 上記以外の文字で、従来文字コードではいわゆる全角であったもの。漢字や仮名文字、東アジアの組版にしか使われない記述記号(たとえば句読点)など。
Na(Narrow; 狭)- 上記以外の文字で、従来文字コードでは対応するいわゆる全角の文字が存在したもの。いわゆる半角英数など。
A(Ambiguous; 曖昧)- 文脈によって文字幅が異なる文字。東アジアの組版とそれ以外の組版の両方に出現し、東アジアの従来文字コードではいわゆる全角として扱われることがある。ギリシア文字やキリル文字など。
N(Neutral; 中立)- 上記のいずれにも属さない文字。東アジアの組版には通常出現せず、全角でも半角でもない。アラビア文字など。

http://ja.wikipedia.org/wiki/%E6%9D%B1%E3%82%A2%E3%82%B8%E3%82%A2%E3%81%AE%E6%96%87%E5%AD%97%E5%B9%85

実際に使ってみると次のようになります。

>>> from unicodedata import east_asian_width
>>> east_asian_width(u'1')
F
>>> east_asian_width(u'ア')
H
>>> east_asian_width(u'あ')
W
>>> east_asian_width(u'a')
Na
>>> east_asian_width(u'α')
A

これを使って、全角を2文字として文字数をカウントするには、例えば次のようにできます。

>>> def length(s):
...   len = 0
...   for i in s:
...     if 'NaH'.count(east_asian_width(i)) > 0:
...       len += 1
...     else:
...       len += 2
...
>>> length(u'hello, 世界!')
12

Pythonの新しい文字列書式操作

Pythonのformatを使った新しい文字列の書式操作は、{}を使って次のようにして使います。

>>> '{0} + {1} = {2}'.format(1, 2, 1+2)
'1 + 2 = 3'

{0} {1} {2}が順になっている場合はポジション引数は省略可能です。

>>> '{} + {} = {}'.format(1, 2, 1+2)
'1 + 2 = 3'

キーワード引数は次のように使います。

>>> 'Hello {name}!'.format(name='John')
'Hello John!'

dxobを使って、10進表記、16進表記などでも表示できます。

>>> '{0:d} {0:x} {0:o} {0:b}`.format(15)
15 f 17 1111

#オプションで0xなどのプリフィックスが追加されます。

>>> '{0:#d} {0:#x} {0:#o} {0:#b}`.format(15)
15 0xf 0o17 0b1111

少し便利な機能として、1000ごとに,を追加することもできます。

>>> '{:,}`.format(1234567890)
1,234,567,890

%03.2f{:03.2f}と書き換えます。

>>> '{:05.2f}'.format(3.141592)
03.14

その他、詳細はリンク先を参照してください。

7.1. string — 一般的な文字列操作 — Python 2.7ja1 documentation
http://docs.python.jp/2/library/string.html


Python 3.0では%を使った書式指定より好ましい書き方とされています。