ものがたり(旧)

atsushieno.hatenablog.com に続く

CJK ordering sucks

Windows上では、一と㆒と㊀は絶対に同一視できないらしい。何でCJK ideograph領域を完全なCodepoint順にしなかったんだか。
互換字ならdiacritical weightあるいはspecial weightで調整することで、より柔軟な文字列比較も可能になったはずだし(special weightはいずれにしても複雑なので、CJK互換字の同一視フラグが追加されたところで大した損失にはならない)、何よりCJK領域に関するでっかいマッピングをインメモリに保持しなくてもすんだはずなのだ。

視点を他の記号に移してみれば(たとえばU+2460とか)、僕が書いていることがちっとも不思議ではないことが理解できるだろう。