はてなキーワード騒動について考えてみた
どうも最近ネット上の過剰反応現象が気になる。
「内容が無いなら404を返せ」
これはなんか変な批判の典型だ。URLの先に提供されるリソースがあるかどうかがHTTPステータスの全てである。Wikipediaに限らず全ての(特別にいじっていない)Mediawikiベースのサイトは、「内容が無い項目」について200 OKを返すわけで。Webサイトとして内容が無いかどうかというのはそれぞれのサイトが自分のポリシーとして決めることだ。自分をエンドポイントとして要求されたわけでもないのに勝手に404を自社へのリダイレクトにするVerisignのDNSワイルドカードみたいな逝って良しなものとは話が違う。
キーワードを大量に生成するバイトと自動登録
次に気になるのは、キーワードページをはてなの中で手作業で大量生成しているバイトがいる、みたいな話がまことしやかに流れていること。たとえば
- id:PotD : なるほどねぇ。有効に機能してるキーワードもあるってことは分かった。ただ、社員だかバイトだかを使って誰も使わないようなキーワードページを大量生産することはどうなの?反感買うだけのような気がするのだけど。
- id:bunoum : (略)/「はてなが地道に広告で稼ごうとする」今日も地道に空キーワードを作成するバイトがはじまるお/(略)
とか。営利企業で働いている社会人として、そんな意味のないバイトを雇って営利企業であるはてながペイするとは僕には考えられないし、登録されていないキーワードを考え出すのってバイトにやらせるには結構難しい創作的な仕事じゃね? 仮にそんな「登録」作業をやるとしたら、僕ならhttp://d.hatena.ne.jp/keyword/xxx のHTTPリクエストがあった時に xxx を自動登録対象として考慮するね。少なくとも需要のあるページってそこでしょう。
何を自動登録し何を自動登録しないかは、データベースの設計とか、登録される単語のはてなキーワードとしての有用性とか、いろいろ考慮事項があるはずで、id:TERRAZIがid:ryocotan:20080912のコメント欄で書いているみたいに、簡単に「ATOKから単語を自動登録すれば…」とは言えないように思う。多分ATOKの(特定分野の)単語をそのまま全部登録したら各所の処理(たとえば登録されているキーワードをダイアリーから全文検索してリンク追加)が無駄に重くなるし。新語辞典の類だと、上記のコメント欄で言及されている通り、編集著作物の著作権の問題になりうる(アメリカ語要語集事件 - その判例に対する評価はさておき)。id:comajojoがたまに何かのデータ集(todayとかマンガ家一覧表とか)から引っ張ってくるのを、まあ特段禁止もせず黙認するくらいなら、大した負荷の増加にはならないのではないかなと想像する。
noindex, nofollow
noindexにしたら、検索エンジンによっては、ページ取得前に「noindexなページ」のブラックリスト キャッシュと照合して、そもそも無駄な本文の取得まで行わないように設計しているかもしれない。そうすると、登録したキーワードが検索エンジンのnoindexブラックリストからそのキーワードページのURLが消えるまで、ずっと検索結果に出てこないことにもなりかねない。(検索エンジンの内部の仕組みについては、秘密保持契約と引き替えにいろいろ教わっているかもしれないから(秘密主義のGoogleに関してはそんな情報提供も無いだろうけど)、下手に聞いていると書けないこともあるかもしれない。)
まあこれはあくまで推測にすぎないので、実際にテストページを作ってみた。
追記: これはちょっと修正予定。static htmlページだとHTTPサーバがLast-Modifiedヘッダを返すから、扱いが変わる可能性が小さくないので、後でCGIにする。
ついでにキーワードページのレイアウト
…がいただけないという問題についても考えてみたけど、まず言及日記が一番下に出てくるのは、キーワードによっては膨大な長さになる可変長のコンテンツなわけで、これは仕方ないだろうという気はする。「Y!やGで検索」の部分はその下でもいいだろうとは思うけど。wikipediaはむしろもっと上にほしい(てか段落として含むのであれば、Google Adsが5行もあるのはちょっとうるさいし、wikipediaの下でいい)けど、言及日記リストより下に置くのはおかしい。
そんなわけで、レイアウトを変えた方がいい部分の案が今のところ「検索」の部分しか思いつかない。細々としたユーザビリティの改善の余地はあるかもしれないけど、(上記をふまえてもなお)改善のアイディアがあるなら具体的に示した方がいいんじゃないかと思う。