無線LAN/ホットスポット関連のニュースインデックス

無線LANモバイルスポットナビ(←どうでもいいけどサイト名として長すぎだなぁ)のコンテンツとしてニュースインデックスを作ろうとしているんだけど、基本的にはメンテフリーにしたいので自動巡回で特定キーワードを含んでいる記事をインデックス化しようかなと思ったんだが、なかなか難しい。

というのも、特定キーワードでインデックス化するのはそれほど難しくはないのだけど、複数サイトから記事を取得しようとするとサイトAとサイトBで同じ内容のものがある場合にどちらかひとつのみインデックスに登録するというのはどうやったらいいものか。ある程度タイトルとかを単語にわけてマルチキーワード化して、単位時間あたり(例えば同じ日(24時間以内))に同じようなキーワードの記事がある場合には登録を避けるとかそういう感じだろうか?でも、例えば、同じようなキーワードだとしてもニュースの場合とコラムみたいな場合とかあるからそこまでいくともう自動には判別不能なんですよねぇ。

いまのところこんな感じで自動巡回したものをKtai Infomationのようにインデックス化している。RSSとか配布したら誰かSSIとかJavaScriptで有効に使ってくれるだろうか?(自分のページに貼り付けたいというような人はいるかなぁ?)。もしくは、このシステムごと欲しい人いるかな?(笑)。ある程度、巡回先のサイトによってカスタマイズする必要があるけど設置も含めて面倒見るということでどうでしょう?お安くしておきますぜ!(ぉ

でもって、巡回だけだといい記事とかを漏らすかもしれないし、複数サイトの問題もあるから、複数サイトへの巡回をやめて、例えば、BB Watchだけ定期巡回して、後はRBB TODAYとかCNETとか個人サイトとかでめぼしい記事が合ったらクリッピング(記事追加)をするという方法ならそれなりなニュースインデックスになるような気もしたのでその部分も作ってみる。でもって、↓これが編集画面。

普通に追加したい記事のURLを入れるとHTMLのタイトル要素からタイトルを勝手に抜き出したりするようになっている。削除とか後から編集とかもできる。このあたりは、以前に作っていたウェブベースのRSSリーダの一部を利用している。ついでなので、Javascriptで追加できるように「無線LANニュースを追加」というお気に入りを作っておく。内容は↓こんなやつね。いまのところCGI自体には認証機能はなくて、Basic認証しているところにおいてあるだけなんだけど、認証機能もあったほうがいいのかな。まぁ、現状、京ぽん「AH-K3001V」で投稿するのはこれが便利そうだ。

javascript:window.location='http://www.exsample.com/news.cgi?cmd=add&url='+escape(location.href);

しかも、さらについでにとか思いながらメールでも投稿できるようにしてみる。でも、ケータイからでもメール投稿は面倒だなぁ。メールのタイトルにタイトル、本文にURLを書いておくと追加される。クリッピングのみでコメントとかは書かないようなものをめざしていたからそれだけでいいだろうという感じだが、コメント書きたかったらデータベースの要素を増やせばいいいだけだしね。ふと思ったけど、これはもう普通にクリッピングシステムっぽくあり、塚本さんの「Clip! It」とかとかぶるのかな。というわけで、ここ数日のお遊びハックでした。また、ちょっと違うことやりたくなったのでこれは当分進展しないかも。というか、もうやるとしたら同じ内容のものをいかに載せないかという部分に尽きるのだが、、、もしくは、Googleニュースのように同じっぽいネタなのは1つにまとめるみたいな感じか、どちらにせよ仕組み的にはほぼ同じようなものだしねぇ。というわけで、ニュースインデックス自体もそれなりに重複がなくスムーズに運営できそうだったら公開するということで、一時保留中。

この他にも無線LANモバイルスポットナビとしては無線LANホットスポット系のウェブリングとかブログコミュニティ(トラックバックセンター)みたいなのもやってみてもいいかなとか思っている。いまさらウェブリングとかってのも笑えるかなというのと、いまいち「WLAIS」は参加サイトが増えないからメジャーなシステムに頼ってもいいかなとか思ってみた。複数のデータベースの横断検索システムはやればできるけどやっていいんだろうか?ただ、その場合、データベースごとのアイテムが違うからおおざっぱなものしかできないよねぇ。まぁ、詳細なものは各データベースでってことにすりゃいいんだけど。そんなわけでこんなことやってないで、普通の記事書いたりしろよという話もちらほらだが、、、(コンテンツ増えないのは無線LAN系は普通に記事書く気力がないからなのだが)