現在の検索手法では検索結果の精度は検索者のスキルによるところが多い。
検索のコツや熟練を要さずに欲しい検索結果を表示できる技術として連想検索がある。
[言葉の定義]
・単語検索
Web検索などにおいて行うキーワードを用いて行う検索するもの。
・連想検索
文章内にあるキーワードを用いて関連すると思われる検索結果を表示するもの。
[連想検索の仕組]
1.入力された文章(自然言語)を単語に分解する。(形態素解析)
2.それぞれの言葉が対象となるデータベースで何度使われているかを調べる。
3.使われた単語の頻度によって関連する単語の近さを分析。
4.関連単語の近いものから表示する
以上の工程を経ることにより、言葉の完全一致で厳格に検索するのではなく、「柔らかく検索」することができる。
[連想検索のテクニック]
単語すべてに対してデータベース検索をすると現実的な検索時間が得られない可能性がある。
そのため単語を頻度や関連性に応じてその重要度をスコアづけしスコアの高い単語を抽出する。
こうして抽出された単語(特徴語群)を利用してデータベース検索をする。
[連想検索のメリット]
単語検索では探し出したいキーワードを組み合わせて検索条件として入力した結果を繰り返して知りたい情報にたどり着く。
連想検索では単語同士の類似性を判断し、関連度の近い物から表示する。勘に頼る部分を減して効率的な検索が期待できる。
[連想検索の要点]
言語学やAIをでは使用した者の意図や作為が反映されてしまう。出現頻度で判断することでより純粋なデータとして検索結果を提示できる。
[連想検索エンジン]
汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/
[連想検索エンジンを使用したサイト]
Webcat Plus
http://webcatplus.nii.ac.jp/
新書マップ~テーマで探す新書ガイド~
http://shinshomap.info/
BOOK TOWN じんぼう
http://jimbou.info/
想 IMAGINE Book Search
http://imagine.bookmap.info/index.jsp
[連想検索の将来]
現在では限られた分野での比較的規模の小さなデータベースでの検索しか扱えないが、分野の拡大、データベースの規模の拡大やコンピュータの並列処理の向上によりweb検索エンジンレベルでの検索が可能となると考えられる。
[用語]
・形態素解析
文書を解析を単語レベルに分解する技術。分解されたものは形態素と呼ばれる。
形態素解析に奈良先端科学技術大学院大学・自然言語処理学講座で開発された「ChaSen」というフリーウェアがある。
ChaSen's Wiki - FrontPage
http://chasen.naist.jp/hiki/ChaSen/
[参考サイト]
自分の問題意識にあった新書を探す 新IT大捜査線 - COMZINE by nttコムウェア
http://www.nttcom.co.jp/comzine/new/newdragnet/index.html
丸投げすればイモヅル式に?連想検索とは?/キーマンズネット
http://www.keyman.or.jp/3w/prd/09/30001909/
コメントする