メールアドレス(半角):

バックナンバーはこちら

Solution

製品紹介


リッテル上席研究員
清田陽司のtwitterです。



リッテルナビゲータ

【 概 要 】

・図書館レファレンスサービスの支援システム
・図書館を活用した調べごとのナビゲーションシステム
・キーワードから図書館分類の候補を導出、そこから蔵書の件名検索が可能
・関連項目、分類に属する情報リソースの提示、視点を変えて調べごとを行うヒントの提示
・Wikipediaの記事全文検索結果を提示、関連性を調べる上でのヒントの提示

【 特 徴 】

・フォークソノミーとタクソノミーを統合した分類導出
・キーワードからどのような言葉のネットワークを辿って候補となる図書館分類に
 つながっているか、 シソーラスを可視化
・類似検索、関連語検索、記事全文検索

機械学習を用いた特徴抽出モジュール

【 概 要 】

・検索エンジンのクエリーワードから、OKワード、NGワードの自動判別を行う
・従来、人手で判別していた(数万件/週)作業を10%以下まで落として、同等の精度を達成
・OK/NGワード辞書の構築

【 特 徴 】

・機械学習器(ML)は、CRF、SVMそれぞれの機械学習器を用いたOK/NG判別器
・CRFでは形態素解析を用いて、単語レベルで処理
 ラベル系列の確率値(スコア)を算出
 隣接する形態素の依存性を考慮した特徴集合を用いる
・SVMでは、形態素解析は使わず、2-gram+3-gram の組み合わせを使用
 これを特徴集合として用いる
・分割法によるテストシミュレーションを行い、最も生産性の上がる閾値を設定

n-gramモデルを用いた文字化け復元アルゴリズム

【 概 要 】

・検索エンジンのクエリーワードから不完全なデコードデータを復元する
・下記の課題への対応策
  ・どの文字コードに対応しているのか判断できない
  ・機種依存文字((株)など)が判断できない

【 特 徴 】

・デコード結果とワード辞書のn-gramモデルとのマッチング
・文字列の組合せが単語としてもっともらしいものをそれぞれの文字コードで比較し判断
 デコード結果をワード辞書と照合し、文字列の組合せが単語として形成されているかどうかを判定
     デコードされた連続する文字列についての尤度算出
・文字n-gramモデルの特徴(未知語に強い、検索漏れが少ない、表現の揺れに強い)を活用

NGワード辞書の活用によるヒント情報の提示

【 概 要 】

・人手判断が必要なNGワードのうち、言葉の意味が判らないクエリーワードについて判断材料を提示
・その都度インターネットで意味や使い方などを調べる作業時間を短縮
・人間では感覚的にわかるNGワード判断のモデル化
   ・NG確率の高い文字列が連続した場合の判断
   ・文字列の先がどうなっているのかを予測できるモデル

【 特 徴 】

・調べたいクエリーワードから自動的に検索エンジンへアクセス、検索結果を取得
・検索結果の文字列をNGワード辞書とをマッチング、NGに該当する文字列が含まれる
 Webサイトのテキスト情報を取得
・NGワード辞書のn-gramモデルを利用するアプローチを採用したことにより、
 意味などを 知らないワードについても効率的に判断が可能

URLクローリングによる属性情報の関連付け

【 概 要 】

・特定サイトのクローリングによるテキストデータの収集とデータの整形
・各属性の付与 : キーワード属性、カテゴリ属性、URL属性、サイト属性の関連付け
・各属性の関連性を可視化

【 特 徴 】

・キーワード属性 : そのサイトの特徴を表すキーワード群
・カテゴリ属性 : キーワードに近い頻出度の高いカテゴリの自動付与
            (リッテルナビゲーターや既存のカテゴリリストを活用)
           格フレームの活用によるカテゴリ属性の導出
・URL属性 : そのサイトの特徴を現すキーワード、リンク関係
・サイト属性 : カテゴリ属性やURL属性を特徴集合として、機械学習で自動付与

論文

清田 陽司
東京大学 情報基盤センター
図書館電子化研究部門 (中川研究室) 第一分野
助教
博士(情報学)

■Reference Navigator: 異種オントロジーの統合ブラウジングツール -- 図書館の分類体系とWikipediaカテゴリの対応付け

■航空安全情報分析ツール -- human factorに着目したレポート分析手法の提案

■大規模テキスト知識ベースに基づく自動質問応答 -- ダイアログナビ

他、多数

ページTOPへ