メールアドレス(半角):

バックナンバーはこちら

Solution

製品紹介


リッテル上席研究員
清田陽司のtwitterです。



つづきはこちら リッテルテキストマイニング一覧へもどる

現状の質問応答システム(FAQなど)が抱える課題

質問内容とテキスト情報データベースとの間にギャップがあり、
質問に対応するテキストになかなかたどりつけない・・・

⇒ ⇒ ⇒ 専門家(エキスパート)やコールセンターでは対人対応によって質問者との対話を通してそのギャップを埋めている

どんな仕組みが必要なのか?

■エキスパートやコールセンターを代替するシステム

⇒ ⇒ ⇒ 漠然とした質問について,対話的に聞き返しを行うことによってユーザが求める答えにナビゲートするシステム

■質問とテキストの柔軟なマッチング・ユーザーとの対話式ナビゲート

⇒ ⇒ ⇒ ユーザを適切なテキストに導くための方法

解決のための技術手法

■自然言語処理技術に基づいたマッチングとその応用

・文の構造にもとづく柔軟で正確なマッチング

文構造の解析:形態素・構文解析 各文節のキーワードを認識 文節の分割・併合

否定表現フラグ:否定表現のバリエーションを吸収

同義表現辞書:ユーザ質問文と知識ベースの間の表現のずれを吸収

上位・下位語辞書

類似度計算:ユーザ質問文とテキストの類似度計算 : 係り受けへの重みづけ

質問タイプによる絞り込み:文末表現パターンにより質問文を分類      What型:用語集 How型:ヘルプ集 Symptom型:サポート技術情報

冗長な文末表現の削除:文末表現パターンのうち,マッチングにおいてノイズとなるものを削除

製品名による絞込み

・聞き返しによるユーザのナビゲート

文構造マッチングに基づくボトムアップの聞き返し

コールセンターの知見に基づくトップダウンの聞き返し

文の構造にもとづく柔軟で正確なマッチング

■文構造の解析

・構文解析とキーワード抽出

ユーザ質問文とテキスト文の両者について,JUMAN(黒橋, 長尾1999),KNP(Kurohashiand Nagao 1994) によって構文解析を行い,各文節に含まれるキーワードを抽出する.JUMANにおいて,普通名詞・固有名詞・人名・地名・組織名・数詞・動詞・形容詞・形容動詞・副詞・カタカナ・アルファベットと解析された語の原形をキーワードとみなす.ただし,一般的な語彙「する」「ある」「行う」「おこなう」「行く」「いく」「なる」「下さる」「くださる」「ございます」「できる」「出来る」は,キーワードとしない.

・文節の分割・併合処理

(1)複数のキーワードを含む文節は,1 キーワード毎に分割する.分割された隣り合う文節同士は,係り受けの関係にあるものとする.ただし,カタカナ語・アルファベット・数詞が隣接している箇所では分割しない.

(2) 「(?に) ついて」「(?) こと」などの複合辞・形式名詞・副詞的名詞からなる文節,キーワードを含まない文節は,直前の文節に併合する.

■否定表現フラグ

ユーザ質問文とテキスト文のマッチングの際に否定表現のバリエーションを吸収するために,文節にフラグを付与する.具体的には,形容詞「ない」,助動詞「ぬ」,または形容動詞「不可能だ」を含む場合に否定フラグを付与する

■辞書 ( 表現のズレの吸収 )

・同義表現辞書

 「パソコンを起動する」「Windows を起動する」「電源を入れる」のように,2 文節以上のフレーズレベルにおいて多数存在する.そこで,同義語だけでなくフレーズレベルのものも含んだ同義表現をグループ化

・上位・下位語辞書

テキストに現れるキーワードの上位語・下位語を,キーワードと同様に扱う。例えば,「ブラウザ」⇔「IE6」,「ブラウザ」⇔「IE5」といった表現のずれ

■類似度計算

・文類似度の計算

ユーザ質問文とテキスト文の2 文の類似度の計算は,文節を単位として行う.2 文の互いに対応する文節と係り受け関係の割合(被覆率) をそれぞれ計算し,その積を2 文の類似度とする.

■質問タイプによる絞り込み

テキスト検索モジュールは,入力解析モジュールによって推定された質問パターンにもとづいて,テキスト集合を絞り込む.原則として,用語集はWhat 型,ヘルプ集はHow 型の質問に対応させる.サポート技術情報についてはSymptom 型・How 型を示すタグが付与されているので,これを利用する.なお,What 型の質問については必ずしも用語集を用いて答えればよいとは限らない.例えば,「コントロールパネルについて教えて」のような質問はWhat 型に分類されるが,用語の定義ではなく操作方法などについて聞いていると解釈することもできる.よって,全てのテキストを検索対象とした上で,複数の知識ベースのテキストがユーザ質問とマッチした場合には用語集のテキストを最初に提示する

■冗長な文末表現の削除

「話し言葉検索」の検索ログを分析した結果,ユーザの質問には主に3 つのタイプが存在することがわかった.文末表現パターンを用いて,ユーザ質問文の質問タイプ(What 型,How 型,Symptom 型,タイプなしのいずれか) を推定する.また,文末表現パターンのうち,「?って何ですか」「?方法を教えて」のようにテキスト検索においてノイズとなるものについては,ユーザ質問文から削除する

■製品名による絞込み

質問文にプロダクト名(Windows NT,Word,Excel など) が出現する場合は,そのプロダクトを対象とするテキストを検索対象とする.

聞き返しによるユーザのナビゲート

■ユーザのナビゲート

ユーザの質問(遭遇している問題) をより具体化するような説明文をテキスト中から自動的に抽出し,それらを選択肢として提示するという形でユーザへの聞き返しを行う

■状況説明文の抽出

たとえば,ユーザが「ページ違反が発生する」と質問し,これが「IE5 を起動した際にページ違反が発生する」という文にマッチした場合,マッチしていない「IE5 を起動した際に」という部分が状況説明文となる.ユーザの質問にマッチした複数の文からそれぞれ状況説明文を抽出し,ユーザに選択肢として提示すれば,ユーザは自分の状況に適合するものを容易に選択することが可能となる

■対話カードを用いた聞き返し

頻繁に尋ねられる曖昧な質問に対して,それを対話的に具体化する手順を対話カードという形式で体系化した.1 枚の対話カードは,あるユーザ質問に対して,どのような聞き返しをすればよいかを記述したもの

■聞き返しによるマッチング 

・状況説明文の抽出


テキストマイニング


テキストマイニング


■対話カード処理、知識ベース処理に用いられるモジュール 

・入力解析モジュール

質問文を3 種類の質問タイプ(Symptom 型,How 型,What 型) に分類し,質問文の内容表現を抽出する.さらに,構文解析,キーワードと同義表現の抽出などを行う

・テキスト検索モジュール

対話カードおよび知識ベース(以下,これらを総称してテキストという) とユーザ質問文のマッチングを行い,スコアの高いテキストを返す.マッチングの際には,同義表現辞書,上位・下位語辞書を用いて表現のずれを吸収する

・状況説明文抽出モジュール

知識ベース中のユーザ質問文とマッチした文の,マッチした部分の周囲を抽出することによって,ユーザにとって簡潔でわかりやすい選択肢を提示する



テキストマイニング


換喩表現マッチング

換喩とは比喩の一種: あるものをそれと関連する別のものに置き換えて表現する現象


テキストマイニング

得られた換喩表現・換喩解釈表現ペアを同義表現辞書に登録


表記ゆれの自動補正とは

同じ語句に対して違う表現がある場合、自動的に判定して表示することが可能です。

(利用例:検索エンジンの検索結果にて「もしかして?ですか?」表示やワープロでの表記修正機能など)

「リッテルテキストマイニング」

入力ミスの補足や同意語の表現訂正機能などが実装可能になる!

お問い合わせ

ページTOPへ

つづきはこちら リッテルテキストマイニング一覧へもどる