2016. 08. 18 Update !

イマ旬

大量データに頼らない:スパースモデリングによる情報抽出

大量のデータが集まる時代といわれていますが、データ数の不足が問題となる局面は今でも少なくありません。
少しのデータからでも知りたいコトを知るために、最近注目を集めている情報抽出技術、スパースモデリングが効果を発揮します。

松下 亮祐
株式会社NTTデータ数理システム シミュレーション&マイニング部
研究員 松下 亮祐

イマ旬の注目キーワード
スパースモデリング

データ数の不足を補う鍵は「スパース性」

スパースモデリングの「スパース」とは、まばら・わずかというような意味です。スパースモデリングは、物事に潜むスパース性を利用した情報抽出技術であり、その重要な側面の一つが、得たい情報を少数のデータから抽出できる点です。

具体的にどういうことか、MRI (Magnetic Resonance Imaging) への適用例を題材に説明します。MRI では巨大な磁石を用いて患者の体内のデータを集め、そのデータから体の断面の画像を作成します。

鮮明な画像を作成するには長い時間をかけて多くのデータを集める必要がありますが、一方で患者は検査中に姿勢を変えることができないため、長時間の検査は患者にとって負担となります。

検査時間を短縮しつつ鮮明な画像を作りたい。スパースモデリングでは、この要望に応えるために画像のスパース性を利用します。画像のスパース性とは、体内の画像は同一の物質内ではおおよそのっぺりとしていて、隣り合う画素間で画素値が大きく変化する箇所はわずか (物質と物質との境界のみ) しかないといった性質を指します。

注目すべきポイントがわずかであれば、必要なデータ数は少なくてすみます。データ数の不足を、画像がスパース性を持つという人間の知識で補うことにより、鮮明な画像の作成が可能となります(図1)。

スパース性は様々な現象に普遍的に現れるといわれており、例に挙げたMRI以外にも、IoT (Internet of Things) の構成要素であるセンサーネットワークでの情報収集、通信ネットワークの劣化箇所の検出、天体観測など多くの分野への応用が研究されています。

図1.スパースモデリングによるMRI画像の作成法と従来法との比較。

図1.スパースモデリングによるMRI画像の作成法と従来法との比較。

機械学習×スパースモデリング

データを扱う技術といえば機械学習が流行しています。機械学習手法の中には大量のデータがあることを前提としたものも多いですが、実際のビジネス現場では十分に多くのデータ数が確保できない場合も少なくありません。こうした場合には機械学習とスパースモデリングとを組み合わせることが効果的です。

機械学習において、スパース性は、高次元で複雑に見えるデータも実はシンプルであるという信念を表すのによく使われます。例えば、新店舗の売上を立地・面積・品揃えなど多様な要因から予測することを考えます。このとき、全ての要因が売上と密に絡んでいるのではなく、より単純な予測式をあえて選ぶのがスパースモデリングによるやり方です。

具体的には、多くの要因については売上との関連度をゼロと推定します(図2)。このように、非常に多くの要因が考えられるなか、スパースモデリングを用いることで売上と関連する要因を自動で選別してくれるため、精度良く予測できるだけでなく、機械学習の結果を人間が理解しやすい形で求めることができます。

図2.スパースモデリングを利用した機械学習のイメージ

図2.スパースモデリングを利用した機械学習のイメージ

※1 応用数理 vol. 25, no. 1特集「スパースモデリング: 情報処理の新しい流れ」

http://ci.nii.ac.jp/vol_issue/nels/AN10288886/ISS0000511902_ja.html

※2 Sparse MRI: The application of compressed sensing for rapid MR imaging

http://onlinelibrary.wiley.com/doi/10.1002/mrm.21391/full

※3 A user's guide to compressed sensing for communications systems

http://search.ieice.org/bin/summary.php?id=e96-b_3_685