データマイニング (Data Mining)

大規模なデータベース,データウエアハウス(Data Warehouse)中に蓄積されたデータから傾向や頻出パターンを法則として効率的に発見すること,あるいは,そのための技術をいう.統計学,機械学習,人工知能関連の学問分野で,データの傾向やパターンを発見するための様々な技術は古くから研究・開発されていた.しかし,近年,バーコードリーダーなどのデータ収集技術,大容量ハードディスク装置などのデータ格納技術の発展にともない,分析対象のデータベースは飛躍的に巨大化した.そこで,そのような巨大なデータベースに対しても,効率的に適用可能な新しい技術に注目が集まり,90年代中期頃から盛んに研究が行われ,飛躍的に発展した.

データマイニング技術は,分析対象データが巨大で,個々の計算機能が対象データのサイズに関してほぼスケーラブルであること,すなわち,計算時間の増加量が対象データサイズの増加量にほぼ比例していることで特徴付けられる.そのような,データマイニング技術の代表的なものをあげると,スーパーマーケットのデータから,ビールを購入した顧客はおむつも購入する頻度が高いなど併買商品の相関(Association)を発見する「相関ルール(Association Rule)発見機能」,ビールを購入した顧客が,その後,ブランデーを購入する頻度が高いといった「時系列パターン(Sequential Pattern)発見機能」,ある商品の購入実績があるかないかといったカテゴリー化されたラベル,または,購入金額など連続数値型のラベルをもつデータを,決定木・回帰木などにより分類し,判別ルールを生成する「クラス分類(Classification and Regression)機能」,グループ内の各データが互いに類似しているようなグループ分けをする「クラスタ生成(Clustering)機能」などがある.

解説記事・関連記事
データベース最前線〜データマイニング Bitより
(データマイニングの位置づけ,基本機能を詳しく解説している記事)