読者です 読者をやめる 読者になる 読者になる

ログマニアックス

日々学んだこと、気づいたことをメモ代わりに残していければ。カバー範囲は割と広めです。

データレイクと言う考え方

NewImage

Pentahoのビッグデータへの取組みドキュメントをUp - オープンソースBIのPentaho(ペンタホ)ブログ

という記事で紹介されていたPDFがすごい感覚的に同意したのでメモ。

www.pentaho-partner.jp/doc/bigdata_bi_pentaho.pdf

実際には上記のPDFを参照とのこと。

 

Hadoopのようなビッグデータを扱えるプラットフォームが一般化してくると、
感覚的にデータをすべてそこの預ければいいじゃん、という気持ちになりますが、
実際には正規化されていないデータを大量に持っているだけでは、
いざ使おうという際に、かえって前処理などに時間がかかってしまうのです。