非構造化データ:データ ストレージ | Dell Technologies Japan
TAG: データ分析のお作法 POSTED: 2015. 11. 12 08:46 本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) 非構造化データを表形式の変換して、分析項目を明確にする 近年、ソーシャルゲームやSNSを中心として、Web通信のデータ形式として、XML形式やJSON形式などの「規則性がある非構造化データ(以下、非構造化データ)」が使用されることが多くなりました。そして、これらの非構造化データがデータ分析の対象として注目されています。しかし、この非構造化データは、データ分析として非常に扱いにくいのが一般論です。今回は、そのような非構造化データを分析する方法について、ご紹介したいと思います。 (分析用語参照: 構造化データと非構造化データとデータの規則性) なぜ、非構造化データはデータ分析に向かないのか?
非構造化データは構造化データに変換して分析する ~人の頭は&Quot;表&Quot;でしか考えられない~ | データ分析のお作法 - Gixo Ltd.
「 非構造化データ 」とは、企業の基幹システムに保管されている構造化データに対し、日常業務で増える電子文書や紙文書、写真、動画、音声、Webコンテンツなど構造化されていないデータを指す。 たとえば、従業員が作成したオフィス文書、顧客とのコミュニケーションで使われるメールやソーシャルメディア、あるいはコールセンターの通話記録や病院で撮影するレントゲン写真なども非構造化データに含まれる。 ビッグデータ活用と言う場合、構造化データだけでなく非構造化データも対象になっているのが一般的である。 年間増加率50%という勢いで増えづつけている非構造化データには、CRM(顧客関係管理)やERP(統合基幹業務システム)など業務システムに蓄積された構造化データでは発見できない貴重な情報が含まれているためである。 現在、時間とともに参照されなくなり、やがてファイルサーバなどに放置されたままになっている非構造化データを二次利用する動きが活発になっている。 さまざまなフォーマットで保存されている非構造化データを集約し分析することで、企業における新たな知見が得られるのではないかと期待されている。
7%増加し、平均ファイルサイズは前年比23%増加しています。 Veritas Technologiesが分析した全データの50%以上が開発者ファイル、データファイル(. datなど)、画像ファイル、不明なファイル形式で構成されており、不明なファイルは前年に比べて51%も増加していたそうです。これは、顧客データから価値を引き出し、顧客価値を創造するためのカスタムアプリケーションの開発/利用が増加した結果だとされています。つまり、非構造化データは引き続き加速度的なスピードで増加しており、今後も急速に増加していくことでしょう。 非構造化データの管理課題 非構造化データを管理するにあたり、多くの企業が課題だと感じているのが「データやコンテンツ量増大への対応」「データやコンテンツの種類の多様化」「セキュリティ対策の強化」です。特に「データやコンテンツの種類の多様化」は構造化データには無かった課題であり、多種多様なデータに対しどのように対応すればよいのか苦慮している企業が増えています。これらの課題によって生じる問題とは何でしょうか? 構造化データ 非構造化データとは. 1. ストレージコストの増加 データやコンテンツの量が多くなれば、当然ながらそれを管理するための ストレージ が必要になります。従来の構造化データであれば増加量が一定であり、データのライフサイクルを管理したりそれに応じてストレージ増設計画を立てたりするのは簡単でしたが、非構造化データに関しては増加量が不規則であり、かつデータごとにライフサイクルが異なるため管理すべきデータ量が必然的に多くなります。ストレージを増設するには当然コストがかかりますし、増設のたびに作業が必要になるためIT部門の業務効率も下がります。 2. 管理項目増加に伴う負担増加 ストレージを増設することで発生する新しい問題が、ハードウェアが増えることで管理項目も増え、IT部門の負担が増え、システムパフォーマンスやネットワークパフォーマンスが低下するリスクも生じることです。当然ながら、ストレージは増えても管理項目はそのままに維持するのが理想であり、しかしその理想を実現するための選択肢が未だ少ない状況です。 3. 第三者による不正アクセスのリスク 非構造化データは、構造化データに比べて重要なデータが含まれていることがよくあります。多種多様な顧客データなどはその代表例であり、価値のあるデータには常に情報漏えいのリスクが付きまといます。サイバー攻撃を実行する人間は、企業の中で非構造化データが増加していることをすでに理解しており、より高度な攻撃方法を編み出してネットワークへの侵入を試みています。しかし企業側の対応は、セキュリティ技術者を確保できていなかったり、セキュリティ意識が甘かったりすることで対応が後手に回っているというのが現実です。 [RELATED_POSTS] 非構造化データの管理課題を解決するアプローチ 非構造化データによって発生する管理課題をそれが抱える問題は、企業にとって想像以上に深刻なものです。日々増加を続ける非構造化データを適切に管理し、有効的に活用するためには以下5つのアプローチを検討する必要があります。 Sの統合 ネットワークでは接続されていても、物理的には切り離された NAS を仮想化技術によって統合し、1つのストレージプールとして活用することでストレージにかかる管理項目を減らすことができます。さらに、ストレージ管理を拠点内から拠点間へと広げていくことで、統合的なストレージ管理を実現できます。 2.