データベース・セントリック・サイエンス

科学研究がますます大規模に、データリッチになっている。ゲノム研究は特にそれが顕著。データを生成したものの、ラボだけで留めているのはもったいないので、多くのジャーナルがデータの公開を要請している。

データの公開と一口にいっても色々な形があるわけで、やはり規格の統一が必要になってくる。DNA配列のデータなどは、もともと高度の標準化されているので、データの形も比較的規格化しやすい。BAMとかVCFとか、ファイルのフォーマットもかなり統一されている。

データの流れとしては、だいたい
1. データ生成
2. データ・アーカイブ
3. データ利用
といった感じになろうかと思うが、どの段階でまとめるにしても、段階をうつるにしても、やはり規格化されていないとやりづらい。なので、できれば最初の1.の段階で規格化できていると嬉しいし、遅くても2.では規格化しておきたい。

メガサイエンスとメタサイエンス - ideomics
でも触れたが、大規模なプロジェクトは賛否両論あるだろうけど、こういったデータ規格化を促進することによって、将来的に、ボトムアップ性と、トップダウン的なスケーラビリティを両立することを可能にできたら、プロジェクトそのものの成果以外にも意義があると思う。

ちょっと前のNature:
Publishing frontiers: The library reboot - Nature
でも、（実験や研究そのものから離れて）データを取り扱う人の重要性が増してきていて、司書librarianが再定義されていると表現している。これは、科学の分野に止まらずある傾向だと思うが。

また、トムソン・ロイターも、有名な（悪名高い？）imapact factorのような感じで、data contributionを評価するようなData Citation Indexというのを作っているらしい。
Web of Knowledgeの新リソース『Data Citation Index』をALAで発表－トムソン・ロイター

実際、このあたりの話は
科学研究手法の「第四のパラダイム」としてのData-intensive Computing | JOURNAL | FERMAT
The Fourth Paradigm: Data-Intensive Scientific Discovery - Microsoft Research
のように、インフォマティクス界隈では、2009年前から話しをされているような古い話ではあるみたいだが、ゲノミクス以外の分野では、どういったデータの規格化や、あるいは、XML的なセマンティックレイヤーの付加が可能になっている/いくのだろうか。