ideomics

サブジェクト⇔オブジェクト思考ブロギング

メガサイエンスとメタサイエンス

科学とは人がやらねばならないものなのだろうか。機械が自動的に生成してくれるようなシステムはありえないだろうか。そこまでいかないとしても、今ある文献を統合していくようなアプローチ、例えばメタアナリシスみたいな作業は、もっと自動的にできても良いかもしれない。


Human Genome Projectをはじめ、近年トップダウンに大規模な予算をつけて、価値のあるデータベースやリファレンスを構築するような試みがある。

脳地図の完全解明を目指す、オバマ大統領肝煎りの重要プロジェクト « WIRED.jp

http://wired.jp/2013/02/08/human-brain-project/

Allen Brain Atlas - Home


こういった1000億円規模の、メガサイエンスとも言うべき大きなプロジェクトは、基本的にトップダウンで行われるけれど、これももっとボトムアップに、研究の自由や独自性と両立することは可能だろうか。


例えば、論文の構造化。論文に報告されるようなデータを、XMLのようなsemanticな記述言語によって構造化したり、実験のパラダイム設定(他の実験とも共通する)をsemanticに記述することは可能かもしれない。もしXMLのようなセマンティックな構造化をすることで、パラダイムやデータフォーマットなどのメタレベルの情報を記述し共有することが可能だとしたら、そこから、機械によって、メタアナリシスや情報の統合などを自動的にできるかも。いわばメタサイエンス。


インターネットはバーナーズ・リーが、欧州原子核研究機構(CERN)にいたときに開発したドキュメント共有構造がモデルになっていると言われるけれど、セマンティックなウェブも、(日常世界よりは相対的に構造化しやすい)アカデミアから範を示すのが自然と言えるだろうか。ちょうどCERNのようなビッグプロジェクトが目白押しの今は特に。メガサイエンスを、メガで終わらせず、メタのレベルに持って行くこと。


メガサイエンスが示しているのは、規模の大きさだけでなく、そういったメタレベルのセマンティックな記述の可能性もあるかもしれない。そして、データベースの構築が目的になるということは、数式や法則に還元して記述しようという理論的な試みとはまた違ったサイエンスのパラダイムと言えるかも。Database-centric approachというか。Database-centric science/meta-science。


こうしたトップダウンのメガサイエンスだけでなく、グラントや財団、ジャーナルが主導することで、セマンティックレイヤーの普及や標準化というのはありえる。例えば、XML様の構造化を必須にするとか。トップダウンではなく、ボトムアップに近いやり方で、データベースの構築を進める方法もありそうだ。


テキストマイニングといった手法を応用して、これまでの文献の統合していくというレトロスペクティブなアプローチは徐々に出てきているようだけど、
"A gene ontology inferred from molecular networks"
これから生成されてくる文献やデータをいかに構造化して、機械的なメタアナリシスやデータ統合を可能としていく基盤を作っていけるかどうか。


*******************

2013年3月11日追記

科学研究のもつ歴史への関心/時間への無関心:Daston "The Sciences of the Archive" (2012) - f**t note

天文学や地質学といった長期的データが必要な科学、あるいは、植物学や動物学といった様々な標本が必要な科学においては、データや標本のアーカイブといった「歴史」は重要な意義をもっていた。

アーカイブ科学という名称もあるのか。情報の方に振れば、Database-centric approachという感じか。ニュートンの前には、ケプラーがいた。というのはとても大事だと思う。