生命科学支援のための生命情報工学

現代バイオテクノロジーの発展は生命現象を物理現象として解析することを可能とした。一つ一つの生命反応の構成要素を解析することによって成功した学問が分子生物学である。

やがて個々の反応を見ていたのでは生命を解析できないことが明らかになった。生命をシステムとして捉えることが必要になったのである。生命をモデル化することにより、生命現象の解明のみならず、人間に有用な新たな生物を設計することが可能になる。

本研究室では、生命現象をシステムとして解析するため重要な3つの主要な技術の開発をしている。

第一の目標は、生命現象の計測技術の開発である。生命現象のセントラルドグマに基づき、生命はDNA−>RNA−>Proteinという反応を繰り返す。計算機の世界の言葉に対応させれば、DNAはメモリ、RNA(以降遺伝子=RNAとする)は命令発行、そしてProteinは命令実行ということができるであろう。生命はMIMDマシンということができるであろう。ゲノム計画の成功によりDNA配列の読み取り技術が確立された。ゲル電気泳動に始まり、キャピラリー電気泳動、最近ではMEMS技術を用いた配列解析チップも開発されている。今後重要になるのは、いつどのような遺伝子が発現しているか、言い換えると、いつどのような命令が発行されているのかを知るための技術の開発である。このための技術として、DNAチップやPolymerase Chain Reaction (PCR)といったものがある。これらの技術は、大量のRNAの発現計測を同時に行うためのものである。われわれは、ゲノム情報を用いて、どの遺伝子がいつどれだけ発現しているかを精確に計測する技術を開発している。

第二の目標は計測されたデータの解析技術の開発である。あるひとつの遺伝子の動きを見ていただけでは生命システム全体の行動を解析することはできない。遺伝子の発現状況を全体としてみることにより、空間的時間的に影響を及ぼしあっている遺伝子の関係を解析する必要がある。これを実現するために、機械学習を用いた組み合わせ数学的手法の開発を行っている。

第三の目標は、上記2つの解析を実行するための計算機システムの開発である。創薬に代表されるHigh Throughput Screening(HTS)と呼ばれるロボット技術の発展により大量の生命現象データが高速に得られるようになった。また、大量に蓄積された生命現象に関する知識を用いた機械学習によるデータの解析アルゴリズムは、複雑な計算手法で構成されている。これら莫大なデータを洗練されたアルゴリズムで処理するためには大量の計算機資源を要求する。さらに遺伝子の個人情報などの生命現象データベース特有の問題を考慮しなければならない。これらの問題を解決するために、われわれは世界中に分散する計算機を用いて大きな計算をするGRID計算機環境を構築している。

また、ある種の遺伝子発現ネットワークの解析はNP完全問題になる。そこで、NP完全問題を高速に解く超並列メモリの開発を行っている。