1. ホーム
  2. 研究について
  3. 先端データサイエンス分野 上田研究室

先端データサイエンス分野 上田研究室

データサイエンスのテクノロジーで生命現象を読み解く

BIGDATA 解析や機械学習といったデータサイエンスを用いた方法を研究し、生物学データを解析し、新規の生命現象を発見することを目指しています。

データサイエンスを用いた生命情報解析

次世代シーケンサーから得られる計測データをハイスループットに解析する情報科学的手法の開発を行っています。近年、大量の生物学データを従来の方法で処理することは困難になっています。さらに、異なる次元のデータを統合し、従来モデル化が難しいデータに対しても関連性を見出すためには、ビッグデータ解析技術や機械学習の最新の成果を取り入れた情報解析が不可欠です。次世代シーケンサーや生命情報学の応用範囲は多岐に渡りますが、以下のような領域で研究を行い、同時にソフトウェアも開発しています。

・ナノポアシーケンサーのデータ解析 ナノポアシーケンサーの波形データからRNA修飾を検出するための深層学習ソフトウェアを開発し、様々なRNA 修飾の検出を行っています。RNA 修飾は様々な生命現象に関与しており、mRNA 創薬においても応用が進んでいます。

・Drug Repositioning 新薬の開発には数千億円単位の投資が必要であり、特に希少疾患に対しては新しい薬の開発が困難です。このため、既に承認されている薬剤を別の病気に適応するDrug Repositioning が近年注目されています。薬剤、タンパク質、疾患をノードとする大規模なグラフに対してGraph Attention Autoencoder を適用する新しい方法を開発しています。

数理手法による問題解決

デジタルデータが大量に蓄積され、機械学習アルゴリズムが進化することで、さまざまな分野の問題解決に数理工学的な方法を応用できるようになってきました。当研究室では、Graph Neural Network を使用したDrug Repositioning の研究や、Transformerモデルを用いた大規模言語モデルで生成された知識グラフの生成とその応用に関する研究も行っています。 AIやデータサイエンスに関する知識は日々増大し変化していくため、その全体像を把握し教育プログラムを構築することは難しい問題です。知識にどのような広がりや依存関係があるのかを、知識グラフで表現し可視化することでさまざまな応用が可能になります。当研究室では、Transformerモデルを使用した大規模言語モデルを用いて、大規模なデータから半自動的にこれらの知識グラフを生成する方法を研究しています。また、先端研7 分野をデータで連携し、データサイエンスを活用したデータ駆動型研究、教育、社会実装を牽引・支援することを目的としたプロジェクトCDDI(Cross Disciplinary Data Initiative)を推進しています。

  • rRNA上の複数種類のRNA修飾の同時検出

    rRNA上の複数種類のRNA修飾の同時検出

  • リードレベルのm6A修飾の検出

    リードレベルのm6A修飾の検出

  • LLMを使って作成した知識グラフ

    LLMを使って作成した知識グラフ

ミニコラム
上田研究室では、「ナノポアシーケンサを用いたRNA 修飾」を中心に研究を進めていますが、様々なテーマに取り組んでいます。また、先端研内の他分野や他の研究機関との共同研究も積極的に進めており、生物学を含め多くの分野でAI を利用した研究を進めたいと考えています。コンピュータ科学はチューリング以来、理論が先導してできた分野だと思っていたのですが、深層学習は、蒸気機関みたいに理論が完成するより前に、機械ができたみたいなところがあって、18 世紀に戻ったのか?みたいな変な感じで、ごちゃごちゃやってますが、時代の変わり目はこんなものでしょうか。ともかく興味のある方は一緒に研究しましょう。是非ご連絡ください。

メンバー

  • 上田 宏生 特任講師
  • 専門分野:生命情報学、データサイエンス
  • 辻 真吾 特任准教授
  • 専門分野:機械学習、生命情報学
特任助教 ダスグプタ バスカル

研究室ホームページ

関連タグ

ページの先頭へ戻る