プロジェクト概要

Project Summary

DL(Design-Learn)領域概要

油谷 幸代
国立研究開発法人産業技術総合研究所
生体システムビッグデータ解析OIL 副ラボ長

theme

この領域でできること

本プロジェクトにおけるDBTLサイクルとは、Design(細胞設計)→Build(宿主構築)→Test(生産性評価)→Learn(結果の学習)であるが、この中で細胞設計であるDesignと結果の学習であるLearnの部分について、情報解析技術が利用されている。

DL領域の紹介

ビジネスの分野において、PDCAサイクルという手法が一般化されつつある。PDCAサイクルはPlan(計画)・Do(実行)・Check(評価)・Action(改善)を繰り返し実行することで、ビジネスマネージメントにおける各種管理業務を継続的に改善していく戦略的手法の事であるが、このサイクル的改善手法は微生物による効率的物質生産を目的としている本プロジェクトでもDBTLサイクルとして展開されている。本プロジェクトにおけるDBTLサイクル(Design(細胞設計)→Build(宿主構築)→Test(生産性評価)→Learn(結果の学習))の中で細胞設計であるDesignと結果の学習であるLearnの部分について、情報解析技術が利用されている。

我が国における発酵生産分野の歴史は長く、宿主微生物等の育種改変技術ではこれまで諸外国を先行してきた。しかし、合成生物学を利用した「バイオものづくり」の分野は欧米諸国の後塵を拝している。欧米諸国で実施されている「バイオものづくり」では、ロボティクスを活用した大規模データ取得、機械学習・深層学習等のAI技術による改変候補遺伝子の同定と、宿主細胞の遺伝子改変の実施によって従来法より効率的に物質生産株を作製している。本プロジェクトでは、これらの概念の長所は取り入れつつも、単なる後追いではなく、世界的競争力を強化し日本における「モノづくり産業」を活性化させるための新規情報解析技術としてのスマートセル設計システムを開発している。

欧米で先行している宿主細胞改変で利用されている情報科学技術は、基本的に機械学習を基盤としている。この技術の長所は、大量データ(数万~数十万サンプル)がある場合は高精度のルール抽出が可能になるとともに、時間経過とともにデータ数が増えれば増えるほどその精度はより高くなることが挙げられる。その一方で、一定の精度を出すためには宿主細胞および生産物質毎に数万サンプル程度の大量データを必要とするため、コスト的な面で負荷がかかる点が懸念される。現時点において、本分野で後塵を拝している我が国がこれらの先行国との国際競争を対等に行うためには、機械学習のみを利用した時の短所である「大量データ」と「宿主依存型」の2点を解消することが必須である。そこで本プロジェクトでは、「スマートセル=高度に合理化され人為的に設計された高機能な物質生産能力を有する生体細胞」を構築するために、我が国独自の情報解析技術や優位に立っている情報生物学的手法を統合的に組み合わせることで、①現実的なデータ数(最小100サンプル程度)で、②より正確で、③宿主非依存的に利用可能なスマートセル設計システムを開発している。

図1.現場課題を情報解析へ

本システム開発にあたり、生産現場での課題と情報解析による解決法・アプローチの関連性を示したものが図1である。左に生産現場における各種課題を記載している。まず、これらの課題をスマートセルという新概念の生体細胞で実現するために課題を4つに大別した。この4課題を解決する情報解析手法として下記の情報解析技術の開発を行っている。

≫文献等からの知識抽出・学習技術(機械学習を活用した酵素提案スマートセル設計支援知識ベース
代謝経路設計技術
発現制御ネットワーク構築技術
導入遺伝子配列設計技術
酵素改変設計技術

上記の情報解析技術において、理論的基盤は既にプロジェクト参画者によって論文発表されており、理論体系としては確立されてきたものである1)-4)。本プロジェクトでは、このように理論的に裏打ちされた各種技術の実用化利用を目的とし、生産現場において様々な課題を有する実証課題群と連携している。開発してきた理論基盤を各実証課題におけるスマートセル設計用に改良・改変を行うとともに、得られた結果を物質生産現場へフィードバックすることで、より実践的に利活用できる情報解析技術の開発を行ってきた。本講演では、開発してきた情報解析技術を紹介するとともに、いくつかの実証課題への適用例と具体的成果について紹介する。

最後に、本プロジェクトで開発しているスマートセル設計システム全体構成を図2に示す。本システムは、上述した各種情報解析技術の基盤として本プロジェクトで構築したデータベースを中心に、各種情報解析技術が格納データに対して適用可能な構成となっている。芯円に位置するデータベース内にはプロジェクトで測定された各種データの他、既存データベースからスマートセル設計に必要な各種データが学習用に格納されている。これらの公知データとオリジナルデータを複合的に利用し、中円に記載されている各種情報解析技術を適用する。情報解析技術の適用によって、外円に記載された各種「モデル」が構築される。ここで導出される「モデル」とは、生体細胞の持つ機能をグラフもしくはパスウェイ、シミュレーションで表現した生命活動を簡易的に示したシステム概略図を意味する。こうして構築された各種モデルを解釈することで、従来型育種では想定できなかった改変候補遺伝子の提案、宿主細胞への導入遺伝子配列の設計、従来生体細胞がもっていなかった新奇生合成経路の提案などを実現している。

図2.スマートセル設計システム全体像

参考文献

1)Araki, M., et al., Bioinformatics, 31(6), 905-911, 2015

2)Shirai, T., et al.,Microbial Cell Factories, 15(13), 1-6, 2016

3)Aburatani, S., Gene regulation and systems biology, 5, 75-88, 2011

4)Kameda, T., et al.,Proc. Natl. Acad. Sci., 103 (47), 17765-17770, 2006

最終更新日:2020年10月22日 17:47