東京工業大学　情報理工学院　関嶋研究室

研究内容

当研究室では、機械学習や大規模計算機のシミュレーションを用いたスマート創薬や材料開発を行うプラットフォームの開発やその応用を目指しています。

特定の化合物から評価関数に基づき最適化する機械学習手法

新規な薬の研究開発では、Hit-to-Lead、リード最適化と呼ばれるヒット化合物と呼ばれる（例えば感染症のウイルスの複製にかかわるタンパク質の機能を阻害する）化合物を少しずつ変化させながらより望ましい性質を持つ化合物を探索するプロセスがあります。考えられる化合物の数は有機低分子のみでも10の60乗程度と言われており効率の良い探索が必須です。近年は深層学習を用いた化合物探索の効率化が注目されており様々な手法が研究されています。本研究では0から化合物を生成するのではなく特定の化合物（例えばヒット化合物）から生成をスタートするということに注力したMERMAIDという化合物最適化手法を開発しました。MERMAIDは評価関数と最適化対象の化合物を入力として受け取り、化合物の文字列表現であるSMILESを強化学習 (モンテカルロ木探索)と深層学習(RNN)を用いて評価値が大きくなるような編集をすることにより化合物を最適化します。結果として生成される化合物はスタートの化合物のを改変し評価関数の値を大きくしたり、リード最適化の文脈に沿うような化合物が生成されることを目指しています。
参考：Erikawa, D., Yasuo, N. and Sekijima, M. MERMAID: an open source automated hit-to-lead method based on deep reinforcement learning. J Cheminform 13, 94 (2021). https://doi.org/10.1186/s13321-021-00572-6

標的蛋白質のアミノ酸配列に応じた化合物生成モデル

創薬において、与えられた化合物のデータベースをスクリーニングするのと同様、薬らしい化合物空間を計算機上で拡張することも非常に重要です。　近年、敵対的生成ネットワーク(GAN)、変分自己符号化器(VAE)、強化学習(RL)などの機械学習を用いた生成モデルの発展に伴い、創薬分野への導入も盛んに行われています。しかし、既存の創薬における生成モデルは、分子量、脂溶性などの物性値を目的関数とするプロパティベースの化合物生成モデルであり、一番大事な要素である標的タンパク質は全く考慮されてないという問題があります。また、Gタンパク質共役受容体(GPCR)のような構造類似度の高いタンパク質を沢山含んでいるファミリーに対する化合物ライブラリーの拡張では、オンターゲット結合性と共にオフターゲット選択性も重要であるため、タンパク質間の関係を表す情報も重要になります。　本研究では、タンパク質情報を化合物の生成条件として用いる、条件付きの生成モデルを構築しました。タンパク質を表現する特徴量として、実験的に得にくい立体構造情報ではなく、既に全体が明らかになっているアミノ酸の配列情報を利用し、Doc2vecモデルを用いてアミノ酸配列の分散表現を取得しました。そして、得られた分散表現と該当する既知の化合物のペアを用いて、条件付き変分自己符号化器(CVAE)を学習を行いました。学習が終わると、ランダムノイズと標的タンパク質の分散表現を自己符号化器のデコーダーに入力することで、タンパク質との結合性とオフターゲット選択性が期待される新規の薬候補化合物を生成することが可能になります。

スマート創薬手法によるヒット化合物の発見

詳細は、プレスリリースを参照してください。

創薬には、十数年にわたる長い期間と3,000億円以上とも言われる膨大な費用が必要であり、近年はこの研究開発費が増加傾向にあります。これまで新規化合物獲得のための期間と費用を削減し、有望な薬候補化合物を効率的に探索するためにさまざまな手法、アプローチが開発されてきました。我々のループは、決定された創薬標的である蛋白質に対して、東京工業大学のスーパーコンピュータTSUBAMEを用いたドッキングシミュレーション（上図）と分子動力学シミュレーション、in vitro試験を組み合わせたスマート創薬により、スペルミジン合成酵素に対する阻害活性を持つヒット化合物を4個発見しました。本研究開発では、IT創薬と生化学実験が連携するスマート創薬で、従来の創薬手法であるHigh Throughput Screening（HTS）に比べ、20倍以上高いヒット率でヒット化合物を見つけることに成功しました。今後、今回見出したヒット化合物について、細胞中に存在するトリパノソーマ科寄生原虫に対する殺原虫活性を確認していくほか、顧みられない熱帯病を始め、他の疾病に対してもこのスマート創薬の手法の適用を進め、創薬コストの削減を目指していきます。
参考：Yoshino, R., Yasuo, N., Hagiwara, Y. et al. In silico, in vitro, X-ray crystallography, and integrated strategies for discovering spermidine synthase inhibitors for Chagas disease. Sci Rep 7, 6666 (2017). https://doi.org/10.1038/s41598-017-06411-9

Mixed Reality（複合現実）による創薬支援システムの開発

　創薬において創薬標的タンパク質や薬候補化合物の立体構造の可視化は非常に重要となっています。しかし、現在多くの分子構造描画システムでは本来3次元の立体構造を2次元のディスプレイで描画しています。本来3次元であるタンパク質や薬候補化合物の立体構造は、その相互作用や化合物の最適化を考える上で3次元で可視化したほうが、より有用な知見が得られると考えています。そこで、本研究ではタンパク質や化合物の立体構造をMixed Reality(複合現実) を実現するデバイスであるHoloLens を用いて複合現実で描画するシステムHoloMolを開発しました。HoloMolはクラウドと連携することで、クラウドのデータをHoloMolで表示したり、クラウドを介して東京と筑波や、筑波とボストンというような遠隔でタンパク質や薬候補化合物の立体構造を共有することを可能にすることを目指しています。

CPU-GPU間の負荷分散に関する研究

TSUBAME2.0や現在世界最速のスパコンTitanをはじめ、通常のCPUに加えてGPUなどのアクセラレータ、コプロセッサーを搭載する計算機が増えてきています。こういった異なるプロセッサが混在する計算環境、すなわちヘテロジーニアスな計算環境においては計算資源を十分に活かすために様々な特殊な配慮が必要となります。その1つが異なるプロセッサ間で計算負荷のバランスをとることです。図は分子動力学法のシミュレーションプログラムNAMDをTSUBAME上でCPUとGPUを用いて実行した際の、プロセッサの様子です。

上側の図に示してある通り、CPUの多くがGPUの計算の終了を待ってアイドル状態(白い領域)となり、計算資源が有効に活用しきれていないことが見て取れます。この状態を改善するために、CPUとGPUの負荷のバランスをとった結果が図の下側になります。アイドルだったCPUにGPUの負荷を割り当てることで、このケースでは約20%程度計算速度を向上させることに成功しました。

参考：T. Udagawa and M. Sekijima, "GPU Accelerated Molecular Dynamics with Method of Heterogeneous Load Balancing," 2015 IEEE International Parallel and Distributed Processing Symposium Workshop, 2015, pp. 1008-1013, https://doi.org/10.1109/IPDPSW.2015.41.

タンパク質・リガンド間の結合自由エネルギー解析システムの開発

左の図は、タクロリムス(FK506)という免疫抑制剤の一種とFKBPというタンパク質の複合体です。FK506とFKBP複合体は、カルシニューリン(CN)と結合することで、CN の脱リン酸化を抑制します。タンパク質は、他のタンパク質や化合物、ペプチドと結合することで様々な機能を発揮しますが、このようなタンパク質と結語する相手であるリガンドとの相互作用を求めることは非常に重要です。
本研究では、大規模計算機があって初めて可能になるタンパク質・リガンド間の結合自由エネルギーを解析するプログラムを構築し、創薬支援を行うことを目指しています。
ちなみに、FK506は筑波山の土壌細菌から見つけられたことでも日本では有名で、現在ではアトピー性皮膚炎の塗布薬にも使用されています。

Van Der Waals力とCoulomb力の片方ずつに0～1の間の変数λv、λcを掛け（掛けていない方の力のλは1で固定）、隣り合うλ間のポテンシャルエネルギー差から仕事量を求め、自由エネルギーを求めます。ポテンシャルエネルギーを求める際に、大規模な分子動力学シミュレーションを行います。W=U(λj, x)-(λi, x)により、ポテンシャルエネルギー差から仕事量を求め、Jarzynskiの式exp(-ΔG/kBT)=<exp(-W/kBT)>により、仕事量から結合自由エネルギーを求めることが出来ます。

確率的情報処理によるタンパク質の熱揺らぎ解析システムの開発

レプリカ交換法などのタンパク質の効率的な構造サンプリングを主眼におく方法では、自由エネルギー地形による解析は強力な手段になりますが、長時間一定の条件でフォールディング、アンフォールディングが観測できるシミュレーションが行えるなら、隠れマルコフモデルのような確率モデルによる解析が現実的になります。

現在、このような長時間のシミュレーションを行うことは多くの研究機関にとっては難しいことだとは思います。しかし、2011年に運用が開始される次世代スーパーコンピューターを始め、多くの研究者がいずれこのような大規模・長時間シミュレーション実行可能になる時が来ると考えています。その時に向けて、今まで行われていた自由エネルギー地形によるタンパク質のフォールディングや熱揺らぎの解析だけでなく、確率モデルによる解析手法等の今までのようなタンパク質のデータ一つ一つを見て議論する時代から、大量のシミュレーションデータから新しい価値を見いだす手法を開発したいと考えています。

また、実際に生化学実験を行っているグループと連携することで、本手法をタンパク質の設計や機能向上へも応用していきます。

シミュレーションの初期構造

シミュレーションの条件

シニョリン(CM001)
伸びた構造からシミュレーションスタート
溶媒環境はGeneralized Born Modelを用いた1μ秒のシミュレーション

自由エネルギー地形による解析

隠れマルコフモデルによる解析

正常な立体構造のプリオンタンパク質の異常構造への構造変化機構の解明

	NMRで構造が決定されたヒトプリオンタンパク質 125-228残基（プリオン病の発病には90-124残基も関連しますが、disorderである為に構造決定は為されていません。）上図をクリックするか、ココをクリックするとプリオンタンパク質の生体環境での振る舞いをアニメーション表示します。
プリオンタンパク質は、アミロイド化して難溶化することで狂牛病の原因となります。プリオンタンパク質は、アミノ酸配列が同じでありながら異なる立体構造をとるisoform（アイソフォーム）が存在していることが知られており、正常な立体構造をとっているものは生体内に元来存在していても、その機能は明らかになっていません。この正常な立体構造がmisfold（ミスフォールド）を起こして異常な構造のisoformとなることにより、アミロイド化・難溶化し、細胞内で沈着する。このことがいわゆるプリオン病と言われる狂牛病、スクレイピー、クロイツフェルト・ヤコブ病などを引き起こす原因となります。しかしながら、この構造転移がどのようにして起き、プリオン病を引き起こすかは明らかになっていません。本研究では、大規模分子動力学シミュレーションから正常な構造のプリオンタンパク質が、どのようにして異常な構造に転移していくのかを明らかにすることを目指しています。
上図は、HIVやインフルエンザなどのウイルスとスクレイピーやクロイツフェルト・ヤコブ病などのプリオン病の感染の仕組みの違いを示す模式図です。ウイルスにおいては、感染に核酸が関与しています。しかし、プリオン病ではプリオンタンパク質だけ、もしくはプリオンタンパク質とファクターXと呼ばれる因子によってのみ感染が広がっていくと言われています。
（左）初期構造、（右）シミュレーション後の構造初期構造において異なっているのは102番目のアミノ酸残基がPro（野生型）かLeu（変異型）という点だけでも、このように僅か一残基の違いがプリオン病の発症に影響を及ぼすならば、その一残基がどのような影響を全体の構造に与えているか解析することは非常に重要だと考えています。このような研究は大規模なシミュレーションが出来て初めて可能になります。

design テンプレート

	NMRで構造が決定されたヒトプリオンタンパク質 125-228残基（プリオン病の発病には90-124残基も関連しますが、disorderである為に構造決定は為されていません。）上図をクリックするか、ココをクリックするとプリオンタンパク質の生体環境での振る舞いをアニメーション表示します。
プリオンタンパク質は、アミロイド化して難溶化することで狂牛病の原因となります。プリオンタンパク質は、アミノ酸配列が同じでありながら異なる立体構造をとるisoform（アイソフォーム）が存在していることが知られており、正常な立体構造をとっているものは生体内に元来存在していても、その機能は明らかになっていません。この正常な立体構造がmisfold（ミスフォールド）を起こして異常な構造のisoformとなることにより、アミロイド化・難溶化し、細胞内で沈着する。このことがいわゆるプリオン病と言われる狂牛病、スクレイピー、クロイツフェルト・ヤコブ病などを引き起こす原因となります。しかしながら、この構造転移がどのようにして起き、プリオン病を引き起こすかは明らかになっていません。本研究では、大規模分子動力学シミュレーションから正常な構造のプリオンタンパク質が、どのようにして異常な構造に転移していくのかを明らかにすることを目指しています。
上図は、HIVやインフルエンザなどのウイルスとスクレイピーやクロイツフェルト・ヤコブ病などのプリオン病の感染の仕組みの違いを示す模式図です。ウイルスにおいては、感染に核酸が関与しています。しかし、プリオン病ではプリオンタンパク質だけ、もしくはプリオンタンパク質とファクターXと呼ばれる因子によってのみ感染が広がっていくと言われています。
（左）初期構造、（右）シミュレーション後の構造初期構造において異なっているのは102番目のアミノ酸残基がPro（野生型）かLeu（変異型）という点だけでも、このように僅か一残基の違いがプリオン病の発症に影響を及ぼすならば、その一残基がどのような影響を全体の構造に与えているか解析することは非常に重要だと考えています。このような研究は大規模なシミュレーションが出来て初めて可能になります。

国立大学法人 東京工業大学 情報理工学院情報工学系 関嶋研究室