ChatGPTの登場により、AIが人間の言語を模倣するよう訓練できることが明らかになりました。そして現在、同様の言語モデルを応用することで、人間の生物学や進化を模倣し、さらにそれに独自の工夫を加えることができるという研究結果が発表されています。
*Category:
言語モデルに「タンパク質配列」を学習させる研究
米科学誌「Nature Biotechnology」に掲載された、米Salesforce Research社とカリフォルニア大学の研究者を含が共同で行った研究では、言語モデル「ProGen」が実際に機能する可能性のあるアミノ酸配列-酵素-を生成できるかどうかをテストしました。
なぜ言語生成AIが生物学の生成に役立つのでしょうか?この論文を取り上げたテックメディア「MotherBoard」は、タンパク質は、すべてのタンパク質を構成する20の分子であるアミノ酸からなる言語として表現することができると指摘しています。
「単語が1つ1つ繋がれてテキスト文章を形成するのと同じように、アミノ酸は1つ1つ繋がれてタンパク質を作る」とSalesforce Research社のAI研究ディレクター、ニヒル・ナイク氏は「Motherboard」に述べています。同社の元科学アリ・マダーニ氏によれば、この研究は簡単にいうと、AIに英語や日本語といった言語を学習させる代わりに、タンパク質の言語を学習するAIを開発したいうものだそうです。
ProGenは、アミノ酸がどのように結合して2億8000万個の既存のタンパク質を形成するかという文法を学習することで、新しいタンパク質を生成する方法を学びました。研究者たちは、AIに書かせるテーマを選ぶ代わりに、類似したタンパク質のグループを指定することで、狙いを定めることができます。今回の研究では、抗菌作用のあるタンパク質群が選択されました。
研究では、AI処理のチェック機能をプログラムし、AIが提案した分子のサンプルを実際の細胞でテストすることも行われました。その結果、物理的に作成した100個のタンパク質のうち、66個は卵白や唾液中の細菌を破壊する天然タンパク質と同様の化学反応を起こしたとのこと。
研究者たちは、最も強い反応を示した5つのタンパク質を選び、大腸菌のサンプルに加えました。その結果、2つのタンパク質が細菌を破壊。そのアミノ酸配列は、既存のどのタンパク質とも最大で30%異なっていたにもかかわらず、その形状は自然界に存在するタンパク質とほぼ一致していたのです。
「酵素は、何百万年もの進化を経てきたタンパク質と同じように、すぐ機能します」とマダーニ教授は述べました。研究チームはまた、このモデルが、特に訓練されなくても、進化のパターンを捉えることができることを発見したとのことです。
AIをタンパク質の生成に使う研究は以前にもありましたが、この研究が先行研究とは異なるのは、言語モデルで何が可能かという考えをさらに広げた点です。研究者によれば、この研究では「どのような種類の配列を生成するか」を大幅に制御できる条件付き言語モデルを使用しているため、「特定の特性を持つタンパク質の設計に有用」とのこと。
この研究が影響をもたらすと考えられるのが、158億ドル(約2.5兆円)規模と評価されている創薬市場です。マダーニ氏はこの研究の成果として「人体のあらゆる問題は、タンパク質に依存しているため、新しいタンパク質を設計することで、より効果的に病気を治療したり、そもそも病気を回避したりすることができる」と述べています。論文で紹介された手法は「GitHub」でも一般公開されており、今後はこの研究を基に、タンパク質設計のためのAIに関する研究が急速に進むかもしれません。