近年、機械学習を活用した分子生成モデルの研究が活発に行われており、特に De Novo 分子生成モデル は創薬分野において大きな注目を集めています。これらのモデルは、既存の化合物データベースに依存することなく、新規な分子構造をゼロから設計することを目的としています。
近年の研究では、Transformer を用いた De Novo 分子生成 に関心が高まっています。特に、純粋な Transformer による分子構造生成 は、分子の表現能力を飛躍的に向上させる可能性を秘めています。さらに、TransORGAN のように、SMILES 表現を活用しながら分子の構造的特徴をより忠実に反映する手法 も注目されており、より精度の高い分子設計が期待されています。
近年、個別化医療(Precision Medicine) の進展に伴い、遺伝子発現プロファイル を活用した標的薬物の生成が注目されています。従来の創薬プロセスでは、疾患関連タンパク質を直接標的とするアプローチが主流でした。しかし、次世代シーケンシング(NGS)やシングルセル RNA シーケンシング(scRNA-seq)の発展により、遺伝子発現レベルで疾患の特徴を解析し、それに基づいた新規薬物を設計する手法 が可能になりました。
遺伝子発現プロファイル(Gene Expression Profile) とは、細胞や組織における遺伝子の発現レベルを包括的に測定したデータを指します。RNA シーケンシング(RNA-Seq)やマイクロアレイ技術を用いることで取得され、疾患特異的な遺伝子発現パターンを解析することで、疾患メカニズムの理解や標的薬物設計の指針 とすることができます。
近年、大規模言語モデル(LLM: Large Language Model) の急速な発展により、創薬プロセスにおけるデータ解析や分子設計の効率が飛躍的に向上しています。従来の創薬では、標的タンパク質の同定や化合物の最適化において大量の実験データと計算資源を必要としましたが、LLM の導入により、文献情報の自動解析、化学構造の生成、薬物-標的相互作用の予測が可能 となり、新薬開発のスピードと精度が大幅に向上しています。
特に、Multimodal データ(多種多様なデータソースを統合したデータ) を活用することで、遺伝子発現、分子構造、化学的特性、臨床データ など異なる情報を統合し、より精度の高い薬物開発が実現可能となっています。これにより、従来の単一モダリティに依存した手法では難しかった、疾患ごとの特異性を考慮した標的薬物設計や個別化医療(Precision Medicine)への応用が可能になっています。