韓国化学研究院とKAISTの共同チームは2025年6月15日、量子力学的電子計算なしに分子特性を10 ミリ秒で推定できる自己教師あり拡散モデル「DELID(Diffusion‑based Electron‑Level Inference Decoder)」を発表した。従来のAIは原子レベル情報のみを使うため精度が31〜44%にとどまっていたが、DELIDは量子化学DBから取得した電子レベル情報を部分構造ごとに組み合わせ、複雑分子の物性を88%という世界最高精度で予測。OLEDや有機太陽電池材料設計で既存モデルの2倍以上の性能を示した。成果はICLR 2025で論文化され、半導体・創薬・独性評価など幅広い産業応用が期待される。
ニュースをもっと掘り下げる
“DELID”誕生の背景――量子計算コストという壁
量子化学計算は本来、分子一つにつきGPUを何百時間も占有し、試行錯誤のたびに研究費が雪だるま式に膨れ上がる。それが材料開発や創薬を量子化学の外へ押し出してきた最大の障壁だ。研究チームは「高価な計算で電子雲を直接求めるのではなく、電子レベル情報そのものを機械学習で“描き起こす”ほうが早い」と発想を転換した。そこで目を付けたのが、画像生成で頭角を現した拡散モデルである。彼らはこの生成AIを自己教師あり学習へ落とし込み、膨大なラベル付けを行わずに電子分布の特徴を学習させることで、量子計算をほぼ丸ごと置き換える道筋を開いた。
拡散モデル×自己教師あり学習の技術的ブレイクスルー
DELIDはまず巨大分子を化学的に意味のある小さな断片へと自動的に切り分ける。その断片ごとに既存の量子化学データベースから電子密度を呼び出し、ノイズを加えては元に戻す拡散過程を繰り返す。ノイズ除去の訓練を通じて潜在空間に“電子ポテンシャルの地図”を圧縮保存し、未知の分子でも地図を参照するだけで電子雲を再構築できるようになる。推論時にはGPU上で十数ステップを走らせるだけで足り、全分子の電子分布が10 ミリ秒以内に再現される。従来の量子化学計算と比べ、時間もコストも桁違いに軽くなるのが最大の価値だ。
88%精度を実現した検証プロトコル
実力を測るため、研究チームは物理特性・毒性・光学特性を含む三万件超の実験データを用意し、既存の最先端モデルと横並びで比較した。OLED材料の光学帯域予測では、これまで最高でも44%だった適合率がDELIDでは88%に跳ね上がり、従来最高精度のほぼ二倍を一気に更新した。同じデータで訓練しながらここまで差が出た理由は、電子レベルの情報を直接扱ったか否かに尽きる。電子雲を具体的に想定できるモデルは、分子のわずかな構造差が特性へ与える影響まで拾い上げられるため、実験値との誤差を大幅に縮められた。
筆者解説
技術的インパクトと産業利用のリアリティ
DELIDは「量子化学を完全に代替する」というより、コスト面でボトルネックだった電子雲計算を圧縮するブースターだ。量子力学ベースの高精度データに引けを取らない精度を示したことで、シミュレーション主体だった材料開発のワークフローが実験主導からデータ主導へ舵を切るきっかけになる。特にOLEDや有機太陽電池のように構造最適化サイクルが短い分野では、設計→評価→改良のループをほぼリアルタイムで回せる可能性が見えてきた。
産業応用ロードマップ
まずは光学特性が製品性能を左右するOLEDや有機PVが本命だ。電子レベル情報を直接扱えるため、微細な置換基変更でも発光波長や量子収率の差分を定量的に見積もれる。次に、毒性評価を伴う創薬や農薬開発では、膨大な候補化合物のスクリーニングが加速する見込みだ。将来的にはクラウドAPIとして提供され、分子ライブラリを抱える企業が自社データを追加学習させる事例も出てくるだろう。
今後の課題と展望
DELIDが参照した量子化学データベースは有機小分子が中心で、無機材料や高分子ではデータ偏りが残る。また、拡散モデルの推論は高速化されたとはいえ、3D構造最適化を別プロセスで行う必要があるため、そこがボトルネックになる可能性がある。加えて、AIが生成した化合物の特許適格性や安全規制が確立していない点も課題だ。とはいえ、電子レベル情報を高速推定するアプローチは量子化学計算そのものの再定義につながる。今後、データ偏りを補うためのフェデレーテッド学習やマルチフィジックス連成モデルとの統合が進めば、シミュレーションと実験の境界がさらに曖昧になり、材料開発サイクルは“設計から量産まで半年”という時代に踏み出す可能性が高い。
用語解説
拡散モデル
データに段階的にノイズをかけ、逆方向にノイズを取り除く過程を学習して元の分布を再現する生成モデル。復元経路が確率過程として明示的にモデル化されるため、学習が安定しやすく、画像生成を皮切りに音声・分子構造など多分野へ急速に波及している。
自己教師あり学習
大量の未ラベルデータから「自ら作った疑似課題」を解くことで内部表現を獲得し、後段の下流タスクに活用する手法。教師ラベルを必要とせず、データ取得コストを大幅に抑えつつ高い汎化性能を引き出せる点が、化学分野の膨大な未整理データと相性がよい。
電子レベル情報
電子軌道エネルギー、電子密度、クーロンポテンシャルなど、分子の量子力学的性質を直接記述する指標群。化学反応性や光吸収帯の位置、毒性といった物性の根源的決定因子であり、原子レベルの構造情報だけでは得られない深い洞察を提供する。
サブグラフ分解
分子を化学的に意味のある小さな部分構造へ自動的に切り分け、各部分に対して個別に計算・学習することで、組み合わせ的爆発を抑えるアルゴリズム。レゴブロックを組むように全体構造を再合成できるため、複雑分子でも計算負荷とメモリ消費を大幅に減らせる。
ICLR(International Conference on Learning Representations)
表現学習をテーマとする機械学習分野のトップカンファレンスで、NeurIPS・ICMLと並ぶ三大国際会議の一角を占める。新規性と再現性の双方が厳しく査読されることで知られ、2025年はエチオピアのアディスアベバで開催が予定されている。