IBMとNASAのマーシャル宇宙飛行センターは2月1日米国ニューヨーク州アーモンク(現地時間)にて、NASAが有する地球および地理空間の膨大なデータから、IBMのAI技術を使用して新たな洞察の発見を目指す協業を発表した。今回の共同研究( https://research.ibm.com/blog/ibm-nasa-foundation-models )では、AIファウンデーション・モデル(基盤モデル)技術を、NASAの地球観測衛星データに初めて適用する。
ファウンデーション・モデル( https://research.ibm.com/blog/what-are-foundation-models )は、ラベルの付いていない幅広いデータで学習できるAIモデルの一種で、さまざまな異なるタスクに使用でき、ある状況に関する情報を別の状況で利用することができる。これらのモデルは、過去5年間で自然言語処理(NLP)の分野を急速に進化させてきた。IBMは、言語分野を超えて、ファウンデーション・モデルの適用事例を開拓している。
科学者による地球の研究および監視を可能にする地球観測データは、かつてないほどの速度と量で収集されている。これらの膨大なデータ資源から知識を抽出するためには、新しく革新的なアプローチが必要となる。この研究の目標は、研究者が大規模なデータ・セットを分析し、そこから洞察を導き出すことを、より容易にすること。IBMのファウンデーション・モデル技術は、地球に関する科学的理解と気候変動問題への課題解決をより迅速に進めるための、データの発見と分析を加速させる可能性がある。
IBMとNASAは、地球観測データからの洞察を抽出するため、いくつかの新しいテクノロジーを開発する予定だ。あるプロジェクトでは、地球周回衛星によって取り込まれた土地被覆と土地利用の変化の記録データが含まれている、NASAのHarmonized Landsat Sentinel-2(HLS)( https://hls.gsfc.nasa.gov/ )データ・セットに基づき、IBMの地理空間情報ファウンデーション・モデルを学習する。そしてペタバイト級の衛星データを分析し、自然災害や周期的な作物の収穫量、野生生物の生息地といった現象の地理的な広がりの変化を識別することで,このファウンデーション・モデル技術は、研究者が地球の環境システムを分析するために重要な役割を担う。
この協業のもう一つの成果として、簡単に検索できる地球科学文献や資料などの構築が期待されている。IBMは、文献を整理し、新しい知識の発見を容易にするため、30万件近くの地球科学雑誌の記事で学習された自然言語処理モデルを開発した。これまで、Red HatのOpenShift( https://www.redhat.com/en/technologies/cloud-computing/openshift )ソフトウェアで学習された最大のAIワークロードの1つを含む、完全に学習済みのモデルは、IBMのオープン・ソースの多言語質問応答システムであるPrimeQA( https://research.ibm.com/blog/primeqa-for-non-english-speakers )で使用される。地球科学の新しい言語モデルは、研究者にリソースを提供するだけでなく、NASAの科学データ管理とスチュワードシップのプロセスに組み込むことができる。