RDF Portalは、Resource Description Framework (RDF) によって表現された生命科学リソースへのアクセスと統合を目的とした専用のゲートウェイです。現代のバイオメディカルおよびライフサイエンス研究において、重要な知識はゲノム、プロテオーム、代謝、疾患、化学物質、学術リソースといった多様なデータベースに分散しており、それぞれが異なるデータ形式、スキーマ、用語法を採用しています。これらの不一致は、統合的なデータ解析や計算による知識発見に大きな障害をもたらしています。
RDFは、主語–述語–目的語のトリプルに基づく統一的かつ機械可読なモデルを提供し、異種データセット間の構造的一貫性を可能にします。グローバルに解決可能なURIを割り当てることで、RDFは精密なデータ識別を可能にし、独立したリソース間のセマンティック・インターオペラビリティを実現します。これにより、遺伝子、タンパク質、経路、疾患、化合物といったエンティティが明示的に結び付けられた相互運用可能なナレッジグラフを構築でき、研究者は複雑な生物学的ネットワークを横断的に探索・解析することが可能となります。
さらに、コミュニティ主導のオントロジー(例:Gene Ontology、ChEBI、Disease Ontology)や統制語彙の導入は、意味的調和を提供し、用語の曖昧さを軽減し、論理的推論を可能にします。SPARQLと組み合わせることで、RDFはテキストマッチを超えたオントロジー駆動型の機械実行可能なクエリを可能にし、セマンティック検索、自動推論、仮説生成を支援します。このように、RDF PortalはRDFデータセットのリポジトリであるだけでなく、計算可能な知識統合、分野横断的なデータ再利用、先端的なバイオメディカル情報学の基盤として機能します。
RDF PortalにサブミットされたすべてのRDFデータセットは、DBCLSによってDBCLS RDFガイドラインへの準拠という観点から品質レビューを受けます。このレビューを通過したデータセットのみがポータルに登録・公開されます。このプロセスにより、一定の品質が担保された信頼性の高いRDFデータが研究コミュニティに提供され、セマンティックに相互運用可能なデータの蓄積が実現されています。
さらに、RDF Portalに格納されているRDFデータセットは、FAIRデータ原則(Findable, Accessible, Interoperable, Reusable)に適合しています。FAIRに準拠したRDFデータセットを精選し公開することで、RDF Portalはより広範な国際的オープンサイエンスの潮流に貢献し、生命科学研究における透明性、再利用性、国際的協働を推進しています。
沿革
RDF Portalは、日本科学技術振興機構(JST)のバイオサイエンスデータベースセンター(NBDC)が実施した統合化推進プログラムと並行して開発されました。当初の使命は、このプログラムによって支援されたプロジェクトが生成したRDFデータセットのホスティングプラットフォームとして機能することでした。この初期段階において、ポータルの内容は、これらのプロジェクトから直接提出されたRDFデータにほぼ限定されていました。
その後、ポータルは世界で公開されている多様なRDFデータセットを積極的に取り込むことで、その範囲を拡張しました。この進化は、ポータルを単なる投稿型リポジトリから、包括的かつ国際的に指向されたRDFリソースのハブへと変化させ、バイオメディカル研究におけるLinked Open Dataやセマンティック統合の重要性を反映するものとなりました。
2022年以降、RDF Portalの運営主体はNBDCからライフサイエンス統合データベースセンター(DBCLS)へ移管されました。DBCLSのもとで、ポータルは持続可能でコミュニティ指向のインフラストラクチャとして開発が継続され、FAIR原則に適合したデータの公開を推進し、セマンティックデータ統合を発展させ、生命科学分野における国際的オープンサイエンスを支援することで、分散型アクセス、データ再利用、知識発見を可能にしています。
資金提供
RDF portal は、国立研究開発法人科学技術振興機構(JST)NBDC事業推進室の支援を受けて運営されています。