Linked Data と JSON-stat

今日利用可能な統計データ提供形式で一般性のあるものは、統計Linked DataとJSON-statの二つです。ここではこの二つを比較して、それぞれの長所・欠点を考察します。表1は両者の違いをまとめたものです。

表1 Linked Data と JSON-stat の比較

統計では、市町村合併や商品分類変更などにより、同じ名前でも直接データを比較できないものが多いです。似て非なるものを区別し、それらの間の関係を記述できる点がLinked Dataの強みです。ただし、この強みを活かすためには用語の体系(オントロジー)が確立している必要があります。日本では市町村情報のオントロジー(都道府県・市区町村コード情報(LOD))はまとめられていますが、その他の分類(商品分類、産業分類等)についてはまだまとまっていません。

また、Linked Dataについては統計データに関する国際標準(W3C勧告)が定まっており、この分野の研究者も多く、何かやろうとするとき支援が得られやすいという利点があります。

これらの利点があるにも関わらず、公的統計データ提供にLinked Dataはあまり使われていません。なぜでしょうか?

1つは統計利用者にとってLinked Dataは敷居が高いということがいえます。JSON-statであればオブジェクト(連想配列)と配列の概念さえ知っていれば理解できますが、Linked Dataの場合はRDF及びSPARQLという言語の知識が不可欠です。更にこれらを使ったQB(The RDF Data Cube Vocabulary)の理解も求められます。

いま1つは統計提供者にとってLinked Dataは負担が大きいということです。JSON-statであれば既存の統計提供の仕組みをほとんどそのまま使うことができます。これに対し、Linked Dataの場合は、SPARQL Endpointの実装など、手間と資源を要する対応が求められます。

更にLinked Dataの場合はレスポンスにXML表記を使う場合が多く、データ量が非常に多くなり、重くなります。JSON-statの場合はデータ量が少なく、軽いです。

以上をまとめると、将来性と応用範囲の広さという点ではLinked Dataが優れていますが、現時点での実用性という点ではJSON-statに軍配が上がるといえるのではないでしょうか?

なお、地方自治体などで、統計以外の行政データと組み合わせて統計を使う場合は、今日でも、Linked Dataを活用するメリットは十分あると思います。

現時点でJSON-statを採用しても、将来的にはLinked Dataにつなげていくという戦略も考えられます。それは分類カテゴリオントロジーの確立とJSON-stat自身のLinked Data化です。

統計データ提供がJSON-stat形式に統一されれば、メタデータの形式も統一されます。多くの統計のメタデータを同一仕様で集めることができれば、統計の世界の分類カテゴリオントロジーの作成が容易になります。

私はJSON-stat自身のLinked Data化も十分可能性があると考えています。JSONについては、JSON-LD(Linked DataのJSON表記)が国際標準(W3C勧告)になっています。JSON-statの長所を活かしながら、JSON-LDフォーマットで書くことができれば、JSON-statデータをLinked Dataとみなすことができるようになるのではないかと考えています。

About 佐藤 英人

東京国際大学名誉教授。 若い頃、経済企画庁(現内閣府、経済産業省)の統計課、国民所得部で統計の実務を経験。 その後、大学で統計データベース、知識ベース、オブジェクト指向等の研究・教育に従事。 著書:統計データベースの設計と開発 - データモデルと知識ベースの応用(オーム社)、オブジェクト指向が分かる本(オーム社)など。

コメントを残す

Name and email are required. Your email address will not be published.

キャプチャ * Time limit is exhausted. Please reload CAPTCHA.