### SPARQLクエリとは

DBpediaが持つRDFを操作するクエリのこと

- DBpedia

自然言語処理で使用する知識データ、Wikipediaの情報をデータベース化したもの、単語ごとのリンクがわかる。エンティティはURI（Uniform Resource Identifier）で表される。

- RDF（Resource Description framework）トリプル

主語、述語、目的語の要素を持つ形式データ構造。DBpediaの内部構造となる。

- SPARQL

RDF用の問い合わせ言語、SQLに似ている。


### 必要なライブラリのインストール

In [1]:
!pip3 install sparqlwrapper

Collecting sparqlwrapper
  Downloading https://files.pythonhosted.org/packages/b0/1d/d7c60a451a255fca655fe37eb3f6e3b3daa7d33fc87eeec0d8631d501e76/SPARQLWrapper-1.8.4-py3-none-any.whl
Collecting rdflib>=4.0 (from sparqlwrapper)
  Downloading https://files.pythonhosted.org/packages/3c/fe/630bacb652680f6d481b9febbb3e2c3869194a1a5fc3401a4a41195a2f8f/rdflib-4.2.2-py3-none-any.whl (344kB)
[K    100% |████████████████████████████████| 348kB 1.7MB/s ta 0:00:01
[?25hCollecting pyparsing (from rdflib>=4.0->sparqlwrapper)
  Downloading https://files.pythonhosted.org/packages/11/fa/0160cd525c62d7abd076a070ff02b2b94de589f1a9789774f17d7c54058e/pyparsing-2.4.2-py2.py3-none-any.whl (65kB)
[K    100% |████████████████████████████████| 71kB 2.7MB/s ta 0:00:011
[?25hCollecting isodate (from rdflib>=4.0->sparqlwrapper)
  Downloading https://files.pythonhosted.org/packages/9b/9f/b36f7774ff5ea8e428fdcfc4bb332c39ee5b9362ddd3d40d9516a55221b2/isodate-0.6.0-py2.py3-none-any.whl (45kB)
[K    100% |█████████

### 同義語を取得する関数を定義

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from SPARQLWrapper import JSON, SPARQLWrapper

def get_synonyms(text):
    # 同義語を取得したい語の文字列をuriに代入
    uri = f'<http://ja.dbpedia.org/resource/{text}>'
    
    # 公開されているSPARQLエンドポイントを指定、ここからDBpediaを使用することができる
    sparql = SPARQLWrapper('http://ja.dbpedia.org/sparql')
    # 戻り値をJSONフォーマットに指定
    sparql.setReturnFormat(JSON)
    # format関数では{}がエスケープされる為2重に繰り返して{{}}とする必要がある。
    # UNIONでつなげる事で同義語展開ができる。最後にURIをラベルに変換したものをsynonym変数に格納する。
    # Wikipediaの記事タイトルをsynonym変数として取得される。
    sparql.setQuery(f'''
        SELECT DISTINCT *
        WHERE {{
                {{ ?redirect <http://dbpedia.org/ontology/wikiPageRedirects> {uri} }}
                UNION
                {{ {uri} <http://dbpedia.org/ontology/wikiPageRedirects> ?redirect }} .
                ?redirect <http://www.w3.org/2000/01/rdf-schema#label> ?synonym
                }}
    ''')
    
    results = []
    for x in sparql.query().convert()['results']['bindings']:
        word = x['synonym']['value']
        results.append({'term': word})
    return results

### 上記関数を呼び出してDBpediaから同義語を取得してみる

In [6]:
import json

synonyms = get_synonyms('アメリカ合衆国')

print(json.dumps(synonyms, indent=4, ensure_ascii=False))

[
    {
        "term": "United States"
    },
    {
        "term": "米合衆国"
    },
    {
        "term": "米国"
    },
    {
        "term": "アメリカ人"
    },
    {
        "term": "U.S.A."
    },
    {
        "term": "亜米利加"
    },
    {
        "term": "亜米利加合衆国"
    },
    {
        "term": "米利堅"
    },
    {
        "term": "U.S."
    },
    {
        "term": "ユナイテッドステイツ"
    },
    {
        "term": "United States of America"
    },
    {
        "term": "Usa"
    },
    {
        "term": "全米"
    },
    {
        "term": "アメリカ合衆国人"
    },
    {
        "term": "アメリカ系"
    },
    {
        "term": "米国人"
    },
    {
        "term": "アメリカ"
    },
    {
        "term": "USA"
    },
    {
        "term": "美國"
    },
    {
        "term": "America"
    }
]
