## Microsoft Concept Graph

[Microsoft Concept Graph](https://concept.research.microsoft.com/)는 인터넷에서 추출된 용어들의 대규모 분류 체계로, 개념 간의 `is-a` 관계를 포함하고 있습니다.

Context Graph는 두 가지 형태로 제공됩니다:
 * 다운로드 가능한 대규모 텍스트 파일
 * REST API

통계:
 * 5401933개의 고유 개념
 * 12551613개의 고유 인스턴스
 * 87603947개의 `is-a` 관계


## 웹 서비스 사용하기

웹 서비스는 특정 개념이 다양한 그룹에 속할 확률을 추정하기 위한 여러 호출을 제공합니다. 자세한 정보는 [여기](https://concept.research.microsoft.com/Home/Api)에서 확인할 수 있습니다.  
다음은 호출을 위한 샘플 URL입니다: `https://concept.research.microsoft.com/api/Concept/ScoreByProb?instance=microsoft&topK=10`


In [7]:
import urllib
import json
import ssl

def http(x):
    ssl._create_default_https_context = ssl._create_unverified_context
    response = urllib.request.urlopen(x)
    data = response.read()
    return data.decode('utf-8')

def query(x):
    return json.loads(http("https://concept.research.microsoft.com/api/Concept/ScoreByProb?instance={}&topK=10".format(urllib.parse.quote(x))))

query('microsoft')

{'company': 0.6105356614382954,
 'vendor': 0.08858636677518003,
 'client': 0.048239124001183784,
 'firm': 0.045476965571668145,
 'large company': 0.043109401203511886,
 'organization': 0.043010752688172046,
 'corporation': 0.035908059583703265,
 'brand': 0.03383644076156654,
 'software company': 0.027522935779816515,
 'technology company': 0.023774292196902438}

뉴스 제목을 상위 개념으로 분류해 봅시다. 뉴스 제목을 얻기 위해 [NewsApi.org](http://newsapi.org) 서비스를 사용할 것입니다. 서비스를 사용하려면 자체 API 키를 얻어야 하며, 웹사이트에 방문하여 무료 개발자 플랜에 등록하십시오.


In [20]:
newsapi_key = '<your API key here>'
def get_news(country='us'):
    res = json.loads(http("https://newsapi.org/v2/top-headlines?country={0}&apiKey={1}".format(country,newsapi_key)))
    return res['articles']

all_titles = [x['title'] for x in get_news('us')+get_news('gb')]

In [21]:
all_titles

['Covid-19 Live Updates: Vaccines and Boosters News - The New York Times',
 'Ukrainians Flee Mariupol as Russian Forces Push to Take Port City - The Wall Street Journal',
 'Bond Yields Jump, Stock Futures Rise After Powell Says Fed Is Ready to Be More Aggressive - The Wall Street Journal',
 'Putin critic Alexei Navalny found guilty by Russian court - New York Post ',
 "Supreme Court nominee Ketanji Brown Jackson will face questions at confirmation hearing's second day - CNN",
 '2 teachers killed at Swedish high school, student arrested - ABC News',
 'Clues to Covid-19’s Next Moves Come From Sewers - The Wall Street Journal',
 'Republicans to roll dice by grilling Jackson over child-pornography sentencing decisions | TheHill - The Hill',
 '‘Clear sign’ Putin considering using chemical weapons in Ukraine, claims President Biden - The Independent',
 'NASA confirms there are 5,000 planets outside our solar system - Daily Mail',
 "US stocks whipsawed overnight after Fed Chair Powell's remar

우선, 우리는 뉴스 제목에서 명사를 추출할 수 있기를 원합니다. 이를 위해 `TextBlob` 라이브러리를 사용할 것이며, 이는 이러한 일반적인 NLP 작업을 많이 간소화합니다.


In [15]:
import sys
!{sys.executable} -m pip install textblob
!{sys.executable} -m textblob.download_corpora
from textblob import TextBlob

Finished.


[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\dmitryso\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\dmitryso\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\dmitryso\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\dmitryso\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     C:\Users\dmitryso\AppData\Roaming\nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\dmitryso\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is a

In [22]:
w = {}
for x in all_titles:
    for n in TextBlob(x).noun_phrases:
        if n in w:
            w[n].append(x)
        else:
            w[n]=[x]
{ x:len(w[x]) for x in w.keys()}

{'covid-19 live updates': 1,
 'vaccines': 1,
 'boosters': 1,
 'york': 4,
 'ukrainians flee mariupol': 1,
 'forces push': 1,
 'port city': 1,
 'wall street journal': 3,
 'bond yields': 1,
 'futures rise': 1,
 'powell says fed': 1,
 'ready': 1,
 'be': 1,
 'aggressive': 1,
 'putin': 3,
 'alexei navalny': 2,
 'russian': 2,
 'supreme court nominee': 1,
 'ketanji brown jackson': 1,
 "confirmation hearing 's": 1,
 'cnn': 1,
 'swedish': 1,
 'high school': 1,
 'abc': 1,
 'clues': 1,
 'covid-19': 1,
 '’ s': 2,
 'moves': 1,
 'sewers': 1,
 'roll dice': 1,
 'jackson': 1,
 'decisions |': 1,
 'thehill': 1,
 'clear': 2,
 'chemical weapons': 2,
 'ukraine': 3,
 'claims president': 2,
 'biden': 2,
 'nasa': 2,
 'solar system': 2,
 'daily mail': 3,
 'us stocks': 1,
 'fed chair powell': 1,
 "'s remarks": 1,
 'fox': 1,
 "'we 've": 1,
 'tests': 1,
 'covid': 1,
 'politico': 1,
 'duchess': 1,
 'cambridge': 1,
 'swaps khaki jungle gear': 1,
 'vampire': 1,
 'wife': 1,
 'belize': 1,
 'china': 2,
 'flight recorders

우리는 명사가 큰 주제 그룹을 제공하지 않는다는 것을 알 수 있습니다. 개념 그래프에서 얻은 더 일반적인 용어로 명사를 대체해 봅시다. 이것은 시간이 좀 걸릴 것입니다. 왜냐하면 각 명사 구에 대해 REST 호출을 수행하고 있기 때문입니다.


In [23]:
w = {}
for x in all_titles:
    for noun in TextBlob(x).noun_phrases:
        terms = query(noun.replace(' ','%20'))
        for term in [u for u in terms.keys() if terms[u]>0.1]:
            if term in w:
                w[term].append(x)
            else:
                w[term]=[x]

In [24]:
{ x:len(w[x]) for x in w.keys() if len(w[x])>3}

{'city': 9,
 'brand': 4,
 'place': 9,
 'town': 4,
 'factor': 4,
 'film': 4,
 'nation': 11,
 'state': 5,
 'person': 4,
 'organization': 5,
 'publication': 10,
 'market': 5,
 'economy': 4,
 'company': 6,
 'newspaper': 6,
 'relationship': 6}

In [27]:
print('\nECONOMY:\n'+'\n'.join(w['economy']))
print('\nNATION:\n'+'\n'.join(w['nation']))
print('\nPERSON:\n'+'\n'.join(w['person']))


ECONOMY:
China searches for victims, flight recorders after first plane crash in 12 years - Reuters
Live updates: Russia stops talks with Japan over sanctions - The Associated Press - en Español
China plane crash – live: Search for survivors continues as witness describes moment flight fell from sky - The Independent
UK prepares to nationalize Russia natural gas giant Gazprom's retail unit - Business Insider

NATION:
‘Clear sign’ Putin considering using chemical weapons in Ukraine, claims President Biden - The Independent
Duchess of Cambridge swaps khaki jungle gear for Vampire's Wife dress on Belize trip - Daily Mail
China searches for victims, flight recorders after first plane crash in 12 years - Reuters
Live updates: Russia stops talks with Japan over sanctions - The Associated Press - en Español
Live updates: Russia stops talks with Japan over sanctions - The Associated Press - en Español
China plane crash – live: Search for survivors continues as witness describes moment flight 


---

**면책 조항**:  
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전이 권위 있는 출처로 간주되어야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.
