> # Cloud Natural Language API

In [None]:
!pip install google-cloud-language

___
> ## 엔티티 분석

- 엔티티 분석이란 텍스트에 포함되어 있는 엔티티(사람이름, 고유명사 등) 정보를 분석하는 기능
- 클라이언트 인스턴스를 만드는 것은 앞의 다른 예제와 동일

In [2]:
from google.cloud import language

nl_client = language.LanguageServiceClient()

- 분석은 `analyze_entities` 함수를 호출하여 수행
- text, html, 혹은 GCS 경로를 지정할 수 있음
- 다만, 현재 굉장히 빠르게 바뀌고 있는 API로, 필요 시 https://google-cloud-python.readthedocs.io/en/latest/language/usage.html 참조

In [3]:
# 분석할 문장
text = '서울에 사는 우리 집 강아지의 이름은 구름이입니다'
document = language.types.Document(content=text,
                                  language = 'ko',
                                  type = 'PLAIN_TEXT')

# 엔티티 분석
response = nl_client.analyze_entities(document =document,
                                     encoding_type = 'UTF32')

response

entities {
  name: "\354\204\234\354\232\270"
  type: LOCATION
  metadata {
    key: "mid"
    value: "/m/0hsqf"
  }
  metadata {
    key: "wikipedia_url"
    value: "https://en.wikipedia.org/wiki/Seoul"
  }
  salience: 0.2728408873081207
  mentions {
    text {
      content: "\354\204\234\354\232\270"
    }
    type: PROPER
  }
}
entities {
  name: "\352\265\254\353\246\204"
  type: OTHER
  salience: 0.18909965455532074
  mentions {
    text {
      content: "\352\265\254\353\246\204"
      begin_offset: 21
    }
    type: COMMON
  }
}
entities {
  name: "\352\260\225\354\225\204\354\247\200"
  type: PERSON
  salience: 0.1854119598865509
  mentions {
    text {
      content: "\352\260\225\354\225\204\354\247\200"
      begin_offset: 12
    }
    type: COMMON
  }
}
entities {
  name: "\354\247\221"
  type: LOCATION
  salience: 0.18053360283374786
  mentions {
    text {
      content: "\354\247\221"
      begin_offset: 10
    }
    type: COMMON
  }
}
entities {
  name: "\354\235\264\

- `response.entities`는 다음과 같은 결과 값 보유  
    name: 명칭  
    entity_type: 엔티티의 종류(PERSON, LOCATION, ORGANIZATIONS...)  
    metadata: Wikipedia 혹은 Knowledge Graph의 MID가 들어 있음  
    salience: 중요도, 특징성을 의미
- 이를 정리하면 아래와 같이 결과 값 출력 가능

In [7]:
# 타입을 나타내는 튜플 정의
entity_type = ['Unknown', 'Person', 'Location', 'Organization', 'Event', 'Work_of_Art', 'Consumer_Good', 'Other']

# 결과 출력
n=1
for entity in response.entities:
  print(str(n)+'='*20)
  print('단어: {}'.format(entity.name))
  print('종류: {}'.format(entity_type[entity.type]))
  print('메타데이터: {}'.format(entity.metadata.get('wikipedia_url')))
  print('중요도: {}'.format(entity.salience))
  n+=1

단어: 서울
종류: Location
메타데이터: https://en.wikipedia.org/wiki/Seoul
중요도: 0.2728408873081207
단어: 구름
종류: Other
메타데이터: None
중요도: 0.18909965455532074
단어: 강아지
종류: Person
메타데이터: None
중요도: 0.1854119598865509
단어: 집
종류: Location
메타데이터: None
중요도: 0.18053360283374786
단어: 이름
종류: Other
메타데이터: None
중요도: 0.17211389541625977
