# Comprehend による文章解析

## 必要なパッケージのインポート

In [None]:
import boto3

## クライアントの作成

In [None]:
client = boto3.client('comprehend', region_name='us-west-2')

## 言語の特定

In [None]:
text = 'Windows 10 の PC に Python をインストールする方法を教えてください'

response = client.detect_dominant_language(
    Text=text
)

response

In [None]:
LAGUAGES = {
"af": "Afrikaans",
"sq": "Albanian",
"am": "Amharic",
"ar": "Arabic",
"az": "Azerbaijani",
"bn": "Bengali",
"bs": "Bosnian",
"bg": "Bulgarian",
"zh": "Chinese (Simplified)",
"zh-TW": "Chinese (Traditional)",
"hr": "Croatian",
"cs": "Czech",
"da": "Danish",
"fa-AF": "Dari",
"nl": "Dutch",
"en": "English",
"et": "Estonian",
"fi": "Finnish",
"fr": "French",
"fr-CA": "French (Canada)",
"ka": "Georgian",
"de": "German",
"el": "Greek",
"ha": "Hausa",
"he": "Hebrew",
"hi": "Hindi",
"hu": "Hungarian",
"id": "Indonesian",
"it": "Italian",
"ja": "Japanese",
"ko": "Korean",
"lv": "Latvian",
"ms": "Malay",
"no": "Norwegian",
"fa": "Persian",
"ps": "Pashto",
"pl": "Polish",
"pt": "Portuguese",
"ro": "Romanian",
"ru": "Russian",
"sr": "Serbian",
"sk": "Slovak",
"sl": "Slovenian",
"so": "Somali",
"es": "Spanish",
"es-MX": "Spanish (Mexico)",
"sw": "Swahili",
"sv": "Swedish",
"tl": "Tagalog",
"ta": "Tamil",
"th": "Thai",
"tr": "Turkish",
"uk": "Ukrainian",
"ur": "Urdu",
"vi": "Vietnamese"
}

In [None]:
def show_languages(result):
    for language in result['Languages']:
        print(
            LAGUAGES[language['LanguageCode']],
            ":",
            language['Score']
        )

In [None]:
show_languages(response)

In [None]:
text = 'Vivi e lascia vivere.'

response = client.detect_dominant_language(
    Text=text
)

show_languages(response)

In [None]:
text = 'Masarap ang mangga.'

response = client.detect_dominant_language(
    Text=text
)

show_languages(response)

In [None]:
text = 'आपके परिवार में कितने सदस्य हैं ?'

response = client.detect_dominant_language(
    Text=text
)

show_languages(response)

## エンティティーの抽出

In [None]:
text = '若林は4月1日に渋谷でiPhoneを1台購入しました'

response = client.detect_entities(
    Text=text,
    LanguageCode='ja'
)

response

In [None]:
def show_entities(result):
    for entity in result['Entities']:
        print(
            entity['Type'],
            ":",
            entity['Text'],
            ":",
            entity['Score']
        )

In [None]:
show_entities(response)

## キーワードの抽出

In [None]:
text = 'メロスは激怒した。必ず、かの邪智暴虐の王を除かなければならぬと決意した。' +\
'メロスには政治がわからぬ。メロスは、村の牧人である。笛を吹き、羊と遊んで暮して来た。' +\
'けれども邪悪に対しては、人一倍に敏感であった。' +\
'きょう未明メロスは村を出発し、野を越え山越え、十里はなれた此のシラクスの市にやって来た。' +\
'メロスには父も、母も無い。女房も無い。十六の、内気な妹と二人暮しだ。' +\
'この妹は、村の或る律気な一牧人を、近々、花婿として迎える事になっていた。' +\
'結婚式も間近かなのである。' +\
'メロスは、それゆえ、花嫁の衣裳やら祝宴の御馳走やらを買いに、はるばる市にやって来たのだ。'

response = client.detect_key_phrases(
    Text=text,
    LanguageCode='ja'
)

response

In [None]:
def show_key_phrases(result):
    sorted_key_phrase = sorted(result['KeyPhrases'], key=lambda i:i['Score'], reverse=True)
    for key_phrase in sorted_key_phrase:
        if key_phrase['Score'] > 0.95:
            print(
                key_phrase['Text'],
                ":",
                key_phrase['Score']
            )

In [None]:
show_key_phrases(response)

In [None]:
text = '「天は人の上に人を造らず人の下に人を造らず」と言えり。' +\
'されば天より人を生ずるには、万人は万人みな同じ位にして、生まれながら貴賤上下の差別なく、' +\
'万物の霊たる身と心との働きをもって天地の間にあるよろずの物を資り、もって衣食住の用を達し、' +\
'自由自在、互いに人の妨げをなさずしておのおの安楽にこの世を渡らしめ給うの趣意なり。' +\
'されども今、広くこの人間世界を見渡すに、かしこき人あり、おろかなる人あり、' +\
'貧しきもあり、富めるもあり、貴人もあり、下人もありて、その有様雲と泥との相違あるに似たるはなんぞや。' +\
'その次第はなはだ明らかなり。『実語教』に、「人学ばざれば智なし、智なき者は愚人なり」とあり。' +\
'されば賢人と愚人との別は学ぶと学ばざるとによりてできるものなり。'

response = client.detect_key_phrases(
    Text=text,
    LanguageCode='ja'
)

show_key_phrases(response)

## 好悪の抽出

In [None]:
text = 'こんな不具合がある状態ではとてもリリースできない'

response = client.detect_sentiment(
    Text=text,
    LanguageCode='ja'
)

response

In [None]:
def show_sentiment(result):
    for sentiment, score in result['SentimentScore'].items():
        print(
            sentiment,
            ":",
            str(round(score * 100, 1)) + " %"
        )

In [None]:
show_sentiment(response)

## 形態素解析（日本語未対応）

In [None]:
text = 'Put your hands up !'

response = client.detect_syntax(
    Text=text,
    LanguageCode='en'
)

response

In [None]:
pos_tag_dict = {
"ADJ": "形容詞",
"ADP": "設置詞",
"ADV": "副詞",
"AUX": "助動詞",
"CCONJ": "接続詞",
"DET": "限定詞",
"INTJ": "間投詞",
"NOUN": "名詞",
"NUM": "数詞",
"O": "その他",
"PART": "助詞",
"PRON": "代名詞",
"PROPN": "固有名詞",
"PUNCT": "句読点",
"SCONJ": "連結詞",
"SYM": "シンボル",
"VERB": "動詞"
}

In [None]:
def show_tokens(result):
    for token in result['SyntaxTokens']:
        part = token['PartOfSpeech']
        print(
            token['Text'],
            ":",
            pos_tag_dict[part['Tag']],
            ":",
            str(round(part['Score'] * 100, 1)) + " %"
        )

In [None]:
show_tokens(response)