# Introduction
このレッスンでは、PythonのライブラリであるNLTK(Natural Language Toolkit)を使用してTweetの感情分析を行います。その過程で文章の前処理、形態素解析などを学びます。

# Overview
1.Dataset<br>
2.Embedding and Morphological Analysis<br>
3.Sentiment Analysis<br>

# Dataset
NLTKのcorpusには、Twitterのサンプルがあり、positive, negative, 感情がないツイートの3種類のデータがあります。<br>
まずは、このデータを取得します。<br>
まだインストールしていない場合はコメントアウトを外してインストールしてください。

In [1]:
# import nltk
# nltk.download('twitter_samples')
# nltk.download('punkt') # import word tokenization
# nltk.download('averaged_perceptron_tagger')  # import pos tagger
# nltk.download('wordnet') # import Lemmatisation
# nltk.download('stopwords') # import stop words

In [2]:
import nltk
from nltk.corpus import twitter_samples

In [3]:
positive_tweets = twitter_samples.strings('positive_tweets.json')
negative_tweets = twitter_samples.strings('negative_tweets.json')
all_tweets = twitter_samples.strings('tweets.20150430-223406.json')

Tweetのデータを読み込みました。まず、Tweetの内容を少し確認してみましょう。

In [4]:
print('positive tweets length:', len(positive_tweets))
print('=======Example========')
print(positive_tweets[0:3])
print('======================')
print('negative tweets length:', len(negative_tweets))
print('=======Example========')
print(negative_tweets[0:3])
print('======================')
print('all tweets length:', len(all_tweets))

positive tweets length: 5000
['#FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)', '@Lamb2ja Hey James! How odd :/ Please call our Contact Centre on 02392441234 and we will be able to assist you :) Many thanks!', '@DespiteOfficial we had a listen last night :) As You Bleed is an amazing track. When are you in Scotland?!']
negative tweets length: 5000
['hopeless for tmr :(', "Everything in the kids section of IKEA is so cute. Shame I'm nearly 19 in 2 months :(", '@Hegelbon That heart sliding into the waste basket. :(']
all tweets length: 20000


上のデータをみると分かるように、__顔文字によってtweetが分類されています。__<br>
:) -> Positive<br>
:( -> Negative

# Embedding
まず初めに、文章を単語ずつに区切ります。そのために、用いるのが先ほどnltk.download('punkt')でダウンロードした分かち書き(word tokenization)です。

In [5]:
text = positive_tweets[0]
split = nltk.word_tokenize(text)
print(split)

['#', 'FollowFriday', '@', 'France_Inte', '@', 'PKuchly57', '@', 'Milipol_Paris', 'for', 'being', 'top', 'engaged', 'members', 'in', 'my', 'community', 'this', 'week', ':', ')']


次に、正規化を行います。例えば,goという単語にはgo, goes, went, goingなどのようにたくさんの種類の形があります。<br>
これらを同じ形式(go)に統一していきます。<br>
その際に、品詞の情報が必要となるので、品詞のタグ付けを行っていきます。
### Morphological Analysis<br>

In [6]:
from nltk.tag import pos_tag
tagged = pos_tag(split)
print(tagged)

[('#', '#'), ('FollowFriday', 'NNP'), ('@', 'NNP'), ('France_Inte', 'NNP'), ('@', 'NNP'), ('PKuchly57', 'NNP'), ('@', 'NNP'), ('Milipol_Paris', 'NNP'), ('for', 'IN'), ('being', 'VBG'), ('top', 'JJ'), ('engaged', 'VBN'), ('members', 'NNS'), ('in', 'IN'), ('my', 'PRP$'), ('community', 'NN'), ('this', 'DT'), ('week', 'NN'), (':', ':'), (')', ')')]


正規化していきます。今回は、名詞（posがNNから始まるもの）と動詞（posがVBから始まるもの）を正規化します。<br>
正規化にはWordNetLemmatizerを使用し、引数に単語とその品詞を渡します。

In [7]:
from nltk.stem.wordnet import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatized_sentence = []
for word, tag in tagged:
    if tag.startswith('NN'):
        pos = 'n'
    elif tag.startswith('VB'):
        pos = 'v'
    else:
        pos = 'a'
    lemmatized_sentence.append(lemmatizer.lemmatize(word, pos))
print(lemmatized_sentence)

['#', 'FollowFriday', '@', 'France_Inte', '@', 'PKuchly57', '@', 'Milipol_Paris', 'for', 'be', 'top', 'engage', 'member', 'in', 'my', 'community', 'this', 'week', ':', ')']


このTweetの内容だと、__engagedがengageに、membersがmember__に変換さてれいることが確認できます。

### ノイズ除去
"a"や"the"のように特定の意味を持たない単語を取り除いていきます。

In [21]:
import re, string

stop_words = ["a", "an"]
res = []
print('before:', positive_tweets[2])

for word in nltk.word_tokenize(positive_tweets[2]):
    # remove url
    token = re.sub('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+#]|[!*\(\),]|'\
                          '(?:%[0-9a-fA-F][0-9a-fA-F]))+','', word)
    token = re.sub("(@[A-Za-z0-9_]+)","", token)
    if len(token) > 0 and token not in string.punctuation and token.lower() not in stop_words:
        res.append(token.lower())
print('after:', res)

before: @DespiteOfficial we had a listen last night :) As You Bleed is an amazing track. When are you in Scotland?!
after: ['despiteofficial', 'we', 'had', 'listen', 'last', 'night', 'as', 'you', 'bleed', 'is', 'amazing', 'track', 'when', 'are', 'you', 'in', 'scotland']


In [49]:
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
print(stop_words[0:10])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


# Ex1
上述のコードを使用して、テキストを前処理する関数を作成しましょう。<br>
## 手順
1.文章を単語ごとにわける<br>
2.ストップワードでノイズを除去する(stop_wordsを使う)<br>
3.単語を正規化する<br>

引数：positive_tweets<br>
返り値：前処理されたセンテンスの配列
sentence = [];
return List(Sentence)

In [50]:
def NormalEmbedding(sentences):
    res = []
    # write your code!!

    return res

In [51]:
embed_positive_sentences = NormalEmbedding(positive_tweets)
print("before:", positive_tweets[0])
print("after:", embed_positive_sentences[0])

embed_negative_sentences = NormalEmbedding(negative_tweets)
print("before:", negative_tweets[0])
print("after:", embed_negative_sentences[0])

before: #FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)
after: ['followfriday', 'france_inte', 'pkuchly57', 'milipol_paris', 'top', 'engage', 'member', 'community', 'week']
before: hopeless for tmr :(
after: ['hopeless', 'tmr']


__Well Done!!__

# Sentiment Analysis
positive, negativeなtweetを学習させて、tweetを分類できるようにします。<br>
まずは、単語の辞書を作成します。

In [52]:
def get_tweets_for_model(tokens_list):
    for tweet_tokens in tokens_list:
        yield dict([token, True] for token in tweet_tokens)

In [53]:
positive_tokens_for_model = get_tweets_for_model(embed_positive_sentences)
negative_tokens_for_model = get_tweets_for_model(embed_negative_sentences)

### trainデータとtestデータを作成する。
今回は、validationデータは省きます。<br>
trainデータに全体の70%のデータを、testデータに全体の30%のデータ与えます。<br>
作成後に、これらのデータをシャッフルします。

In [54]:
import random

balance=[0.7,0.3]
train_num = int(len(positive_tweets) * balance[0])

positive_dataset = [(tweet_dict, "Positive")
                    for tweet_dict in positive_tokens_for_model]

negative_dataset = [(tweet_dict, "Negative")
                    for tweet_dict in negative_tokens_for_model]
train_dataset = positive_dataset[:train_num] + negative_dataset[:train_num]
test_dataset = positive_dataset[train_num:] + negative_dataset[train_num:]

random.shuffle(train_dataset)
random.shuffle(test_dataset)
print("train data length:", len(train_dataset))
print(train_dataset[:3])
print("========================")
print("test data length", len(test_dataset))
print(test_dataset[:3])

train data length: 7000
[({'mhmmdiqbale': True, 'happy': True, 'birthday': True, 'iqbal': True, 'wish': True, 'best': True}, 'Positive'), ({'theyingster': True, 'cristianavai3': True, 'afcgramachroi': True, 'goonerlover69': True, 'iwaveback': True, 'lol': True, "'s": True, 'tiring': True, 'good': True, 'look': True}, 'Positive'), ({'gazetteboro': True, 'often_partisan': True, 'pip': True, 'post': True, 'think': True}, 'Negative')]
test data length 3000
[({'deltadaily': True, 'deltagoodrem': True, 'love': True, 'new': True, 'song': True, 'delta': True, 'rock': True}, 'Positive'), ({'carva': True}, 'Negative'), ({'jairaabells': True, 'wo': True, "n't": True, 'around': True, 'tom': True}, 'Negative')]


### モデルの構築とテスト

In [55]:
from nltk import classify
from nltk import NaiveBayesClassifier

分類器を用いてtrainデータセットで学習させます。

In [56]:
classifier = NaiveBayesClassifier.train(train_dataset)

In [57]:
print("Accuracy is:", classify.accuracy(classifier, test_dataset))

print(classifier.show_most_informative_features(10))

Accuracy is: 0.7463333333333333
Most Informative Features
                       p = True           Positi : Negati =     58.3 : 1.0
                  arrive = True           Positi : Negati =     33.0 : 1.0
                    glad = True           Positi : Negati =     23.7 : 1.0
                      ff = True           Positi : Negati =     23.0 : 1.0
                    sick = True           Negati : Positi =     19.7 : 1.0
                     sad = True           Negati : Positi =     19.4 : 1.0
               community = True           Positi : Negati =     17.0 : 1.0
                     ugh = True           Negati : Positi =     14.3 : 1.0
                    miss = True           Negati : Positi =     12.7 : 1.0
            justinbieber = True           Negati : Positi =     12.3 : 1.0
None


# Ex2
顔文字が含まれるように前処理した場合のデータでトレーニングしてみましょう。

__今回は、twitter_sample用のtokenizerが定義されているので、それを使用したいと思います。__<br>
以下のように分かち書きをすることができます。

In [148]:
tweet_tokens = twitter_samples.tokenized('positive_tweets.json')
print(tweet_tokens[0:2])

[['#FollowFriday', '@France_Inte', '@PKuchly57', '@Milipol_Paris', 'for', 'being', 'top', 'engaged', 'members', 'in', 'my', 'community', 'this', 'week', ':)'], ['@Lamb2ja', 'Hey', 'James', '!', 'How', 'odd', ':/', 'Please', 'call', 'our', 'Contact', 'Centre', 'on', '02392441234', 'and', 'we', 'will', 'be', 'able', 'to', 'assist', 'you', ':)', 'Many', 'thanks', '!']]


顔文字が1文字として認識できるようになります。

In [152]:
# まずはEmbedding用の関数を定義しましょう
def Embedding(sentences):
    res = []
    # write your code!!
    
    return res

embed_positive_sentences = Embedding....... # write your code
print("before:", positive_tweets[0])
print(embed_positive_sentences[0])

embed_negative_sentences = Embedding....... # write your code
print("before:", negative_tweets[0])
print(embed_negative_sentences[0])

before: #FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)
['#followfriday', 'top', 'engage', 'member', 'community', 'week', ':)']
before: hopeless for tmr :(
['hopeless', 'tmr', ':(']


In [153]:
# トレーニングデータとテストデータを作成しましょう
# write your code

7000
3000


In [154]:
# trainingとtestを行い、結果を比較しましょう
# write your code

Accuracy is: 0.992
Most Informative Features
                      :( = True           Negati : Positi =   2071.0 : 1.0
                      :) = True           Positi : Negati =   1005.4 : 1.0
                follower = True           Positi : Negati =     39.7 : 1.0
                followed = True           Negati : Positi =     34.3 : 1.0
                  arrive = True           Positi : Negati =     33.0 : 1.0
                    glad = True           Positi : Negati =     23.7 : 1.0
                     x15 = True           Negati : Positi =     23.7 : 1.0
                     sad = True           Negati : Positi =     19.9 : 1.0
                    sick = True           Negati : Positi =     19.7 : 1.0
               community = True           Positi : Negati =     16.3 : 1.0
None


__Well Done!!!!!!!!!!!!!!!!__<br><br>
前処理によって精度が変わることが確認できました。<br>
もし、顔文字で判定したいのであればEx2のような前処理が有効的で、顔文字をデータを分けるために使用して単語で判定したい場合はEx1の方法が有効的であると言えます。

# Extra excercise
自由にtweetを作成して推測してみましょう。<br>
その際に、二種類の方法でトレーニングした場合の未知の文章の推測を比べてみましょう。<br>
NormalEmbeddingとEmbaddingを切り替えたりしても良いです。

In [211]:
index = random.randint(0, 20000)
custom_tweet = [all_tweets[index]]
print(custom_tweet)
custom_tokens = NormalEmbedding(custom_tweet)

print(classifier.classify(dict([token, True] for token in custom_tokens[0])))

['RT @OwenJones84: @Shiny02 @AndyYoung90 @Kelvinbhoy @meljomur http://t.co/9y3W44E76L I want a Labour government backed up by the SNP.']
Negative


In [207]:
custom_tweet = ["Please write your own sentences here"]
print(custom_tweet)
custom_tokens = NormalEmbedding(custom_tweet)

print(classifier.classify(dict([token, True] for token in custom_tokens[0])))

['Please write your own sentences here']
Negative
