# Twitterのセンチメント分析における前処理の威力

このノートブックでは、生のテキストと前処理済みのテキストを分類器に与えて、出力の違いを比較します。

## 準備

### パッケージのインストール

In [4]:
!pip install -q nltk==1.15.0 demoji==1.1.0

Collecting demoji
  Downloading demoji-1.1.0-py3-none-any.whl (42 kB)
[K     |████████████████████████████████| 42 kB 670 kB/s 
Installing collected packages: demoji
Successfully installed demoji-1.1.0


### モジュールのアップロード

本リポジトリにソーシャルメディアのテキストを前処理するためのモジュールとして`smtd_preprocessing.py`があります。そちらをアップロードしましょう。

In [1]:
from google.colab import files

uploaded = files.upload()

Saving O5_smtd_preprocessing.py to O5_smtd_preprocessing.py


In [5]:
import os
import sys
import warnings

from textblob import TextBlob

preprocessing_path = (
    "O5_smtd_preprocessing.py"
)
sys.path.append(os.path.abspath(preprocessing_path))
import O5_smtd_preprocessing as smtd_preprocessing
warnings.filterwarnings("ignore")

  demoji.download_codes()


Tweetとその前処理結果を確認してみましょう。

In [6]:
tweet = "@bad chilled beer is very good @verybad."
tweet_processed = smtd_preprocessing.process_TweetText(tweet)
tweet_processed

'constantnonbrandmention chilled beer is very good constantnonbrandmention .'

前処理したTweetとしていないTweetをTextBlobで解析してみましょう。

In [7]:
blob = TextBlob(tweet)
blob.sentiment

Sentiment(polarity=0.10500000000000004, subjectivity=0.7233333333333334)

In [8]:
blob = TextBlob(tweet_processed)
blob.sentiment

Sentiment(polarity=0.9099999999999999, subjectivity=0.7800000000000001)

見ての通り、分類器は生のツイートと処理済みのツイートで出力するpolarityの値が大きく異なっています。これは生のツイートには「bad」という単語が含まれていたためです。この「bad」が単なる人への言及であり、センチメントを表していないことを理解していなかったのです。前処理した結果、前処理済みのツイートの方が実態を表す結果となりました。
<br>
このように、データを前処理することの重要性がわかると思います。