# TwitterからのTweet取得とPythonによる感情分析

### １）Tweet取得コード

・Tweepyは、予め認証情報をセットしたclientを作り、そのClientでメソッドを実行する形で処理を行う。

・下記では、search_recent_Tweets()を用いてクエリ（変数q）に検索ワードをセットし、Tweetを取得している。

・今回はTweetのユニークID（id）とテキストデータ（text）を取得しているが、このほかに"created_at", "author_id", "public_metrics", "context_annotations"なども取得可能。

　　　　参考：https://developer.twitter.com/en/docs/twitter-api/data-dictionary/object-model/tweet

・その他属性情報を追加する際には、expansionsやTweet_fieldsにリスト形式で追加する必要があるケースもあるので、各メソッドの引数に注意。

　　　　参考：https://developer.twitter.com/en/docs/twitter-api/tweets/search/api-reference/get-tweets-search-recent
    
（参考にしたwebページ）

https://d-cubed-lab.com/python-twitter-sentiment-analysis#%E6%84%9F%E6%83%85%E5%88%86%E6%9E%90-%E3%82%BB%E3%83%B3%E3%83%81%E3%83%A1%E3%83%B3%E3%83%88%E5%88%86%E6%9E%90-%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%A0%E3%81%AFbert%E3%82%92%E4%BD%BF%E3%81%86

In [1]:
# インポート
import tweepy
import csv
import os
import pandas as pd
from dotenv import load_dotenv

In [2]:
load_dotenv()

bearer = os.getenv("BEARER")
api_key = os.getenv("API_KEY")
api_sec = os.getenv("API_SEC")
token = os.getenv("TOKEN")
token_sec = os.getenv("TOKEN_SEC")

client = tweepy.Client(bearer_token = bearer,
                       consumer_key = api_key,
                       consumer_secret = api_sec,
                       access_token = token,
                       access_token_secret = token_sec
                      )

# 検索ワード
q = "かんぽ"
# 取得するTweet数
count = 10

results = []
 
tweets = client.search_recent_tweets(query = q, max_results = count)
tweets_data = tweets.data

if tweets_data != None:
    for tweet in tweets_data:
        obj = {}
        obj["tweet_id"] = tweet.id
        obj["text"] = tweet.text
        results.append(obj)
else:
    results.append('')
 
with open(
          "Tweetsdata.csv", 
          "w", 
          encoding = "utf-8"
         ) as f:
    writer = csv.writer(f,  lineterminator = "\n")
    writer.writerow(results)

#### search_recent_Tweets()以外でよく使われるメソッド

・Tweet検索：client.search_recent_Tweets()

・特定のTweet取得：client.get_Tweet()

・特定のUser情報取得：client.get_user()

・いいねしたUser情報取得：client.get_liking_users()

・リツイートしたUser情報取得：client.get_reTweeters()

・Userのフォロー情報取得：client.get_users_following()

・Userのフォロワー情報取得：client.get_users_followers()

In [3]:
# 取得できているか確認
tweets_df = pd.read_csv('Tweetsdata.csv')
tweets_df

Unnamed: 0,"{'tweet_id': 1573202223206895616, 'text': 'もう来週やん、国葬って…。かんぽマンが当日ノコノコ来局してきて「今ならいつ命が失われるか客も不安がってるやろから盗りやすいやろw」とかぬかしそう…。まあそんな奴ばっかですわ…'}","{'tweet_id': 1573202032990867456, 'text': '夫のかんぽは入らない。 https://t.co/dDRMVHBkRB'}","{'tweet_id': 1573200799270043648, 'text': 'かんぽ営業、上からの圧力がすごい…毎日毎日仕事行くの辛い。ホントにあんな問題あっても何にも変わらないダメな会社。\n#かんぽ営業\u3000#新規契約'}","{'tweet_id': 1573200632504528897, 'text': 'RT @sukoyakampo: ／\n期間限定！ちいかわコラボ実施中！\n歩くを応援する無料アプリ✨\nちいかわたちとお散歩しよう\n＼\n\nオリジナル特典もGETできる👊\nすこやかんぽでコラボ実施中❗\n\n今すぐ「すこやかんぽ」をダウンロード❗️'}","{'tweet_id': 1573198000897560576, 'text': 'RT @ponnu20mama: 結婚してから1番ショックだったのは、夫の生命保険料。親の知り合いに勧められたかんぽ生命、友人にすすめられたドル建て生命保険。合わせて毎月5万円。夫の給料は19万。「なぜ入ったの？」と聞いたら「放っておいても大丈夫！お得にもしもの時に備えられます…'}","{'tweet_id': 1573195780919287808, 'text': 'RT @ponnu20mama: 結婚してから1番ショックだったのは、夫の生命保険料。親の知り合いに勧められたかんぽ生命、友人にすすめられたドル建て生命保険。合わせて毎月5万円。夫の給料は19万。「なぜ入ったの？」と聞いたら「放っておいても大丈夫！お得にもしもの時に備えられます…'}","{'tweet_id': 1573195249782255616, 'text': 'RT @Point2018: 今日も全ファンド大捕物！\n\n前場1700以上で利確完了した万株ホルダー達の笑顔全開！！\n\n稼いだ分はちゃんと街に返すのがサークルのお約束、昼間から焼肉パーティ！！\n\nちなみに、、、\n\n10万以上のお会計、全額 #かんぽ がおごってくれました！ご馳走…'}","{'tweet_id': 1573192050128064512, 'text': 'RT @sukoyakampo: ／\n期間限定！ちいかわコラボ実施中！\n歩くを応援する無料アプリ✨\nちいかわたちとお散歩しよう\n＼\n\nオリジナル特典もGETできる👊\nすこやかんぽでコラボ実施中❗\n\n今すぐ「すこやかんぽ」をダウンロード❗️'}","{'tweet_id': 1573191593292709890, 'text': '@kampo2022 天気が悪い日は在宅率もいいはず‼️\nチャンスだろ⁉️\nアポ入れろよ‼️(キリッ)\n\nby🏣の管理者様(あ⁉️今はかんぽか😁)\n\nせっかくの三連休にこんなセリフ、Twitterとはいえ見たくないですよね❓失礼しました🙏'}","{'tweet_id': 1573190587364171776, 'text': 'おやつのじかんぽろ！'}"


### 取得したTweetの感情分析

取得したtweetをBERTによる感情分析に供し、ネガポジ判定したデータを出力する。

In [7]:
# インポート
import tweepy
from transformers import pipeline 
from transformers import AutoModelForSequenceClassification 
from transformers import BertJapaneseTokenizer
from tqdm import tqdm
import pandas as pd
import os
from dotenv import load_dotenv

In [6]:
load_dotenv()

bearer = os.getenv("BEARER")
api_key = os.getenv("API_KEY")
api_sec = os.getenv("API_SEC")
token = os.getenv("TOKEN")
token_sec = os.getenv("TOKEN_SEC")

client = tweepy.Client(bearer_token = bearer,
                       consumer_key = api_key,
                       consumer_secret = api_sec,
                       access_token = token,
                       access_token_secret = token_sec
                      )

# 検索ワード
q = "かんぽ"
count = 10
tweet_list = []

tweets = client.search_recent_tweets(
    query = q,
    expansions = ['author_id'],
    tweet_fields = ['created_at'],
    max_results = count
)
tweets_data = tweets.data

if tweets_data != None:
    for tweet in tweets_data:
        obj = {}
        obj["tweet_id"] = tweet.id
        obj["text"] = tweet.text
        obj["author_id"] = tweet.author_id
        obj["created_at"] = tweet.created_at
        tweet_list.append(obj)
else:
    tweet_list.append('')


results = []

model = AutoModelForSequenceClassification.from_pretrained('daigo/bert-base-japanese-sentiment') # 公開されているネガポジ判定モデル
tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking') # トークナイザ
nlp = pipeline(
    "sentiment-analysis",
    model = model,
    tokenizer = tokenizer
)

for tweet in tweet_list:

    # tweet_text = tweet['text'] # 加工しない場合
    tweet_id = str(tweet['tweet_id'])
    tweet_text = tweet['text'].replace("\n", "")
    tweet_user_id = str(tweet['author_id'])
    tweet_date = str(tweet['created_at'])
    emotion = nlp(tweet_text)
    print(emotion[0])
    negaposi = emotion[0]['label']
    score = str(emotion[0]['score'])

    results.append(tweet_id + "," + tweet_text + "," + negaposi + "," + score + "," + tweet_user_id + "," + tweet_date)

with open(
    "Tweet_emotional_data.csv",
    "w",
    encoding = "utf-8"
) as f:
    for line in results:
        f.write(line + "\n")

{'label': 'ポジティブ', 'score': 0.765830397605896}
{'label': 'ポジティブ', 'score': 0.9186358451843262}
{'label': 'ポジティブ', 'score': 0.7061746716499329}
{'label': 'ポジティブ', 'score': 0.9219995141029358}
{'label': 'ポジティブ', 'score': 0.9477055668830872}
{'label': 'ポジティブ', 'score': 0.9124383926391602}
{'label': 'ポジティブ', 'score': 0.9219995141029358}
{'label': 'ポジティブ', 'score': 0.6326344609260559}
{'label': 'ポジティブ', 'score': 0.9842785000801086}
{'label': 'ポジティブ', 'score': 0.5107817649841309}


In [12]:
# 取得したtweet内容の確認
tweets_df = pd.read_csv(
    'Tweet_emotional_data.csv',
    names = ['tweet_id', 'text', 'judgement', 'score', 'author_id', 'created_at']
)
tweets_df

Unnamed: 0,tweet_id,text,judgement,score,author_id,created_at
0,1573202223206895616,もう来週やん、国葬って…。かんぽマンが当日ノコノコ来局してきて「今ならいつ命が失われるか客も...,ポジティブ,0.76583,1363391698835922945,2022-09-23 06:46:53+00:00
1,1573202032990867456,夫のかんぽは入らない。 https://t.co/dDRMVHBkRB,ポジティブ,0.918636,72274700,2022-09-23 06:46:08+00:00
2,1573200799270043648,かんぽ営業、上からの圧力がすごい…毎日毎日仕事行くの辛い。ホントにあんな問題あっても何にも変...,ポジティブ,0.706175,817168176488202240,2022-09-23 06:41:13+00:00
3,1573200632504528897,RT @sukoyakampo: ／期間限定！ちいかわコラボ実施中！歩くを応援する無料アプリ...,ポジティブ,0.922,1428669002146930688,2022-09-23 06:40:34+00:00
4,1573198000897560576,RT @ponnu20mama: 結婚してから1番ショックだったのは、夫の生命保険料。親の知...,ポジティブ,0.947706,1324708068131659776,2022-09-23 06:30:06+00:00
5,1573195249782255616,RT @Point2018: 今日も全ファンド大捕物！前場1700以上で利確完了した万株ホル...,ポジティブ,0.912438,1560537596630945796,2022-09-23 06:19:10+00:00
6,1573192050128064512,RT @sukoyakampo: ／期間限定！ちいかわコラボ実施中！歩くを応援する無料アプリ...,ポジティブ,0.922,1177961234022297600,2022-09-23 06:06:27+00:00
7,1573191593292709890,@kampo2022 天気が悪い日は在宅率もいいはず‼️チャンスだろ⁉️アポ入れろよ‼️(キ...,ポジティブ,0.632634,752279730804527104,2022-09-23 06:04:38+00:00
8,1573190587364171776,おやつのじかんぽろ！,ポジティブ,0.984279,700687453,2022-09-23 06:00:39+00:00
9,1573189460799684610,あかんぽてと………Sサイズってこんなでかいっけ…？ボリューミーすぎんか？,ポジティブ,0.510782,1376842567363403776,2022-09-23 05:56:10+00:00
