# **Recent search** from *Twitter API(Standard)*

In [None]:
import pandas as pd
import numpy as np
import requests
import json
import re
import ast
import datetime
import time
# import os

import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib import rcParams
rcParams['font.family'] = 'Hiragino Sans GB' # matplotlibで描画するフォント設定
# rcParams['font.family'] = 'meiryo' # Windowsの場合はMeiryoを指定
rcParams['figure.autolayout'] = True # レイアウトの自動調整を利用
rcParams['figure.facecolor'] = 'white' # グラフの背景色を白へ変更

import seaborn as sns; sns.set(font='Hiragino Sans GB')
from tqdm.notebook import tqdm

import MeCab
from gensim import corpora, models

from wordcloud import WordCloud
import networkx as nx
from collections import defaultdict, Counter
from copy import copy, deepcopy

In [None]:
# https://developer.twitter.com/en/docs/tutorials/analyze-past-conversations
# https://github.com/twitterdev/Twitter-API-v2-sample-code/blob/master/Recent-Search/recent_search.py
# https://developer.twitter.com/en/docs/twitter-api/tweets/search/integrate/build-a-query

# To set your enviornment variables in your terminal run the following line:
# export 'BEARER_TOKEN'='<your_bearer_token>'

# def auth():
#     return os.environ.get("BEARER_TOKEN")

def create_url(QUERY, MAX_RESULTS):
    # クエリ条件：指定のワードを含む、リツイートを除く、ｂｏｔと思われるユーザーのツイートを除く
    query = QUERY
    # Tweet fields are adjustable.
    # Options include:
    # attachments, author_id, context_annotations,
    # conversation_id, created_at, entities, geo, id,
    # in_reply_to_user_id, lang, non_public_metrics, organic_metrics,
    # possibly_sensitive, promoted_metrics, public_metrics, referenced_tweets,
    # source, text, and withheld
#     tweet_fields = "tweet.fields=author_id"
    tweet_fields = "tweet.fields=author_id,id,text,created_at"
    max_results = MAX_RESULTS
    url = "https://api.twitter.com/2/tweets/search/recent?query={}&{}&{}".format(
        query, tweet_fields, max_results
    )
    return url

def create_headers(bearer_token):
    headers = {"Authorization": "Bearer {}".format(bearer_token)}
    return headers

def connect_to_endpoint(url, headers):
    response = requests.request("GET", url, headers=headers)
#     print('status code:', str(response.status_code))
    if response.status_code != 200:
        raise Exception(response.status_code, response.text)
    return response.json()

def get_tweet(BEARER_TOKEN, MAX_RESULTS, QUERY):
    bearer_token = BEARER_TOKEN
    url = create_url(QUERY, MAX_RESULTS)
    headers = create_headers(bearer_token)
    json_response = connect_to_endpoint(url, headers)
    json_dumps = json.dumps(json_response, indent=4, sort_keys=True)
    return ast.literal_eval(re.sub('\\n\s+', '', json_dumps))

In [None]:
def utc_to_jst(timestamp_utc):
    datetime_utc = datetime.datetime.strptime(timestamp_utc + "+0000", "%Y-%m-%d %H:%M:%S.%f%z")
    datetime_jst = datetime_utc.astimezone(datetime.timezone(datetime.timedelta(hours=+9)))
    timestamp_jst = datetime.datetime.strftime(datetime_jst, '%Y-%m-%d %H:%M:%S')
    return timestamp_jst

def shape_data(data):
    for i, d in enumerate(data):
        # URLの置換
        data[i]['text'] = re.sub('[ 　]https://t\.co/[a-zA-Z0-9]+', ' ', d['text'])
        # ユーザー名の置換
        data[i]['text'] = re.sub('[ 　]?@[a-zA-Z0-9_]+[ 　]', ' ', d['text'])
        # 絵文字の置換
        data[i]['text'] = d['text'].encode('cp932',errors='ignore').decode('cp932')
#         # ハッシュタグの置換
#         data[i]['text'] = re.sub('#.+ ', ' ', d['text'])
        # 全角スペース、タブ、改行をスペースへ置換
        data[i]['text'] = re.sub(r"[\u3000\t\n]", " ", d['text'])
        # 日付時刻の変換（UTCからJST）
        data[i]['created_at'] = utc_to_jst(d['created_at'].replace('T', ' ')[:-1])
    return data

In [None]:
BEARER_TOKEN = "ここにBearertokenを入れます"
MAX_RESULTS = "max_results=100" # A number between 10 and 100.

TARGET_WORDS = [
    "三井ダイレクト",
    "ソニー損保",
    "アクサダイレクト"
]
QUERY_CONDITIONS = [
    "-is:retweet -(from:ray_takagi OR from:daikiti62382874 OR from:2map27televiman OR from:akari8671 OR from:hokenwalker OR from:usachan_21 OR from:daikiti62382874)",
    "-is:retweet -(3月9日を OR %22ソニー 損保 cm 女優%22) -(from:08453103 OR from:keith1919 OR from:JK71068190 OR from:2map27televiman from:gooddrive_pr OR from:akari8671 OR from:hokenwalker OR from:up7AGucBlUdebhJ OR from:P42660868 OR from:jk27273809 OR from:Sakiho48692364 OR from:JK56524873 OR from:nini82836031 OR from:Momoko61030593 OR from:cgsrp902twt OR from:JK56524873 OR from:K4XoZ6OPGDtdZGA OR from:Momoko61030593 OR from:Skyrocket_Co)",
    "-is:retweet -(from:2map27televiman OR from:akari8671 OR from:hokenwalker OR from:aiueo_700_bot OR from:PutiMotor OR from:hirayamaruo)"
]

df = pd.DataFrame()
iterator, request_iterator = 0, 0

# クエリのlistが終わるまでAPIを叩く
for target_word, query_ in zip(TARGET_WORDS, QUERY_CONDITIONS):
    next_token = ''
    break_flag = False
    # 次ページがなくなるまで次ページのクエリを取得
    while True:
        try:
            data['meta']['next_token']
        except KeyError: # 次ページがない(next_tokenがない)場合はループを抜ける
            del data
            break_flag = True
        except NameError: # TARGET_WORDS内の各要素で初めてAPIを取得するとき
            query = query_
        else: # 2ページめ以降の処理
            next_token = data['meta']['next_token']
            query = query_ + '&next_token=' + next_token
        finally:
            if break_flag == True: break
            QUERY = '{} {}'.format(target_word, query)
            data = get_tweet(BEARER_TOKEN, MAX_RESULTS, QUERY)
            temp_df = pd.DataFrame(shape_data(data['data']))
            temp_df[target_word] = True
            df = pd.concat([df, temp_df])
            
            iterator += data['meta']['result_count']
            
            request_iterator += 1
            if request_iterator >= 180: # 180requestを超えたら止める
                print('180リクエストを超えるため、15分間停止します...')
                time.sleep(15.01*60) # 15分間（余裕をみてプラス1秒弱）中断
                request_iterator = 0
                
df.reset_index(drop=True, inplace=True)
print(str(iterator) + '件取得しました。')

target_word = ['三井ダイレクト', 'ソニー損保', 'アクサダイレクト']
for target in target_word:
    df[target].fillna(False, inplace=True)

df.to_pickle('./raw_tweetlog.pkl')

In [None]:
raw_tweetlog = pd.read_pickle('./raw_tweetlog.pkl')

# Text analysis

In [None]:
# 同一ツイートを重複して取得しているため、ツイートidのユニークなDataFramewo作成（TARGET_WORDS（会社名）ごとのフラグも集約）
dupulicate_target = 'id'
uniqueflag_df = raw_tweetlog[raw_tweetlog.duplicated(subset=dupulicate_target, keep=False)].\
                groupby(dupulicate_target).agg(
                {'三井ダイレクト': lambda x: True if sum(x) > 0 else False,
                'ソニー損保': lambda x: True if sum(x) > 0 else False,
                'アクサダイレクト': lambda x: True if sum(x) > 0 else False}).reset_index()

# ユニークなDataFrameを参照してツイートがあれば各TARGET_WORDのフラグを上書き、新たなDataFrameを作成
df = raw_tweetlog.merge(uniqueflag_df, on=[dupulicate_target], how='left', suffixes=('_',''))
target_word = ['三井ダイレクト', 'ソニー損保', 'アクサダイレクト']
for target in target_word:
    df[target] = df[target].fillna(df[target+'_'])
    df = df.drop(target+'_', axis=1)

df.drop_duplicates(subset=dupulicate_target, inplace=True)

In [None]:
df['created_at'] = pd.to_datetime(df['created_at'], format='%Y-%m-%d')
df['target_count'] = df.apply(lambda x: sum(x[['三井ダイレクト', 'ソニー損保', 'アクサダイレクト']]), axis=1)

In [None]:
df.info()

In [None]:
df.head()

In [None]:
# 形態素解析の関数：Mecabにかけて、名詞・動詞・形容詞を出力する

# 表層部がうまく分かち書きされない既知のバグがあるため
# その場合はGitHubから最新のソースコードを取得してインストールする
# https://qiita.com/rinatz/items/410dd55e98f1eddc8071

def mecab_list(sentence):
    """
    引数：解析対象のテキストオブジェクト（文章単位）
    戻り値：listへ格納した形態素解析結果
    """
    tagger = MeCab.Tagger('-Ochasen -u /usr/local/lib/mecab/dic/ipadic/user_dic.dic -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
    tagger.parse('')
    node = tagger.parseToNode(str(sentence))
    word_class = []
    type_of_word_class = []
    
    # 除外ワードがある場合は指定する
    stopwords = ['し', 'する', 'こと', 'てる', 'ん', 'の', 'て', 'なっ', 'れ', 'さ', 'なる', 'そう', 'い', 'さん',\
                 '9', 'co', 'https', 't', '思っ', 'いる', 'くる', 'ー', 'みたい', '見', '出', '方', '事', '何',\
                 '中', 'ある', '誰か', 'とき', '誰', '人', '私', 'ため', '03']
    target_wclass = ['名詞', '動詞', '形容詞']#, '助動詞']              # 抽出したい品詞を指定する
    
    while node:
        word, wclass = node.surface, node.feature.split(',')[0]     #　sentenceから表層形と品詞情報を取り出す
        if wclass != u'BOS/EOS' and \
           word not in stopwords and wclass in target_wclass:  # 対象外の表層形を除外、対象の品詞に絞り込み
            word_class.append(word)
            type_of_word_class.append(wclass)
        node = node.next
    return pd.Series({'morphene': word_class, 'morphene_type': type_of_word_class})

In [None]:
# 解析器エンジンにデータを投げ、形態素解析を行う
df = pd.concat([df, df['text'].apply(mecab_list)], axis=1)
df

In [None]:
def daily_tweet(title, data):
    plt.figure(figsize=(8, 6))
    temp_df = data.set_index(data['created_at'].map(lambda s: s.strftime('%m/%d'))).\
    groupby(level=0).size()
    plt.bar(temp_df.index, temp_df.values)
    plt.title(label='"{}" を含むツイート'.format(title))

    # ツイート総数
    plt.text(x=temp_df.index[-1], y=max(temp_df.values)*0.95,\
             s='ツイート総数:'+str(sum(temp_df.values))+'件', ha='center',\
             bbox=dict(boxstyle='round', fc='white', alpha=0.3, ec='gray'))
    # 日別件数
    [plt.text(x=temp_df.index[i], y=temp_df.values[i], s=temp_df.values[i], ha='center')\
     for i in range(len(temp_df))]

    plt.show()

In [None]:
# 品詞ごとの頻度をカウント
def word_frequency(data):
    documents = data['morphene']
    dct = corpora.Dictionary(documents)
    # 「出現頻度が1未満の単語」と「0%以上の文書で出現する単語」を排除
    # ↑コーパスの中で出現頻度の低すぎる単語と高すぎる単語は、文書間の違いを表せないので特徴語には不適切と考えて除去
    dct.filter_extremes(no_below = 3, no_above = 0.8)
    # bow_corpus = [dct.doc2bow(d) for d in documents]

    word_freq = {x:dct.dfs[y] for x, y in dct.token2id.items()}
    word_freq = dict(sorted(word_freq.items(), key=lambda x:x[1], reverse=True))
    word_freq_df = pd.DataFrame(data=word_freq.values(), index=word_freq.keys(), columns=['freq']).head(100)

    # # BoWに対してTF-IDFによる重み付けを行う
    # tfidf_model = models.TfidfModel(bow_corpus)
    # tfidf_corpus = tfidf_model[bow_corpus]
    
    return word_freq_df

# ワードクラウドの描画
# https://www.takapy.work/entry/2019/01/14/142128
def plot_wordcloud(text, mask=None, max_words=200, max_font_size=100, figure_size=(24.0,16.0), 
                   title=None, title_size=60, title_color='gray', bg_color='white'):
    
    # 日本語に対応させるためにフォントのパスを指定
    f_path = '/System/Library/Fonts/ヒラギノ角ゴシック W1.ttc'
    
    # wordcloudの生成
    wordcloud = WordCloud(background_color=bg_color,
#                    stopwords = stopwords,
                    font_path=f_path, #日本語対応
                    max_words=max_words,
                    max_font_size=max_font_size, 
#                    random_state=42,
                    width=800, 
                    height=400,
                    mask=mask)
    wordcloud.generate(str(text).replace("'", ""))
    
    plt.figure(figsize=figure_size)
    plt.imshow(wordcloud)
    plt.title(title, fontdict={'size': title_size, 
                               'color': title_color, 
                               'verticalalignment': 'bottom'})
    plt.axis('off')
    plt.tight_layout()
    
#　横棒グラフの描画
def plot_bar_horizontal(data, figure_size):
    plt.figure(figsize=figure_size)
    plt.barh(data.index, data.values)

In [None]:
company_word_freq_df = word_frequency(df)

# 会社ごとのDataFrameを作成
md_df = df.loc[df['三井ダイレクト']==True]
ss_df = df.loc[df['ソニー損保']==True]
ad_df = df.loc[df['アクサダイレクト']==True]

for target, data in zip(target_word, [md_df, ss_df, ad_df]):
    daily_tweet(target, data)

In [None]:
plot_wordcloud(list(company_word_freq_df.index), figure_size=(12, 6), title='')

In [None]:
for company_df, title in zip([md_df, ss_df, ad_df], target_word):
    company_word_freq_df = word_frequency(company_df)
    plot_wordcloud(list(company_word_freq_df.index), figure_size=(12, 6), title='')
    plot_bar_horizontal(company_word_freq_df[:20][::-1]['freq'], figure_size=(8, 6))

In [None]:
# 共起ネットワークの描画
# https://qiita.com/hanon/items/a2000da2f70d6c14ca5b

def plot_co_occurrence_network(data_morphene, data_morphene_type, text=''):
    
    node_name = defaultdict(str)
    node_idx = defaultdict(int)
    node_type = defaultdict(list)
    node_count = defaultdict(int)
    edge_list = []
    cnt = 0
    
    # DataFrameの形態素・品詞種類の各列からデータを読み込み
    for morphene, morphene_type in zip(data_morphene, data_morphene_type):
        node_prev = None

        for m, m_t in zip(morphene, morphene_type):
            # Nodeの処理
            if m not in node_name.values():
                node_name[cnt] = m
                node_idx[m] = cnt
                node_count[cnt] = 1
                node_type[m_t].append(node_idx[m])
                cnt += 1
            else:
                node_count[node_idx[m]] += 1

            # edgeの処理
            if (node_prev is not None) & (node_prev != node_idx[m]): # 循環グラフ、有向グラフを回避
                edge = (min(node_prev, node_idx[m]), max(node_prev, node_idx[m]))
                edge_list.append(edge)
            node_prev = node_idx[m]

    edge_count = Counter(edge_list)

    # Networkxに格納
    G = nx.Graph()
    G.add_nodes_from([(idx, {'cnt': node_count[idx]}) for idx in node_name])
    G.number_of_nodes(), len(node_name)
    G.add_edges_from([(a, b, {'cnt': edge_count[(a, b)]}) for a, b in edge_list])

    # Node, Edgeを剪定
    G2 = deepcopy(G)
    # Node: cnt >= 3で剪定
    # 破壊的操作なので、予め破壊用のグラフ(G2)と検索用グラフ(G)を分けておく
    for n, attr in G.nodes().items():
#         if (attr['cnt'] < 10):
        if (attr['cnt'] < 5):
            G2.remove_edges_from(list(G.edges(n)))
            G2.remove_node(n)

    G3 = deepcopy(G2)
    # Edge: cnt >= 2で剪定
    # EdgeがなくなったNodeは一旦そのまま
    for e, attr in G2.edges().items():
        if attr['cnt'] < 2:
            G3.remove_edge(*e)

    G4 = deepcopy(G3)
    # EdgeがなくなったNodeを削除
    for n in list(G3.nodes()):
        if len(G3[n]) == 0:
            G4.remove_node(n)

    G_result = deepcopy(G4)

    pos = nx.layout.spring_layout(G_result, k=0.7, seed=10) # 2次元平面上の座標を計算
    labels = {n: node_name[n] for n in pos.keys()} # Nodeに日本語を描画するための辞書
    # node_size = [np.log(node_count[n])*400 for n in pos.keys()] # 対数スケール
    node_size = [node_count[n]*25 for n in pos.keys()]

    edge_alpha = [edge_count[e] for e in G_result.edges()]
    edge_colors = [edge_count[e]*2.5 for e in G_result.edges()]
    edge_width = [edge_count[e]*0.4 for e in G_result.edges()]

    node_dict = dict(zip(G_result.nodes(), node_size))

    # 描画
    fig, ax = plt.subplots(figsize=(12,12))
    # 名詞のNodeを描画
    # Nodeを色分けしたいときは、nodelistを使ってNodeのグループ毎に描画関数を繰り返し実行する
    # nodelistはグループ毎のNode番号を指定するが、それ以外の引数(posやnode_sizeなど)は全てのNodeについての値を入れる
    # 指定出来る色はmatplotlibのcolor exampleを参照
    # https://matplotlib.org/examples/color/named_colors.html

    node_type_list = ['名詞', '動詞', '形容詞']
    node_color_list = ['orange', 'yellowgreen', 'tomato']
    
    for n_t, n_c in zip(node_type_list, node_color_list):
        nx.draw_networkx_nodes(G_result, pos, 
                               nodelist=[n for n in G_result.nodes() if n in node_type[n_t]], 
                               node_size=[val for key, val in node_dict.items() if key in \
                                         [n for n in G_result.nodes() if n in node_type[n_t]]], 
                               node_color=n_c, alpha=0.6, ax=ax)
        
        # 凡例の出力準備
        plt.scatter([], [], c=n_c, alpha=0.5, s=350, label=n_t)

    # edgeの色に濃淡をつけたいときは、edge_colorに数値のlistを代入してedge_cmapを使用
    # Sequentialなカラーマップから好きなやつを選ぶ
    # https://matplotlib.org/examples/color/colormaps_reference.html
    # 色の濃淡の具合はedge_vmin, edge_vmaxで調整
    nx.draw_networkx_edges(G_result, pos, alpha=0.6,
                           width=edge_width, edge_color=edge_colors, 
                           edge_vmin=0, edge_vmax=10,
                           edge_cmap=plt.cm.Blues,ax=ax)
    # Nodeにラベルをつけたいときは、以下の関数を使う
    # font_familyにPCに入っている日本語フォントを指定してあげると、日本語を描画してくれる
    nx.draw_networkx_labels(G_result, pos, labels, font_size=10, font_family="Hiragino sans", ax=ax)

    plt.title(text)
    
    # 凡例表示
    plt.legend(scatterpoints=1, frameon=True,
           labelspacing=1, title='品詞の種類')
    
    plt.axis('off')
    # fig.patch.set_alpha(0.3)
    fig.patch.set_facecolor('white')
    plt.show()

In [None]:
plot_co_occurrence_network(df['morphene'].tolist(), df['morphene_type'].tolist())

for company_df, text in zip([md_df, ss_df, ad_df], target_word):
    plot_co_occurrence_network(company_df['morphene'].tolist(),\
                               company_df['morphene_type'].tolist(), text)

In [None]:
df.loc[df['target_count']>=2]