In [3]:
# coding: UTF-8
import requests
from bs4 import BeautifulSoup
import csv
import time
from datetime import datetime

#
# 指定されたTwitterのユーザー名のTweetを収集するクラス
#　- collectTweet でインスタンスにTweetデータを保持
# - writeCSV で保持したTweetデータをCSVファイルとして保存
#
class TweetCollector:
    #Twitterの取得URL
    __TWITTER_URL = (
        "https://twitter.com/i/profiles/show/"
        "%(user_name)s/timeline/tweets?include_available_features=1&include_entities=1"
        "%(max_position)s&reset_error_state=false"
    )

    __user_name = "aidamitsuobot"    #取得するTwitterのユーザー名
    __tweet_data = []   #Tweetのブロックごと配列

    #
    # コンストラクタ
    #
    def __init__(self, user_name):
        self.__user_name = user_name

        #項目名の設定
        row = [
            "ツイートID",
            "名前",
            "ユーザー名",
            "投稿日",
            "本文",
            "返信数",
            "リツイート数",
            "いいね数"
        ]
        self.__tweet_data.append(row)

    #
    # Tweetの収集を開始する
    #
    def collectTweet(self):
        self.nextTweet(0)

    #
    # 指定されたポジションを元に次のTweetを収集する
    #
    def nextTweet(self, max_position):
        # max_position に 0 が指定されていたらポジション送信値なし
        if max_position == 0:
            param_position = ""
        else:
            param_position = "&max_position=" + max_position

        # 指定パラメータをTwitterのURLに入れる
        url = self.__TWITTER_URL % {
            'user_name': self.__user_name, 
            'max_position': param_position
        }

        # HTMLをスクレイピングして、Tweetを配列として格納
        res = requests.get(url)
        soup = BeautifulSoup(res.json()["items_html"], "html.parser")

        items = soup.select(".js-stream-item")

        for item in items:
            row = []
            row.append(item.get("data-item-id")) #ツイートID
            row.append(item.select_one(".fullname").get_text().encode("cp932", "ignore").decode("cp932")) #名前
            row.append(item.select_one(".username").get_text()) #ユーザー名
            row.append(item.select_one("._timestamp").get_text()) #投稿日
            row.append(item.select_one(".js-tweet-text-container").get_text().strip().encode("cp932", "ignore").decode("cp932")) #本文
            row.append(item.select(".ProfileTweet-actionCountForPresentation")[0].get_text()) #返信カウント
            row.append(item.select(".ProfileTweet-actionCountForPresentation")[1].get_text()) #リツイートカウント
            row.append(item.select(".ProfileTweet-actionCountForPresentation")[3].get_text()) #いいねカウント

            self.__tweet_data.append(row)

        print(str(max_position) + "取得完了")
        time.sleep(1) #負荷かけないように

        # ツイートがまだあれば再帰処理
        if res.json()["min_position"] is not None:
            self.nextTweet(res.json()["min_position"])

    #
    # 取得したTweetをCSVとして書き出す
    #
    def writeCSV(self):
        today = datetime.now().strftime("%Y%m%d%H%M")
        with open(self.__user_name + "-" + today + ".csv", "w") as f:
            writer = csv.writer(f, lineterminator='\n')
            writer.writerows(self.__tweet_data)


In [4]:
twc = TweetCollector("aidamitsuobot") #Twitterのユーザー名を指定
twc.collectTweet()
twc.writeCSV()

0取得完了
1166457159187456000取得完了
1166268414148505600取得完了
1166087213324455937取得完了
1165883410583187456取得完了
1165709726740385792取得完了
1165521022990204931取得完了
1165369995850764293取得完了
1165196352935981057取得完了
1165015151084326912取得完了
1164818865710174211取得完了
1164615029255106560取得完了
1164426276574121984取得完了
1164252642408669184取得完了
1164071471217401856取得完了
1163882687284703232取得完了
1163701500767436805取得完了
1163497659392385030取得完了
1163324013633888256取得完了
1163142814630236161取得完了
1162961629354422272取得完了
1162772885787668481取得完了
1162599239504896000取得完了
1162425601698885632取得完了
1162244426816561152取得完了
1162078314682408961取得完了
1161874465887645698取得完了
1161708363735957504取得完了
1161534780552425473取得完了
1161368635664789504取得完了
1161187466734264320取得完了
1161013787534565378取得完了
1160840173115994112取得完了
1160651395663462400取得完了
1160424910436442113取得完了
1160236168102809601取得完了
1160039909714845697取得完了
1159836035955560448取得完了
1159662412426907648取得完了
1159420821980319744取得完了
1159239633290461186取得完了
1159058436031578112取得完了
1158998040