## GetOldTweet3 패키지를 활용한 Twitter Crawling

In [1]:
try:
    import GetOldTweets3 as got
except:
    !pip install GetOldTweets3
    import GetOldTweets3 as got

Collecting GetOldTweets3
  Downloading https://files.pythonhosted.org/packages/ed/f4/a00c2a7c90801abc875325bb5416ce9090ac86d06a00cc887131bd73ba45/GetOldTweets3-0.0.11-py3-none-any.whl
Collecting pyquery>=1.2.10 (from GetOldTweets3)
  Downloading https://files.pythonhosted.org/packages/78/43/95d42e386c61cb639d1a0b94f0c0b9f0b7d6b981ad3c043a836c8b5bc68b/pyquery-1.4.1-py2.py3-none-any.whl
Collecting cssselect>0.7.9 (from pyquery>=1.2.10->GetOldTweets3)
  Downloading https://files.pythonhosted.org/packages/3b/d4/3b5c17f00cce85b9a1e6f91096e1cc8e8ede2e1be8e96b87ce1ed09e92c5/cssselect-1.1.0-py2.py3-none-any.whl
Installing collected packages: cssselect, pyquery, GetOldTweets3
Successfully installed GetOldTweets3-0.0.11 cssselect-1.1.0 pyquery-1.4.1


In [2]:
try:
    from bs4 import BeautifulSoup
except:
    !pip install bs4
    from bs4 import BeautifulSoup

## 수집 기간 정의하기

In [38]:
# 가져올 범위를 정의
# 예제 : 2019-04-21 ~ 2019-04-24

import datetime

days_range = []

start = datetime.datetime.strptime("2020-01-01", "%Y-%m-%d")
end = datetime.datetime.strptime("2020-04-21", "%Y-%m-%d")
date_generated = [start + datetime.timedelta(days=x) for x in range(0, (end-start).days)]

for date in date_generated:
    days_range.append(date.strftime("%Y-%m-%d"))

print("=== 설정된 트윗 수집 기간은 {} 에서 {} 까지 입니다 ===".format(days_range[0], days_range[-1]))
print("=== 총 {}일 간의 데이터 수집 ===".format(len(days_range)))

=== 설정된 트윗 수집 기간은 2020-01-01 에서 2020-04-20 까지 입니다 ===
=== 총 111일 간의 데이터 수집 ===


## 트윗 수집하기

In [44]:
# 특정 검색어가 포함된 트윗 검색하기 (quary search)
# 검색어 : 어벤져스, 스포

import time

# 수집 기간 맞추기
start_date = days_range[0]
end_date = (datetime.datetime.strptime(days_range[-1], "%Y-%m-%d") 
            + datetime.timedelta(days=1)).strftime("%Y-%m-%d") # setUntil이 끝을 포함하지 않으므로, day + 1

# 트윗 수집 기준 정의
tweetCriteria = got.manager.TweetCriteria().setQuerySearch('상해보험')\
                                           .setSince(start_date)\
                                           .setUntil(end_date)\
                                           .setMaxTweets(-1)

# 수집 with GetOldTweet3
print("Collecting data start.. from {} to {}".format(days_range[0], days_range[-1]))
start_time = time.time()

tweet = got.manager.TweetManager.getTweets(tweetCriteria)

print("Collecting data end.. {0:0.2f} Minutes".format((time.time() - start_time)/60))
print("=== Total num of tweets is {} ===".format(len(tweet)))

Collecting data start.. from 2020-01-01 to 2020-04-20
Collecting data end.. 0.39 Minutes
=== Total num of tweets is 211 ===


## 변수 저장하기


In [45]:
import requests

In [46]:
# 원하는 변수 골라서 저장하기

from random import uniform
from tqdm import tqdm_notebook

# initialize
tweet_list = []

def get_bs_obj(url):
    result = requests.get(url)
    bs_obj = BeautifulSoup(result.content, "html.parser")
    
    return bs_obj

for index in tqdm_notebook(tweet):
    
    # 메타데이터 목록 
    username = index.username
    link = index.permalink 
    content = index.text
    tweet_date = index.date.strftime("%Y-%m-%d")
    tweet_time = index.date.strftime("%H:%M:%S")
    retweets = index.retweets
    favorites = index.favorites
    
    # === 유저 정보 수집 시작 ===
    try:
        personal_link = 'https://twitter.com/' + username
        bs_obj = get_bs_obj(personal_link)
        uls = bs_obj.find("ul", {"class": "ProfileNav-list"}).find_all("li")
        div = bs_obj.find("div", {"class": "ProfileHeaderCard-joinDate"}).find_all("span")[1]["title"]


        # 가입일, 전체 트윗 수, 팔로잉 수, 팔로워 수
        joined_date = div.split('-')[1].strip()
        num_tweets = uls[0].find("span", {"class": "ProfileNav-value"}).text.strip()
        num_following = uls[1].find("span", {"class": "ProfileNav-value"}).text.strip()
        num_follower = uls[2].find("span", {"class": "ProfileNav-value"}).text.strip()
    
    except AttributeError:
        print("=== Attribute error occurs at {} ===".format(link))
        print("link : {}".format(personal_link))   
        pass
     
    # 결과 합치기
    info_list = [tweet_date, tweet_time, username, content, link, retweets, favorites, 
                 joined_date, num_tweets, num_following, num_follower]
    tweet_list.append(info_list)
    
    # 휴식 
    time.sleep(uniform(1,2))

HBox(children=(IntProgress(value=0, max=211), HTML(value='')))




## 파일 저장 후 확인

In [48]:
# 파일 저장하기

import pandas as pd

twitter_df = pd.DataFrame(tweet_list, 
                          columns = ["date", "time", "user_name", "text", "link", "retweet_counts", "favorite_counts",
                                    "user_created", "user_tweets", "user_followings", "user_followers"])

# csv 파일 만들기
twitter_df.to_csv("sample_twitter_data_{}_to_{}.csv".format(days_range[0], days_range[-1]), index=False)
print("=== {} tweets are successfully saved ===".format(len(tweet_list)))

=== 211 tweets are successfully saved ===


In [49]:
# 파일 확인하기

df_tweet = pd.read_csv('sample_twitter_data_{}_to_{}.csv'.format(days_range[0], days_range[-1]))
df_tweet.head(10) # 위에서 10개만 출력

Unnamed: 0,date,time,user_name,text,link,retweet_counts,favorite_counts,user_created,user_tweets,user_followings,user_followers
0,2020-04-20,23:53:40,BreakNewsCom,"영암군, 군복무 청년을 위한 상해보험 가입 추진 / 브레이크뉴스 https://ww...",https://twitter.com/BreakNewsCom/status/125238...,0,0,2010년 4월 14일,477228,6177,5676
1,2020-04-20,09:00:48,Ccm8230,"영암군, 군복무 청년을 위한 상해보험 가입 추진",https://twitter.com/Ccm8230/status/12521602746...,0,0,2012년 4월 9일,20460,1870,1006
2,2020-04-20,05:30:11,kingcert,"영암군, 군복무 청년을 위한 ‘상해보험 가입’ 추진",https://twitter.com/kingcert/status/1252107271...,0,0,2012년 4월 1일,12666,76,54
3,2020-04-19,16:14:34,ipopou,상해보험에서 태아의 피보험적격 인정(2016다211224) http://ipopou...,https://twitter.com/ipopou/status/125190704924...,0,0,2009년 6월 20일,3236,269,199
4,2020-04-18,09:01:57,an2ki_ne,덕분에 노말보스깼다 정령들 로드에게 상해보험 신청하면 승인해줘야됨,https://twitter.com/an2ki_ne/status/1251435789...,0,0,2017년 5월 17일,325,9,3
5,2020-04-18,01:08:10,Jaeho_bot,[어쨌든 상해보험에 들어놔서 잘 됐지 뭐야],https://twitter.com/Jaeho_bot/status/125131655...,0,0,2013년 8월 2일,43185,60,87
6,2020-04-17,16:59:20,1982_0516JJH,상해보험이요.,https://twitter.com/1982_0516JJH/status/125119...,0,0,2020년 4월 17일,1019,30,32
7,2020-04-17,14:52:45,P1NKD0CT0R,"그리고 이거, 상해보험 처리 할 거야. 너희 상관한테 진정서도 넣어 주마. 뒷생각 ...",https://twitter.com/P1NKD0CT0R/status/12511616...,0,0,2016년 4월 23일,48,2,3
8,2020-04-17,11:26:00,summer95825,저 생명보험 상해보험 종신보험 다 잇어요ㄷㄷㄷㄷㄷ저도 데....데려가주세욥ㄷㄷㄷㄷㄷ...,https://twitter.com/summer95825/status/1251109...,0,0,2019년 2월 6일,13539,87,246
9,2020-04-17,09:20:32,khsjjil_nana00,어차피 상해 보험이라 재청구가 가능 할 수도 있어요. 보험감독원이나 소보원에 문의 ...,https://twitter.com/khsjjil_nana00/status/1251...,0,0,2011년 11월 24일,58652,1359,1148


In [52]:
df_tweet.to_csv('C:\\Users\\User\\Desktop\\7.Data Analytics\\df_tweet.csv',encoding='utf-8-sig')