# Web scraping using twitter API 
어떤 주제와 브랜드에 대해 조사할 때, 사람들이 많이 사용하는 SNS의 언급이나 함께 쓰이는 단어를 통해 해당 브랜드가 어떤 이미지를 가지고 있는지 알 수 있다. 트위터 API를 활용해 특정 검색어에 대한 일반적인 인식을 조사해보자.

- 트위터 선택 이유
    1. 반응 속도의 신속성 : 트위터는 인스타그램, 페이스북 등 한국에서 쓰이는 SNS 중 가장 반응속도가 빠르다. 즉, 유저들의 실시간 반응을 포장이나 여과 없이 그대로 데이터로 담을 수 있다. 
    2. 텍스트 작성 의도의 정확성 : 트윗당 글자수가 140자(한중일 한정)로 제한되므로 유저들이 자연스럽게 필요한 단어들만 사용하는 자체 필터링을 시도할 수 있다. 

    3. 태그 활용 용이 : 유저의 의도를 대신하는 태그 붙임 및 공유가 활성화되어있다. 태그를 통해 텍스트 분석에 이점을 가질 수 있다. 
    
<br>

- 코드 작성 목적
    1. 특정 검색어 혹은 브랜드에 대한 유저들의 인식 탐색
    2. 1을 기반으로 wordcloud를 통한 시각화 시도
    3. 텍스트 데이터의 감성 분석 시도

<br>

이하의 코드는 [파이썬과 트위터 API를 활용한 트위터 크롤링](http://hleecaster.com/python-twitter-api/)을 참고하여 작성하였다.

## 1. 라이브러리 설치

In [1]:
!pip install python-twitter

Collecting python-twitter
  Downloading https://files.pythonhosted.org/packages/b3/a9/2eb36853d8ca49a70482e2332aa5082e09b3180391671101b1612e3aeaf1/python_twitter-3.5-py2.py3-none-any.whl (67kB)
Installing collected packages: python-twitter
Successfully installed python-twitter-3.5


## 2. 라이브러리 불러오기

In [2]:
# 먼저 트위터 계정을 등록하고 받아놓은 네 개의 key 필요
twitter_consumer_key = ""
twitter_consumer_secret = ""
twitter_access_token = ""
twitter_access_secret = ""

# 라이브러리 불러오기
import twitter

twitter_api = twitter.Api(consumer_key=twitter_consumer_key,
                         consumer_secret=twitter_consumer_secret,
                         access_token_key=twitter_access_token,
                         access_token_secret=twitter_access_secret)

## 3. 특정 계정의 타임라인 긁어오기

In [6]:
account = "@littlelady_bot" # 소녀봇 
statuses = twitter_api.GetUserTimeline(screen_name=account, 
                                       count=1000, # 가져올 수 있는 최대 개수 
                                       include_rts=True, # 리트윗 포함 여부
                                      exclude_replies=False) # 답글 포함 여부
print(statuses)

[Status(ID=1335422065977958400, ScreenName=littlelady_bot, Created=Sun Dec 06 03:13:26 +0000 2020, Text='그저 자정이 다가오는 시간쯤에서 나는 우울을 헤매었고\n당신에게 나는 막다른 길이었음에 울곤 했다.\n\n마른 세수 같은 작별이었다.\n/서덕준, 하고많은 것들 중에 당신을 사랑하였다'), Status(ID=1335406958589878273, ScreenName=littlelady_bot, Created=Sun Dec 06 02:13:24 +0000 2020, Text='타죽어도 좋습니다. 나를 부디 빛으로 이끄십시오.\n/서덕준, 불나방의 자살'), Status(ID=1335391864032137217, ScreenName=littlelady_bot, Created=Sun Dec 06 01:13:25 +0000 2020, Text='막상 네가 나더러 선한 사람이라고 했을 때\n나는 다른 게 되고 싶었어\n이를테면 너를 자랑으로 생각하는 사람\n나로 인해서 너는 누군가의 자랑이 되고\n어느 날 네가 또 슬피 울 때, 네가 기억하기를\n네가 나의 자랑이란 걸\n기억력이 좋은 네가 기억하기를'), Status(ID=1335376765015846912, ScreenName=littlelady_bot, Created=Sun Dec 06 00:13:25 +0000 2020, Text='나는 너한테만 서툴지, 다른 건 다 네가 상상할 수 없을 정도로 교활하고 능숙해. 그건 네가 안 봤으면 좋겠어.\n/오혜원, 밀회'), Status(ID=1335361666104455169, ScreenName=littlelady_bot, Created=Sat Dec 05 23:13:25 +0000 2020, Text='우리는 태어나지 말았어야 했다. 사랑할수록 죄가 되는 날들. 시들 시간도 없이 재가 되는 꽃들. 말하지 않는 말 속에만 꽃이 피어 있었다. 천천히 죽어갈 시간이 필요하다. 천천히 울 수

### 텍스트만 추출하기

In [7]:
for status in statuses:
    print(status.text) # 텍스트가 깨질 경우 : print(status.text.encode('utf-8'))
    print()

그저 자정이 다가오는 시간쯤에서 나는 우울을 헤매었고
당신에게 나는 막다른 길이었음에 울곤 했다.

마른 세수 같은 작별이었다.
/서덕준, 하고많은 것들 중에 당신을 사랑하였다

타죽어도 좋습니다. 나를 부디 빛으로 이끄십시오.
/서덕준, 불나방의 자살

막상 네가 나더러 선한 사람이라고 했을 때
나는 다른 게 되고 싶었어
이를테면 너를 자랑으로 생각하는 사람
나로 인해서 너는 누군가의 자랑이 되고
어느 날 네가 또 슬피 울 때, 네가 기억하기를
네가 나의 자랑이란 걸
기억력이 좋은 네가 기억하기를

나는 너한테만 서툴지, 다른 건 다 네가 상상할 수 없을 정도로 교활하고 능숙해. 그건 네가 안 봤으면 좋겠어.
/오혜원, 밀회

우리는 태어나지 말았어야 했다. 사랑할수록 죄가 되는 날들. 시들 시간도 없이 재가 되는 꽃들. 말하지 않는 말 속에만 꽃이 피어 있었다. 천천히 죽어갈 시간이 필요하다. 천천히 울 수 있는 사각이 필요하다. 
/이제니, 마지막은 왼손으로

당신입니까
날 경건하게 만들고
날 착하게 만들고
미치게 만들고
/박병희, 당신입니까

네가 오늘은 레즈비언이라고 고백하고 내일은 그것을 부인해도 상관없다. 나는 너에 대해서 가장 잘 말할 수 있는 사람이 너 자신임을 인정한다.
/김현경 - 사람, 장소, 환대

내가 겁을 먹어도, 고민이 있어도, 신경이 날카로워도 날 사랑해줘요. 내가 잘하지 못해도 있는 모습 그대로 나를 사랑해줘요.
/알랭 드 보통

그 시절이 지나가기 전에 너를, 단 한번이라도 으스러지게 마주 껴안았어야 했는데.
그것이 결코 나를 해치지 않았을 텐데.
나는 끝내 무너지지도, 죽지도 않았을텐데. 
/한강, 희랍어 시간

먼저 사과하는 것이 항상 나의 잘못을 시인하는 것은 아니다. 잘못을 따지는 것보다 우리의 관계가 더욱 소중하다는 뜻이기도 하다.

"한쪽만 골라. 그인지 네 음악인지."
"골랐어. 그가 내 음악이야."
/Est Em, Age Called Blue

“좀 기본적인 것부터 시작하자. 이상하지 않니? 나는 네가 내 생명을

In [8]:
output_file_name = "twitter_get_timeline_result.txt"

with open(output_file_name, "w", encoding="utf-8") as output_file:
    for status in statuses:
        print(status, file=output_file)

## 4. 검색하기

### 검색어 지정

In [9]:
query = "롯데리아"
statues = twitter_api.GetSearch(term=query, count=200)

for status in statues:
    print(status.text)
    print()

롯데리아 박우진 당첨 브로마이드도 있어요!

롯데리아에서 버거+손소독제 세트판다ㄷㄷ

와이씨 근데 롯데리아 언니들 다들 이쁘다...

맥딜리버리 시킬까 롯데리아 갈까 고민중임

RT @dead_assistant: 깨달았다
취업하려고 대학가는건
양념감자 먹으려고 롯데리아 가는거랑 같구나
메인메뉴는 햄버거지만
그닥 엄청나게 맛있지도 않고,
아무도 그거에 대해 신경안씀
버거학회 사람들만 신경쓰지..

음ㅁ 다이어트 중인데 롯데리아옴 걍 망한듯 ㅋㅋㅎㅋㅎㅋ

하..보일러않틀고자서나지금콧물이주룩주룩나 코읍나는 아니겟지???ㅠ 나 코세글자걸리먼 롯데리아문닫아야대 이디야도 문닫앗던데

이제 오전시험 끝나서 롯데리아로 밥먹으러 왔어요(˃̣̣̣̣︿˂̣̣̣̣ )
아이고 힘들어.... https://t.co/p8Lbgp6TW1

수제버거먹고싶은데
롯데리아에 비슷한거없겟지
내가어무많은걸 바라는거갯지

나 롯데리아 왔오

@kookooyujiny 롯데리아 알바생 소환하고 시픈데 참으께여👀.ㆍ

RT @foodnjoy: 롯데리아가 식물성패티 신메뉴 출시. 미라클버거 말고 연초 일부 지점에서 시험판매했던 버거로 네슬레의 스위트어스 콩단백 패티를 사용. 16일부터 판매 예정 (세트 5200원 기프티콘 선판매 https://t.co/nB0EvxX…

RT @N0RD_LYS: 이거 학교 롯데리아 안에 있던 안내문인데 존나 나폴리탄 괴담같음...
롯데리아 버거가 맛있다고 말하는 손님을 목격할 시, 최대한 빨리 그 자리를 벗어나 직원에게 알려주십시오. https://t.co/KkRdPB3kJI

RT @Tvxq_info_2: shinhangroup_official ig 이벤트
#유노윤호 #정윤호 #U_Know #ユンホ
⠀
📌참여방법
① 신한금융그룹 인스타그램 팔로우
② 댓글로 초성퀴즈의 정답 입력

📌선물
- 유노윤호 명언티셔츠 5종 세트…

RT @N0RD_LYS: 이거 학교 롯데리아 안에 있던 안내문인데 존나 나폴리탄 괴담같음...
롯데리아 버거가 맛있다고 말하는 손님을 목격할 시, 최대한 

### 해시태그로 검색

In [18]:
query = "#롯데리아"
statuses = twitter_api.GetSearch(term=query, count=200)

for status in statuses:
    for tag in status.hashtags:
        print(tag.text)
        print()

롯데리아

퀵오더

롯데리아배달

롯데리아주문

sell

워너원

워너원굿즈양도

윤지성

하성운

김재환

옹성우

황민현

parkjihoon

sell

워너원

워너원굿즈양도

윤지성

하성운

롯데리아

퀵오더

롯데리아배달

롯데리아주문

스위트어스어썸버거

롯데리아

비건버거

스위트어스

콩고기

비건

강다니엘

굿즈

이니스프리

씽크네이처

봄바람

에너제틱

투비원

지마켓

랩

인스타일

플레시아

롯데리아

하이트

롯데마트

롯데리아

롯데백화점

롯데시네마

롯데제과

롯데아쿠아리움

롯데아울렛

롯데캐슬

강다니엘

굿즈

이니스프리

씽크네이처

봄바람

에너제틱

투비원

지마켓

랩

인스타일

플레시아

롯데리아

하이트

황민현

민현



In [24]:
# 빈도수 높은 순으로 정렬
from collections import Counter

query = "#롯데리아"
statuses = twitter_api.GetSearch(term=query, count=200)

result=[]

for status in statuses:
    for tag in status.hashtags:
        result.append(tag.text)
        
Counter(result).most_common(15)

[('롯데리아', 6),
 ('퀵오더', 2),
 ('롯데리아배달', 2),
 ('롯데리아주문', 2),
 ('sell', 2),
 ('워너원', 2),
 ('워너원굿즈양도', 2),
 ('윤지성', 2),
 ('하성운', 2),
 ('황민현', 2),
 ('강다니엘', 2),
 ('굿즈', 2),
 ('이니스프리', 2),
 ('씽크네이처', 2),
 ('봄바람', 2)]

## 5. 스트리밍으로 데이터 수집하기

In [25]:
import json

query = ["롯데리아"]
output_file_name = "stream_result.txt"

with open(output_file_name, "w", encoding='utf-8') as output_file:
    stream = twitter_api.GetStreamFilter(track=query)
    
    while True:
        for tweets in stream:
            tweet = json.dumps(tweets, ensure_ascii=False)
            print(tweet, file=output_file, flush=True)

KeyboardInterrupt: 