# Web scraping using twitter API 
어떤 주제와 브랜드에 대해 조사할 때, 사람들이 많이 사용하는 SNS의 언급이나 함께 쓰이는 단어를 통해 해당 브랜드가 어떤 이미지를 가지고 있는지 알 수 있다. 트위터 API를 활용해 특정 검색어에 대한 일반적인 인식을 조사해보자.

- 트위터 선택 이유
    1. 반응 속도의 신속성 : 트위터는 인스타그램, 페이스북 등 한국에서 쓰이는 SNS 중 가장 반응속도가 빠르다. 즉, 유저들의 실시간 반응을 포장이나 여과 없이 그대로 데이터로 담을 수 있다. 
    2. 텍스트 작성 의도의 정확성 : 트윗당 글자수가 140자(한중일 한정)로 제한되므로 유저들이 자연스럽게 필요한 단어들만 사용하는 자체 필터링을 시도할 수 있다. 

    3. 태그 활용 용이 : 유저의 의도를 대신하는 태그 붙임 및 공유가 활성화되어있다. 태그를 통해 텍스트 분석에 이점을 가질 수 있다. 
    
<br>

- 코드 작성 목적
    1. 특정 검색어 혹은 브랜드에 대한 유저들의 인식 탐색
    2. 1을 기반으로 wordcloud를 통한 시각화 시도
    3. 텍스트 데이터의 감성 분석 시도

<br>

이하의 코드는 [파이썬과 트위터 API를 활용한 트위터 크롤링](http://hleecaster.com/python-twitter-api/)을 참고하여 작성하였다.

## 1. 라이브러리 설치

In [1]:
# !pip install python-twitter

Collecting python-twitter
  Downloading https://files.pythonhosted.org/packages/b3/a9/2eb36853d8ca49a70482e2332aa5082e09b3180391671101b1612e3aeaf1/python_twitter-3.5-py2.py3-none-any.whl (67kB)
Installing collected packages: python-twitter
Successfully installed python-twitter-3.5


## 2. 라이브러리 불러오기

In [6]:
# 먼저 트위터 계정을 등록하고 받아놓은 네 개의 key 필요
twitter_consumer_key = ""
twitter_consumer_secret = ""
twitter_access_token = ""
twitter_access_secret = ""

# 라이브러리 불러오기
import twitter

twitter_api = twitter.Api(consumer_key=twitter_consumer_key,
                         consumer_secret=twitter_consumer_secret,
                         access_token_key=twitter_access_token,
                         access_token_secret=twitter_access_secret)

## 3. 특정 계정의 타임라인 긁어오기

In [7]:
account = "@littlelady_bot" # 소녀봇 
statuses = twitter_api.GetUserTimeline(screen_name=account, 
                                       count=1000, # 가져올 수 있는 최대 개수 
                                       include_rts=True, # 리트윗 포함 여부
                                      exclude_replies=False) # 답글 포함 여부
print(statuses)

[Status(ID=1336886715978432521, ScreenName=littlelady_bot, Created=Thu Dec 10 04:13:25 +0000 2020, Text='타는 가슴이야 내가 알아서 할 테니,\n길 가는 동안 내가 지치지 않게\n그대의 꽃 향기 잃지 않으면 고맙겠다\n/이수동, 동행'), Status(ID=1336871631201824768, ScreenName=littlelady_bot, Created=Thu Dec 10 03:13:29 +0000 2020, Text='당신이, 내게 주었던 한 송이 꽃이 그랬다 모두 버렸지만 버린 것이 그토록 환한 빛으로 기억될 수 있는 것인지 가시질 않아 눈을 감으면 눈 속 가득 만발하는 꽃과 쏟아지는 눈 그리고 당신\n/유희경, 조용한 凶'), Status(ID=1336856512992403456, ScreenName=littlelady_bot, Created=Thu Dec 10 02:13:24 +0000 2020, Text='내가 당신을 잃었다는 사실 자체와는 비교할 수 없을 정도로 훨씬 더, 당신을 잃은 방식 때문에 고통을 느낍니다.\n/파스칼 키냐르, 은밀한 생'), Status(ID=1336841415888760835, ScreenName=littlelady_bot, Created=Thu Dec 10 01:13:25 +0000 2020, Text='" 싫어하던 사람을 사랑하게 된 것을 깨닫고 나면 더욱 걷잡을 수 없소 "\n" 좋아하지 않던 사람을 내가 왜 사랑합니까? "\n" 사람을 사랑하게 되는데 이유가 있소? "\n/주성치, 선리기연'), Status(ID=1336826327777779713, ScreenName=littlelady_bot, Created=Thu Dec 10 00:13:28 +0000 2020, Text='사랑하는 사람이 죽거나 떠나도 너무 마음아파하지 말라고, 애도는 충분히 하되 그 슬픔에 잡아먹혀 버리지 말라고 했다. 안 그러면 자꾸만 다시 세상에 태어나게 

### 텍스트만 추출하기

In [8]:
for status in statuses:
    print(status.text) # 텍스트가 깨질 경우 : print(status.text.encode('utf-8'))
    print()

타는 가슴이야 내가 알아서 할 테니,
길 가는 동안 내가 지치지 않게
그대의 꽃 향기 잃지 않으면 고맙겠다
/이수동, 동행

당신이, 내게 주었던 한 송이 꽃이 그랬다 모두 버렸지만 버린 것이 그토록 환한 빛으로 기억될 수 있는 것인지 가시질 않아 눈을 감으면 눈 속 가득 만발하는 꽃과 쏟아지는 눈 그리고 당신
/유희경, 조용한 凶

내가 당신을 잃었다는 사실 자체와는 비교할 수 없을 정도로 훨씬 더, 당신을 잃은 방식 때문에 고통을 느낍니다.
/파스칼 키냐르, 은밀한 생

" 싫어하던 사람을 사랑하게 된 것을 깨닫고 나면 더욱 걷잡을 수 없소 "
" 좋아하지 않던 사람을 내가 왜 사랑합니까? "
" 사람을 사랑하게 되는데 이유가 있소? "
/주성치, 선리기연

사랑하는 사람이 죽거나 떠나도 너무 마음아파하지 말라고, 애도는 충분히 하되 그 슬픔에 잡아먹혀 버리지 말라고 했다. 안 그러면 자꾸만 다시 세상에 태어나게 될 거라고 했다. 나는 마지막 그 말이 무서웠다. /최은영, 쇼코의 미소

이제 당신에게 내가 흰 것을 줄게.
더럽혀지더라도 흰 것을,
오직 흰 것들을 건넬게.
더이상 스스로에게 묻지 않을게.
이 삶을 당신에게 건네어도 괜찮을지
/한 강, 흰

알아요 교묘하므로 나는 아름다워요
/여성민, 찢은 복도

나는 늘 몰락한 자들에게 매료되곤 했다. 생의 어느 고비에서 한순간 모든 것을 잃어버리는 사람은 참혹하게 아름다웠다.
/ 신형철, 몰락의 에티카

너의 머리칼에서 
피냄새가 나거든 
재스민 향기가 난다고 말해줄게 
/김소연, 오키나와 튀니지 프랑시스 잠

사람들은 소중한 것일수록 기록을 통해 남기려고 하죠. 그러나 어떤 기록도 순간의 모방일 수밖에 없다면 도대체 사랑은 어떤 방식으로 남겨져야 합니까?
/이희주, 환상통

종말은 정말이지 순식간에 온다. 내가 당신을 사랑한다고 믿는 순간에, 그 사랑이 끝이었어. 
/이장욱, 정주역

한. 잎. 한. 잎. 꽃. 잎. 을. 찢. 어. 날. 리. 며. 사. 뿐. 히. 계. 단. 을. 내. 려. 오. 는. 그.

In [9]:
output_file_name = "twitter_get_timeline_result.txt"

with open(output_file_name, "w", encoding="utf-8") as output_file:
    for status in statuses:
        print(status, file=output_file)

## 4. 검색하기

### 검색어 지정

In [10]:
query = "케이에프씨"
statues = twitter_api.GetSearch(term=query, count=200)

for status in statues:
    print(status.text)
    print()

케이에프씨가 망하는 곳
그것이 김해입니다
(얼마전까지 케프씨 있던곳 장신역 앞 상가에 도너츠 전문점이 생기는거 같다 https://t.co/8JPnywkyvU

RT @realjonghyun90: 잭스페로우 이누야샤 케이에프씨할배 https://t.co/gSms4TbhlO

윤케이에프씨가 오늘 불러도 일단 무리... 이따가 뭐 변덕이 와서 하는 건 있겠지만 지금은 무리

@BBuWWin_ 앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ저두봤져봤졐ㅋㅋㅋㅋㅋ 정말~ 케이에프씨광고를 이렇게까지하나~~~ 하면서봤다그옄ㅋㅋㅋㅋㅋ 4환가... 7환가... 포드나와서 쿠키도 만듭디닼ㅋㅋㅋㅋㅋ 나름? 갠찮앗스옄ㅋㅋ

RT @NOEUL__17: 우리 디코방 호칭 정리

윤 : 윤땡초, 윤케이에프씨, 윤시에프, 사람 아니네
김감자 : 구황작물, 쓸모 있어 질게요
노울 : 해질녘노을
오쩜 : 영쩜오쩜
이안 : 미친 사람, 그저 그래

우리 디코방 호칭 정리

윤 : 윤땡초, 윤케이에프씨, 윤시에프, 사람 아니네
김감자 : 구황작물, 쓸모 있어 질게요
노울 : 해질녘노을
오쩜 : 영쩜오쩜
이안 : 미친 사람, 그저 그래

ㅋㅋㅋㅋ데이님 케이에프씨에섴ㅋㅋㅋㅋㅋㅋ나 먹는거 기다린적도 있자나요 계속먹는데 안줄어드는 기분인 햄버거구경

케이에프씨 개맛잇네

아이돌 영상 보면서 케이에프씨 먹는 즐거움을 알아벌임 https://t.co/aXHHBo2JIJ

RT @realjonghyun90: 잭스페로우 이누야샤 케이에프씨할배 https://t.co/gSms4TbhlO

#고양이는정말귀여워 저녁에 치킨 먹고 싶은데 닭 파는 집을 갈지 케이에프씨 갈지 고민 중이야 https://t.co/Q4nAMKlVla

케이에프씨 비스킷 개맛잇어

트아아아앗 닭껍질튀김시켜 케이에프씨 시켜서 밥먹어~~~그리고 잔다 5시에 일어나서 일본어한다 끝낸다

@Peonyxxiao 저는 케이에프씨요 희희 ^.^!

@JHR_GG 아뭐야 맥도날드하고 케이에프씨도 한섭은 버림받고...

@DamDamyo8 나한텐 윤케이에프씨 윤땡초 사람이 덜됐네, 

### 해시태그로 검색

In [13]:
query = "#롯데리아"
statuses = twitter_api.GetSearch(term=query, count=200)

for status in statuses:
    for tag in status.hashtags:
        print(tag.text)
        print()

롯데리아

새우버거

햄버거

이벤트

롯데리아

새우버거

치즈추가

존맛

롯데리아

퀵오더

롯데리아배달

롯데리아주문

롯데리아

더블X2

섹트

건오

오프

일탈

배민yo

돈이좋아

돈이최고

롯데리아

탐앤탐스

콘돔

뽕

섹스

롯데리아

퀵오더

롯데리아배달

롯데리아주문

롯데리아

퀵오더

롯데리아배달

롯데리아주문

sell

워너원

워너원굿즈양도

윤지성

하성운

김재환

옹성우

황민현

parkjihoon

sell

워너원

워너원굿즈양도

윤지성

하성운

롯데리아

퀵오더

롯데리아배달

롯데리아주문

스위트어스어썸버거

롯데리아

비건버거

스위트어스

콩고기

비건

강다니엘

굿즈

이니스프리

씽크네이처

봄바람

에너제틱

투비원

지마켓

랩

인스타일

플레시아

롯데리아

하이트

롯데마트

롯데리아

롯데백화점

롯데시네마

롯데제과

롯데아쿠아리움

롯데아울렛

롯데캐슬

강다니엘

굿즈

이니스프리

씽크네이처

봄바람

에너제틱

투비원

지마켓

랩

인스타일

플레시아

롯데리아

하이트



In [14]:
# 빈도수 높은 순으로 정렬
from collections import Counter

query = "#롯데리아"
statuses = twitter_api.GetSearch(term=query, count=200)

result=[]

for status in statuses:
    for tag in status.hashtags:
        result.append(tag.text)
        
Counter(result).most_common(15)

[('롯데리아', 12),
 ('퀵오더', 4),
 ('롯데리아배달', 4),
 ('롯데리아주문', 4),
 ('새우버거', 2),
 ('sell', 2),
 ('워너원', 2),
 ('워너원굿즈양도', 2),
 ('윤지성', 2),
 ('하성운', 2),
 ('강다니엘', 2),
 ('굿즈', 2),
 ('이니스프리', 2),
 ('씽크네이처', 2),
 ('봄바람', 2)]

## 5. 스트리밍으로 데이터 수집하기

In [31]:
import json

query = ["버거킹"]
output_file_name = "stream_result.txt"

with open(output_file_name, "w", encoding='utf-8') as output_file:
    stream = twitter_api.GetStreamFilter(track=query)
    
    while True:
        for tweets in stream:
            tweet = json.dumps(tweets, ensure_ascii=False)
            print(tweet, file=output_file, flush=True)

ChunkedEncodingError: ("Connection broken: ConnectionAbortedError(10053, '현재 연결은 사용자의 호스트 시스템의 소프트웨어의 의해 중단되었습니다', None, 10053, None)", ConnectionAbortedError(10053, '현재 연결은 사용자의 호스트 시스템의 소프트웨어의 의해 중단되었습니다', None, 10053, None))