
# 트위터 데이터 탐색

이번 예제에서는 애플사와 관련된 트위터 데이터를 탐색해보겠다.


<p style="text-align:center;"><img src=https://upload.wikimedia.org/wikipedia/en/thumb/9/9f/Twitter_bird_logo_2012.svg/600px-Twitter_bird_logo_2012.svg.png alt="Twitter logo. Taken from wikimedia." style="width: 20%"></p>

[트위터](https://en.wikipedia.org/wiki/Twitter)는 140글자 이내 크기의 글(이를 트윗이라고 함)을 공유하는 소셜 네트워크 서비스이다. [2016년 11월 현재](https://about.twitter.com/company), 트위터는 매월 3.1억 명의 사용자가 이용하고 있으며 매일 5억 건의 트위터를 만들어내고 있다 (이는 매초 6천개의 트윗이 발생하는 속도이다). 트위터는 세계에서 가장 많이 사용되는 [소셜 네트워크 서비스](https://en.wikipedia.org/wiki/List_of_social_networking_websites) 이다. 

트윗에는 사람들에 관한 매우 가치 있는 정보가 들어있는데, 사람들이 무엇을 이야기 하고, 어떤 생각을 하고, 어떤 일들을 하고 있는지를 파악할 수 있다. 사람들은 트위터를 분석하여 [주식시장을 예측](http://www.sciencedirect.com/science/article/pii/S187775031100007X)하기도 하고, [감기가 발생하는 것](http://www.hughchristensen.co.uk/papers/socialNetworking/p713-achrekar.pdf)을 예측하기도 한다. [지진을 예측](http://dl.acm.org/citation.cfm?id=1772777)하기도 하고 [정치 선거를 예측](http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1441/1852Predicting)하거나 [트윗의 분포를 예측](http://dl.acm.org/citation.cfm?id=1871535)하기도 한다.

이외에도 트윗은 여러가지 사회현상을 분석하는데 널리 사용된다. [구글 스칼라](https://en.wikipedia.org/wiki/Google_Scholar)에서 트윗을 찾아보면 약 6백만개의 결과를 얻을 수 있다.

이 예제에서는 트위서 사이트에 접속하여 [Apple](http://www.apple.com/) 회사와 관련된 트윗 데이터를 가져오는 것을 수행하겠다. 애플은 현재 세계에서 [가장 가치가 높은](https://en.wikipedia.org/wiki/List_of_public_corporations_by_market_capitalization#2016) 회사이다.

###### 트위터 APIs
[API](https://www.youtube.com/watch?v=s7wmiS2mSXY)란 프로그램에서 다른 프로그램을 사용하기 위해 널리 사용되는 방법이다. 예를 들어 어떤 사람이 서울의 날씨를 알고 싶다면 날씨 정보를 알려주는 http://www.weather.com 와 같은 사이트를 방문하여 해당 지역의 날씨 정보를 일일이 확인할 수 있을 것이다. 만일 사람대신 프로그램이 날씨 정보를 찾고 싶으면 weather.com 사이트가 제공하는 API를 이용하여 미리 정해진 문법에 따라 정보를 요구하고 그 결과를 프로그램이 자동으로 받아보게 할 수 있다. 즉, weather.com 사이트에서는 미리 프로그램을 통해서 데이터를 읽도록 준비가 되어 있어야 하며 이를 "API를 제공한다"고 부른다.

[어떤](http://lmgtfy.com/?q=free+twitter+apis) [연구](http://lmgtfy.com/?q=paid+twitter+apis)를 보면 트위터가 두가지 [무료](https://dev.twitter.com/rest/public) [서비스](https://dev.twitter.com/streaming/public)를 위한 API를 제공하고 [다섯가지](https://gnip.com/historical/) [유료](https://gnip.com/realtime/) API를 제공한다고 한다. 트위터 사이트를 통해서는 다양한 종류의 트위터 관련 정보와 통계를 받아볼 수 있는데, 이 예에서는 단순히 트위터 데이터를 다운로드 받는 것에만 관심을 갖겠다. 유료 API 서비스를 이용하면 과거의 트위터 정보를 얻거나, 실시간으로 관련 데이터를 얻는 것이 가능하다. 그러나 [비용이 많이 발생](https://gnip.com/pricing/) 한다. 이용료가 월 수백만원 이상으로 발생할 수가 있다. 본 예제에서는 트위터 데이터를 무료로 이용하는 것만을 다루겠다.

###### 질의

트위터 API를 사용하는 방법은 대부분 질의(quary) 방식으로 동작한다. 각 질의는 다음의 세가지 정보를 포함 할 수 있다: keyterms, operators, arguments 

상세한 질의를 하려면 [트위터 검색](https://twitter.com/search-advanced?lang=en)사이트를 이용하면 된다. 검색 결과의 URL 주소를 복사한 후 https://Twitter.com/search 를  “https://api.Twitter.com/1.1/search/tweets.json”로 바꾸면 API 질의문을 얻을 수 있다 (?q 이후 부분은 그대로 둔다).


operators로 사용할 수 있는 것은 논리적인 AND나 OR이다. 즉, 트윗을 찾을 때 어떤 두개의 키워드를 동시에 포함하는 것을 찾으려면 AND를 사용하고, 두 키워드중 하나라도 포함된 트윗을 찾으려면 OR를 사용하면 된다. AND나 OR는 조합하여 여러 조건을 중첩하여 사용할 수 있는데,"(this AND that) OR (here AND there)"과 같은 형식을 사용할 수 있고 최대 10개 까지 키워드의 조합을 만들어 사용할 수 있다. 모든 문자열은 [utf-8](https://en.wikipedia.org/wiki/UTF-8) 타입을 따라야 한다. 만일 [URL-encoded](http://www.degraeve.com/reference/urlencoding.php)의 좌측열에 해당하는 문자를 사용하려면 반드시 우측열에 있는 문자열로 바꾸어 사용해야 한다 (예를 들어 "!"는 "%21"로 변환). 이렇게 질의를 하면 HTTP 응답 문서는 해당되는 트윗들을 리턴한다.

여기서 중요한 것은, 무료로 이용하는 질의 API를 이용할 때에는 원하는 질의 결과를 모두 얻는다는 보장이 없다는 것이다. 현재 트위터 사이트를 동시에 사용하는 사람들의 숫자 등에 따라 원하는 결과물의 20%, 50%, 75%, 100% 등 일부의 결과물만 받아볼 수 있다. 유료 서비스라면 받을 수 있을 질의 결과에 비해서, 실제로 얼마나 적은 데이터를 받게 되는 지는 정확히 알 수 없다. 

###### 스트리밍  API

무료로 제공되는 API를 이용하는 첫번째 형태는 스트리밍 API이다. 이는 트윗 결과를 거의 실시간으로 받아 보는 것을 말한다. 


스트리밍 API에는 다음과 같이 세가지가 있다.
- 공용(Public) API: 최대 60글자까지의 질의에 대해 해당하는 결과 트윗을 얻는다
- 사용자(User) API: 개인 사용자가 볼 수 있는 트윗을 모두 얻는다. 단 그 개인의 트윗에 대한 읽기 권한이 있어야 한다.
- 사이트(Site) API: 여러 사용자의 트윗을 모두 볼 수 있다. (단 권한을 가지고 있는 경우에)

그러나 이러한 스트리밍 API는 데이터를 수집하는데 그다지 유용하지는 않다. 공용 API를 사용할 때, 60글자의 제한으로 인해서 상세한 트윗을 검색하는데 한계가 있고, 과거의 상세한 트윗을 얻기가 어렵다. 사용자나 사이트 API를 사용하면 사용자가 볼 수 있는 트윗만 얻을 수 있다. 또한 팔로우어 등 제한적인 사용자의 트윗을 봐야 하는 제한이 있다.

데이터 분석을 하기 위해서 데이터를 수집한다는 관점에서 보면, 질의의 범위가 넓은 것이 필요하며, 과거의 데이터나, 임의 관심있는 주제에 관한 데이터에 접근하는 것이 필요하다.


###### 검색 API

두번째 타입의 무료 API로 검색(Search) API가 있는데 트위터 사이트에서 트윗을 얻는데 가장 널리 사용되는 API이다. 이 API를 사용하면 조건에 일치하는 트윗을 최대 150개(사용자별로) 또는 450개 (응용별로) 얻을 수 있다 (키워드와 오퍼레이터는 10개 이내로), 질의어는 [utf-8](https://en.wikipedia.org/wiki/UTF-8) [URL 엔코딩](http://www.degraeve.com/reference/urlencoding.php) 으로 500 글자 이내이며 매 15분 이내로 제한된다. 

아래의 사이트에서 검색 파라미터에 대한 정보를 얻을 수 있다 [advanced search UI](https://twitter.com/search-advanced?lang=en), [search API 개요](https://dev.twitter.com/rest/public/search), [GET 문서](https://dev.twitter.com/rest/reference/get/search/tweets)):

- 검색 가능한 대상:
  - all of these words
  - this exact phrase
  - any of these words
  - none of these words
  - these hashtags 
- 트윗의 제한 사항:
  - date range
  - geographic location (inside a geopoint: lat, long, radius)
  - language - https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes
- 볼 수 있는 트윗 내용:
  - from these accounts
  - to these accounts
  - mentioning these accounts
  - with positive sentiment
  - with negative sentiment
  - with questions
  - with images and videos
  - with an uploaded video, Amplify video, Periscope, or Vine
  - with a Periscope video URL
  - with a Vine
  - with links to photos
  - with a pic.twitter.com link representing one or more photos
  - with URLs
  - that are recent, popular, or both
- 제거되는 대상:
  - tweets marked as politically sensitive
- 포함되는 내용:
  - retweets

또한 주의할 사항으로, 사용자별로 "15분 마다 보낼 수 있는 질의 수가 150개"라는 제한은 충분하지 않을 수가 있다. 다수의 트윗을 얻으려면, 15분마다 450개의 질의를 보내도록 프로그램을 작성하고, 다수의 계정을 만들어서 동시에 질의를 보내는 것이 가능할 것이다. 

###### 검색 API 사용

트위터가 제공하는 다음 [문서](https://dev.twitter.com/rest/public/search)를 보면 검색 API 사용법에 대해서 자세히 설명하고 있다. 한편 여러가지 프로그래밍 언어를 위해서 다양한 API 라이브러리들도 제공되는데 트위터의 검색 API를 위해서 제공되는 라이브러리들은 [이 곳](https://dev.twitter.com/resources/twitter-libraries)에 잘 정리되어 있다. 

이 튜토리얼에서는 프로그래밍 언어로 파이선을 사용하므로 파이선과 관련된 9개의 라이브러리들을 살펴보면, 최근까지 계속 업데이트 되는 주요 라이브러리들로 다음의 세가지 라이브러리를 추천한다. [tweepy](https://github.com/tweepy/tweepy), [python-twitter](https://github.com/bear/python-twitter), [twython](https://github.com/ryanmcgrath/twython). 

이 예제에서는 위의 라이브러리 중에 twython를 사용하겠다. 이 예에서는 Apple에 대한 트윗을 찾고 있는데, 애플사와 관련된 다음과 같은 키워드를 포함한 트윗을 찾으면 된다""Apple", "Apple Inc.", "#AAPL", "$AAPL".

또는 애플사완 관련된 유명한 사람이 거론된 트윗을 찾을 수도 있으며, 예를 들어, "Steve Jobs", "Tim Cook", "Johnny Ive"가 포함된 트윗을 찾으면 될 것이다. 또한 애플사의 제품명과 관련된 트윗으로서 "iPhone", "iPad", "iOS", "Mac", "Macbook Pro", "Macbook Air", "Apple Watch" 등이 포함된 트윗을 찾아야 할 것이다. 

이러한 사항들이 반영된 질의문은 다음과 같은 형태를 갖게 될 것이다.

`"Apple" OR "Apple Inc." OR "#AAPL" OR "$AAPL" OR "Steve Jobs" OR "Tim Cook" OR "Johnny Ive" OR "iPhone" OR "iPad" OR "iOS" OR "Mac" OR "Macbook Pro" OR "Macbook Air" OR "Apple Watch"`

또한, 트윗의 전파되는 패턴을 찾으려면, 재전송된 트위 즉, 리트윗(retweet)을 파악해야 한다. 만일 영어로 된 트윗을 분석한다면 언어를 영어로 제한해야 한다. 리트윗을 기본적으로 포함시키려면 keyterm에 다음을 추가해야 한다 "-filter:retweets". 이렇게 설정하면 명시적으로 기수하지 않아도 리트윗이 디폴트로 포함될 것이다. 이와 같은 리트윗에 대한 설정 방법은 응답(replies)을 포함시킬 것인지를 설정하는데에도 사용된다.


이상의 내용을 포함하며, 10개의 keyterm/operator/argument 제한을 적용하면, 다음과 같이 3개의 질의로 나누어서 처리해야 한다.

- `"Apple" OR "Apple Inc." OR "#AAPL" OR "$AAPL" OR "Steve Jobs"` (with the argument language=En)
- `"Tim Cook" OR "Johnny Ive" OR "iPhone" OR "iPad" OR "iOS"` (with the argument language=En)
- `"Mac" OR "Macbook Pro" OR "Macbook Air" OR "Apple Watch"` (with the argument language=En)

한편, "Apple"이나 "Mac"과 같은 단어는 애플사와 관련된 것이 아닌, 다른 용도로도 자주 사용된다. 예를 들어 "사과(Apple)을 먹었다" 등. 이와 같이 이플사와 관련이 없는 트윗을 제거하려면 해당 키워드를 제거해야 한다.

또한 애플사는 자체적으로 운영되는 [트위터 계정](https://twitter.com/apple)을 가지고 있다. 여기에서는 임의의 트윗이 발생할 것이며 외부사람의 생각(트윗)이 아니라 애플사가 이야기 하는 트윗 내용이 실리게 될 것이다. 


먼저, 트위터 데이터 수집 프로그램에서 작성한 load_tweets() 함수를 사용하여 데이터를 로드한다.

In [6]:
from data.load_tweets import load_tweets
data = load_tweets(overwrite=False)

이제 어떤 컬럼들이 있는지를 살펴보겠다.

In [7]:
print(data.columns)

Index(['Unnamed: 0', 'contributors', 'coordinates', 'created_at', 'entities',
       'extended_entities', 'favorite_count', 'favorited', 'geo', 'id',
       'id_str', 'in_reply_to_screen_name', 'in_reply_to_status_id',
       'in_reply_to_status_id_str', 'in_reply_to_user_id',
       'in_reply_to_user_id_str', 'is_quote_status', 'lang', 'metadata',
       'place', 'possibly_sensitive', 'quoted_status', 'quoted_status_id',
       'quoted_status_id_str', 'retweet_count', 'retweeted',
       'retweeted_status', 'source', 'text', 'truncated', 'user'],
      dtype='object')


위를 보면 많은 컬럼들이 있는 것을 알 수 있다. 이러한 정보들이 모두 필요한 것은 아니다. 앞에서 소개한 트위트 데이터 수집예에서 언급한 것과 같이 여기서는 영어로된 트윗만 볼 것이므로 "lang" 이  "en"으로 된 데이터만 살펴볼 것이다. 이제 각 컬럼의 고유한 키 값들을 살펴보겠다. 

In [8]:
from collections import Counter

for column in data.columns:
    print(column, Counter(data[column]).keys())

Unnamed: 0 dict_keys([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217

"Unnamed: 0" 부분은 인덱스처럼 보인다. 데이터프레임 객체에 이 정보가 이미 포함되어 있으므로 이 정보는 여기서 무시할 수 있다. "contributors" 과 "coordinates" 부분은 여기서 모두 "nan"으로 보이며 이들도 무시할 수 있다. "created_at", "entities", 그리고 "extended_entities" 부분은 유용해 보인다. "favorite_count", "favorited", 그리고 "geo" 부분은 유용한 정보는 아니다. "id"는 참고번호로서 유용하며 "id_str" 는 중복된 정보라고 하겠다. "in_reply_to_screen_name" 과 "in_reply_to_status_id" 는 유용할 것이다( "in_reply_to_status_id_str"는 중복된 정보이다). "in_reply_to_user_id" 는 유용하나 "in_reply_to_user_id_str"는 중복이다. "is_quote_status" 는 유용한 정보이다. "lang"은 모두 "en"여야 하며 무시할 수 있다. "metadata"는 상요될 수도 있으나 여기서는 무시하겠다. "place", "possibly_sensitive", "quoted_status", "quoted_status_id" 들은 모두 유용하겠다; "quoted_status_id_str"는 중복된다; "retweet_count", "retweeted",  "retweeted_status", "source", "text" 그리고 "user" 영역은 유용한 정보를 포함하고 있다.

요약하면 다음의 정보들은 무시할 수 있는 내용이다: "Unnamed: 0", "contributors", "coordinates", "favorite_count", "favorited", "geo", "id_str", "in_reply_to_status_id_str", "in_reply_to_user_id_str", "lang", "metadata", "quoted_status_id_str", "truncated".

그리고 다음의 정보들은 유용한 내용을 포함하고 있다: "created_at", "entities", "extended_entities", "id", "in_reply_to_screen_name", "in_reply_to_status_id", "in_reply_to_user_id", "is_quote_status", "place", "possibly_sensitive", "quoted_status", "quoted_status_id" "retweet_count", "retweeted",  "retweeted_status", "source", "text", and "user". 

특이 이 정보중에 "text", "created_at", "entities", "place" 항목이 가장 의미있는 내용을 포함하고 있을 것이다.
이제 시간과 장소에 대한 정보를 살펴보겠다.

In [None]:
from datetime import datetime

counter = Counter(data['created_at'])

# 스트링 대신 datetime 객체를 사용하겠다
# http://strftime.org/ 에 날짜의 포맷에 대한 자세한 설명이 있다

for key in counter.keys():
    if type(key) != type(datetime.strptime("30 Nov 00", "%d %b %y")):
        new_key = datetime.strptime(key, '%a %b %d %H:%M:%S +0000 %Y')
        counter[new_key] = counter.pop(key)

datetimes = counter.keys()

years = set([datetime.year for datetime in datetimes])
months = set([datetime.month for datetime in datetimes])
days = set([datetime.day for datetime in datetimes])
hours = set([datetime.hour for datetime in datetimes])
minutes = set([datetime.minute for datetime in datetimes])
seconds = set([datetime.second for datetime in datetimes])

print(years)
print(months)
print(days)
print(hours)
print(minutes)
print(seconds)

실행결과는 year, month, day, hour 값으로 2016, 11, 22, 14을 각각 얻었다 (실행결과는 상황에 따라 다르게 나타날 것이다.)

이제 위치 정보를 살펴보겠다.

In [7]:
import math

counter = Counter(data['place'])
print(counter)

Counter({nan: 287, "{'name': 'Delaware', 'contained_within': [], 'url': 'https://api.twitter.com/1.1/geo/id/3f5897b87d2bf56c.json', 'full_name': 'Delaware, USA', 'place_type': 'admin', 'id': '3f5897b87d2bf56c', 'country': 'United States', 'country_code': 'US', 'attributes': {}, 'bounding_box': {'type': 'Polygon', 'coordinates': [[[-75.7887564, 38.4510398], [-74.984165, 38.4510398], [-74.984165, 39.839007], [-75.7887564, 39.839007]]]}}": 1, "{'name': 'Helsinki', 'contained_within': [], 'url': 'https://api.twitter.com/1.1/geo/id/5ef832bb704339b0.json', 'full_name': 'Helsinki, Finland', 'place_type': 'city', 'id': '5ef832bb704339b0', 'country': 'Finland', 'country_code': 'FI', 'attributes': {}, 'bounding_box': {'type': 'Polygon', 'coordinates': [[[24.78281, 60.021032], [25.2544364, 60.021032], [25.2544364, 60.2979104], [24.78281, 60.2979104]]]}}": 1, "{'name': 'Narok', 'contained_within': [], 'url': 'https://api.twitter.com/1.1/geo/id/019093e25f02e999.json', 'full_name': 'Narok, Kenya', '

실행한 결과로는 287 개의 nan 장소와 4개의 non-nan 장소를 얻었다 (Manhattan, NY; Delware, USA; Narok, Kenya; and Helsinki, Finland). 

이제 데이터의 가장 중요한 부분인 text 영역을 살펴보겠다. 가장 공통적으로 나타나는 단어나 구문을 찾아보겠다. 이게 각 문자를 3개의 단어군으로 나누어보겠다.

예를 들어 "The quick brown fox jumped over the laxy dog" 문장이 있다면 이를 "The quick brown", "quick brown fox", "brown fox jumped"과 같이 나누어보는 것이다. 자연어 처리에서는 이와 같이 세단어 군으로 나누는 것을 trigrams 이라고 하거나 일반적인 용어로는 ngrams (n=3)이라고도 표현한다. 이와 같이 문장을 분석하는 것이 일반적이며 대부분의 라이브러리에서 이를 처리하는 기능을 제공한다. 이를 [ngrams](http://www.nltk.org/_modules/nltk/util.html) 방식이라고 하며 [nltk](http://www.nltk.org/)에서 이에 대해 소개하고 있다.


이를 처리 하기 위해서 NLTK의 "Punkt Tokenizer Models"을 설치해야 한다. Python3 환경을 `python3` 명령으로 열고, `import nltk` 명령으로 nltk를 import 한다. `nltk.download()` 명령으로 NLTK를 다운로드 하는 창을 열 수 있다. `Models` 페이지에서 `punkt - Punkt Tokenizer Models`을 선택하면 해당 패키지를 다운로드 할 수 있다.

In [25]:
from nltk.util import ngrams
from nltk import word_tokenize

# word tokenize 를 사용하여 텍스트를 단어 단위로 나눈다
# 3개 단어로 구성된 ngrams 즉, trigrams을 찾는다

trigrams = [ngrams(word_tokenize(text), 3) for text in data['text'].values]
trigrams = [item for sublist in trigrams for item in sublist] # flatten list
counter = Counter(trigrams)
for key, value in counter.most_common(10):
    print(key, value)

(':', 'https', ':') 47
('more', ':', 'https') 36
('Read', 'more', ':') 36
('.', 'Read', 'more') 34
('&', 'amp', ';') 24
('new', 'MacBook', 'Pro') 21
('|', 'https', ':') 17
('the', 'new', 'MacBook') 14
('$', 'AAPL', '$') 13
('.', 'https', ':') 13


실험 결과 가장 많이 나온 trigrams은 (':', 'https', ':')로 구성된 것과 ('Read', 'more', ':')로 구성된 것이었다. 이외에 자주 발생한 패턴은 ('new', 'MacBook', 'Pro'), ('the', 'new', 'MacBook'), ('\$', 'AAPL', '\$') 등이 있었다. 이제 n 의 값을 4나 5로 바꾸면 어떤 패턴이 나오는지를 살펴보겠다.

In [30]:
def xgrams(n):
    grams = [ngrams(word_tokenize(text), n) for text in data['text'].values]
    grams = [item for sublist in grams for item in sublist] # flatten list
    counter = Counter(grams)
    for key, value in counter.most_common(10):
        print(key, value)

xgrams(4)
print("\n\n\n")
xgrams(5)

('Read', 'more', ':', 'https') 36
('more', ':', 'https', ':') 36
('.', 'Read', 'more', ':') 34
('the', 'new', 'MacBook', 'Pro') 13
('Dongles', 'You’ll', 'Need', 'to') 9
('Need', 'to', 'Connect', 'Your') 9
('USB-C', 'Dongles', 'You’ll', 'Need') 9
('Connect', 'Your', 'Accessories', 'to') 9
('I', "'m", 'in', 'your') 9
('your', 'Notification', 'squad', ',') 9




('Read', 'more', ':', 'https', ':') 36
('.', 'Read', 'more', ':', 'https') 34
('your', 'Notification', 'squad', ',', 'please') 9
('&', 'amp', ';', 'MACBOOK', 'PRO') 9
('the', 'USB-C', 'Dongles', 'You’ll', 'Need') 9
('I', "'m", 'in', 'your', 'Notification') 9
('in', 'your', 'Notification', 'squad', ',') 9
('All', 'the', 'USB-C', 'Dongles', 'You’ll') 9
('Connect', 'Your', 'Accessories', 'to', 'the') 9
('to', 'the', 'new', 'MacBook', 'Pro') 9


n 값을 4나 5로 바꾸면 위와 같이 다른 패턴이 나오는 것을 알 수 있다. 이 패턴을 보면 아직 ('Read', 'more', ':', 'https', ':') 과 같은 패턴을 볼 수 있다. 위에서는 아래의 문장이 9번 나온 것을 알 수 있다: "All the USB-C Dongles You'll Need to Connect Your Accessories to the new Macbook Pro" 이러한 패턴은 5 단어 이상이므로 계속 반복하여 ngram에 나타나며 이를 프로그램이 자동으로 제거하지는 못한다.

n 값을 이 이하로 하면 어떤 결과가 나오는지 살펴보겠다.

In [32]:
xgrams(2)
print("\n\n\n")
xgrams(1)

('https', ':') 260
('$', 'AAPL') 68
('RT', '@') 66
(':', 'https') 47
('MacBook', 'Pro') 46
('#', 'Apple') 40
('more', ':') 36
('Read', 'more') 36
('.', 'Read') 34
('Apple', 'Watch') 31




(':',) 429
('#',) 310
('https',) 260
('$',) 175
('.',) 142
('@',) 140
(',',) 116
('Apple',) 102
('to',) 95
('RT',) 74


위의 결과를 보면 n=2인 bigram에서는 다음과 같은 패턴이 많이 나오는 것을 알 수 있다. (':', 'https'), ('Read', 'more'). 그리고 n=1인 unigram에서는 ('$',), ('.',), ('to',), ('RT',)이 많이 발생한다. 사실 unigrams은 큰 의미는 없고 bigrams에서는 다음과 같은 패턴이 관심 있는 대상이 될 것이다: ('#', 'Apple'), ('MacBook', 'Pro'), and ('Apple', 'Watch').

위에서 살펴본 1~5 grams 실험 결과는, 많이 발생된 패턴이라고 해서 의미 있는 패턴은 아니라는 것이다. 이는 단지 단어들을 구분하는 의미일 뿐이다. 트위터에서 의미 있는 분석을 하기 위해서는 예를 들면 @RT와 같은 패턴에 주목해야 할 것이다.