## Analysis about keyword: "애플페이"

In [1]:
import json
from typing import Dict
import orjson

from utils import DATA_DIR

with (DATA_DIR / "애플페이.json").open() as f:
    statuses = json.loads(f.read())

In [26]:
tweet_created = [
    status["created_at"]
    for status in statuses
]

In [55]:
print(f"데이터에서 가장 오래된 트윗: \t{min(tweet_created)}")
print(f"데이터에서 가장 최근 트윗: \t{max(tweet_created)}")

데이터에서 가장 오래된 트윗: 	Mon Mar 13 07:22:51 +0000 2023
데이터에서 가장 최근 트윗: 	Wed Mar 15 05:40:38 +0000 2023


In [27]:
user_created = [
    status["user"]["created_at"]
    for status in statuses
]

In [54]:
print(f"트윗 작성자 중 가장 오래된 계정 생성 날짜: \t{min(tweet_created)}")
print(f"트윗 작성자 중 가장 최근 계정 생성 날짜: \t{max(tweet_created)}")

트윗 작성자 중 가장 오래된 계정 생성 날짜: 	Mon Mar 13 07:22:51 +0000 2023
트윗 작성자 중 가장 최근 계정 생성 날짜: 	Wed Mar 15 05:40:38 +0000 2023


In [28]:
how_many_tweets_by_the_user = [
    status["user"]["statuses_count"]
    for status in statuses
]

In [29]:
how_many_followers_by_the_user = [
    status["user"]["followers_count"]
    for status in statuses
]

In [43]:
import pandas as pd
df = pd.DataFrame([
    tweet_created,
    user_created,
    how_many_tweets_by_the_user,
    how_many_followers_by_the_user
]).transpose()

df.columns = ["tweet_created", "user_created", "tweets_from_user", "followers_from_user"]
df["tweet_created"] = pd.to_datetime(df["tweet_created"])
df["user_created"] = pd.to_datetime(df["user_created"])
df["tweets_from_user"] = pd.to_numeric(df["tweets_from_user"])
df["followers_from_user"] = pd.to_numeric(df["followers_from_user"])

In [44]:
df

Unnamed: 0,tweet_created,user_created,tweets_from_user,followers_from_user
0,2023-03-15 05:40:38+00:00,2012-09-25 13:10:12+00:00,5960,38
1,2023-03-15 05:35:09+00:00,2019-07-10 10:25:17+00:00,32305,542
2,2023-03-15 05:31:15+00:00,2013-10-09 10:23:14+00:00,18702,43
3,2023-03-15 05:29:50+00:00,2019-07-10 10:25:17+00:00,32305,542
4,2023-03-15 05:18:23+00:00,2012-07-19 05:00:30+00:00,47,0
...,...,...,...,...
1095,2023-03-13 07:25:34+00:00,2022-07-02 14:30:05+00:00,26165,202
1096,2023-03-13 07:25:32+00:00,2022-12-13 17:37:15+00:00,1581,1
1097,2023-03-13 07:24:05+00:00,2020-08-12 23:20:59+00:00,734,84
1098,2023-03-13 07:23:47+00:00,2020-07-10 17:10:58+00:00,40155,18


In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1100 entries, 0 to 1099
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype              
---  ------               --------------  -----              
 0   tweet_created        1100 non-null   datetime64[ns, UTC]
 1   user_created         1100 non-null   datetime64[ns, UTC]
 2   tweets_from_user     1100 non-null   int64              
 3   followers_from_user  1100 non-null   int64              
dtypes: datetime64[ns, UTC](2), int64(2)
memory usage: 34.5 KB


In [46]:
df.describe()

Unnamed: 0,tweets_from_user,followers_from_user
count,1100.0,1100.0
mean,58875.68,1312.472727
std,115487.1,16053.207937
min,1.0,0.0
25%,6564.0,37.0
50%,8305.0,78.0
75%,54814.5,316.0
max,1108806.0,362054.0


* 사용자가 작성한 트윗
    * 평균: 5만 8875개
    * 중앙값: 8만 3050개
    * 최대: 약 110만개
* 사용자의 팔로워 수
    * 평균: 1312 명
    * 중앙값: 78 명
    * 최대: 36만 명
    * 최소: 0 명

사용자의 팔로워 수에서 최대값이 매우 크고, 중앙값이 작은 거로 보아 평균의 오류가 발생하고 있는 데이터라고 볼수 있다.
그러면 36만명의 팔로워를 가진 사람은 누구일까.

In [58]:
list(filter(
    lambda row: row["user"]["followers_count"] > 360000,
    statuses
))[0]["user"]

{'id': 108872550,
 'id_str': '108872550',
 'name': 'YTN',
 'screen_name': 'YTN24',
 'location': 'Seoul, Korea',
 'description': '뉴스 덕후 YTN의 공식 트위터 계정',
 'url': 'https://t.co/nmpmv3VegU',
 'entities': {'url': {'urls': [{'url': 'https://t.co/nmpmv3VegU',
     'expanded_url': 'http://www.ytn.co.kr',
     'display_url': 'ytn.co.kr',
     'indices': [0, 23]}]},
  'description': {'urls': []}},
 'protected': False,
 'followers_count': 362054,
 'friends_count': 107587,
 'listed_count': 3410,
 'created_at': 'Wed Jan 27 07:58:07 +0000 2010',
 'favourites_count': 6567,
 'utc_offset': None,
 'time_zone': None,
 'geo_enabled': True,
 'verified': True,
 'statuses_count': 163762,
 'lang': None,
 'contributors_enabled': False,
 'is_translator': False,
 'is_translation_enabled': False,
 'profile_background_color': 'C0DEED',
 'profile_background_image_url': 'http://abs.twimg.com/images/themes/theme1/bg.png',
 'profile_background_image_url_https': 'https://abs.twimg.com/images/themes/theme1/bg.png',
 'pr

YTN 공식 계정 이었다.
팔로워 수가 많을 수 밖에 없었다.

가장 많이 나오는 hashtag는?

In [64]:
from functools import reduce

hashtags = [
    record['text']
    for record in
    list(reduce(
        lambda i, j: i+j,
        [status["entities"]["hashtags"] for status in statuses]
    ))
]


In [71]:
from collections import Counter

sorted(Counter(hashtags).items(), key=lambda i: i[1], reverse=True)

[('캐럿들은_언제나_세븐틴편', 14),
 ('애플페이', 9),
 ('애플', 8),
 ('민트_왓애플아이돈페어', 5),
 ('솜인덕장터', 5),
 ('무솜인덕장터', 5),
 ('애플스토어', 3),
 ('사전예약중', 2),
 ('현대카드', 2),
 ('삼성페이', 2),
 ('삼성전자', 2),
 ('워치페이스', 2),
 ('배경화면', 2),
 ('한국경영자신문', 1),
 ('경영', 1),
 ('경영자', 1),
 ('사업', 1),
 ('비즈니스', 1),
 ('스타트업', 1),
 ('창업', 1),
 ('중소기업', 1),
 ('네이버페이', 1),
 ('강력한간편결제', 1),
 ('디지털화폐', 1),
 ('많관부', 1),
 ('케이트렌디뉴스', 1),
 ('shorts', 1),
 ('애플페이출시일', 1),
 ('삼성', 1),
 ('뉴스1', 1),
 ('스마트폰', 1),
 ('간편결제', 1),
 ('BTS', 1),
 ('핫토픽', 1),
 ('국내', 1),
 ('결제', 1),
 ('페이', 1),
 ('카카오페이', 1)]

가장 많이 나온 해쉬태그는 '캐럿들은_언제나_세븐틴편' 이다.
아무래도 아이돌 세븐틴 관련한 어뷰징 결과가 많이 섞여 들어 간 것 같다.
그 다음은 예상대로 '애플페이', '애플' 순이었다.
그 뒤에 나온 해쉬태그들도 조금 이해가 안된다.
아마 애플 관련 제품을 판매하거나 관련 컨텐츠를 생산하는 곳의 명칭이 아닐까?

가장 연관이 많은 빈출 단어는?

In [73]:
from functools import reduce

contents = [
    status["text"]
    for status in statuses
]

In [84]:
contents

['아직 아이폰에 카드 등록 안되는데? 프로그램 패치 나올지? 애플페이 21일 국내 서비스 개시...편의점 등에서 가능 / YTN https://t.co/0UVrD7F2Dm',
 '@gale_stillalive 애플페이에 jcb가 등록 안되서 못하네요 포기~',
 "노태문 삼성전자 사장 '애플페이? 삼성페이 커버리지 경쟁력 높아' https://t.co/7nKdJcV3f8",
 '@gale_stillalive 발급하려면 애플페이 써야하는데 애플페이에 카드 등록이 안되서…\U0001f972',
 '버거\n관악40대남성\n드래곤볼피규어\n김민종\n주말보내기\n성화동네일\n큐철페이\n애플워치se https://t.co/1ufdS6h2CS',
 '@Kanon_983 애플페이 부럽습니다 ㅠ 여긴 머 몇달째 들어온다고만 하고…',
 '애플페이, 21일부터 국내 서비스 개시...  https://t.co/zYYMvGEDz3 https://t.co/xCyyCr0s8m',
 '님들 애플페이 일본 계정으로 쓰려면 지역 일본으로 계속 유지해야 하나요?',
 'RT @BSofDe4th: 스즈메 개봉의 여파 때문인지 갑자기 이 트윗을 발굴하는 분들이 꽤 보여서 한마디\n\n신카이감독님 스즈메에서는 또 애플 페이에 대한 환상을 심어 주십니다…\n\n영화 본 분들은 아시겠지만 아주 잠깐 ‘도쿄 지하철에서 애플 페이로…',
 '애플페이!!!!!! \n드디어 도입된다!!! 이제 나도 애플페이 쓸수 있어 ㅠㅠㅠㅠㅠㅜㅠ https://t.co/X035vex6aq',
 '애플페이얼른쓰고시퍼 ~~ 먼지쌓인 와치 다시꺼내서 충전해야디',
 '21일 서비스를 시작하는 애플페이, 과연 찻잔 속 태풍일까? | 한국경영자신문 https://t.co/8clPa6LZk4 \n\n#한국경영자신문 #경영 #경영자 #사업 #비즈니스 #스타트업 #창업 #중소기업… https://t.co/GMTsOIsL4R',
 '나도 애플페이좀 써보자 https://t.co/OAbnt9LlCg',
 "RT @Dangerplanet:

In [85]:
import spacy
nlp = spacy.load('ko_core_news_sm')

In [86]:
clean_contents = [
    nlp(content)
    for content in contents
]

In [87]:
clean_contents[0]

'아직 아이폰에 카드 등록 안되는데? 프로그램 패치 나올지? 애플페이 21일 국내 서비스 개시...편의점 등에서 가능 / YTN https://t.co/0UVrD7F2Dm'

In [94]:
from konlpy.tag import Okt
from konlpy.utils import pprint
JVM_PATH = '/opt/homebrew/opt/openjdk@17/bin/java'

okt = Okt(jvmpath=JVM_PATH)

In [99]:
contents_noun = list(reduce(
    lambda i, j: i + j,
    [
        okt.nouns(str(clean_content))
        for clean_content in clean_contents
    ]
))

In [101]:
sorted(Counter(contents_noun).items(), key=lambda i: i[1], reverse=True)

[('애플', 1202),
 ('페이', 1142),
 ('이', 299),
 ('스', 299),
 ('쿠팡', 272),
 ('파트너', 272),
 ('활동', 271),
 ('일환', 271),
 ('정액', 268),
 ('수수료', 261),
 ('할인', 260),
 ('제공', 259),
 ('글', 258),
 ('대박', 257),
 ('핫딜', 257),
 ('수', 254),
 ('개시', 227),
 ('카드', 220),
 ('삼성', 204),
 ('서비스', 199),
 ('한국', 181),
 ('정품', 164),
 ('결제', 154),
 ('더', 134),
 ('아이폰', 132),
 ('국내', 119),
 ('글로리', 106),
 ('제', 103),
 ('자급', 101),
 ('출시', 99),
 ('가맹', 95),
 ('단독', 95),
 ('갤럭시', 92),
 ('전자', 87),
 ('네이버', 85),
 ('등', 80),
 ('포인트', 77),
 ('오늘', 73),
 ('추후', 72),
 ('동시', 70),
 ('일주일', 68),
 ('점수', 67),
 ('확', 67),
 ('왼쪽', 67),
 ('월요일', 67),
 ('오른쪽', 67),
 ('슬램덩크', 66),
 ('편의점', 64),
 ('도입', 64),
 ('곧', 60),
 ('교통카드', 56),
 ('앱', 54),
 ('가능', 53),
 ('뉴스', 53),
 ('바', 50),
 ('출처', 50),
 ('시', 49),
 ('타', 49),
 ('직후', 48),
 ('경제', 48),
 ('하나', 47),
 ('별도', 45),
 ('세대', 45),
 ('적립', 44),
 ('충격', 41),
 ('실화', 41),
 ('현대', 38),
 ('프로', 37),
 ('사용', 36),
 ('정식', 36),
 ('아멕스', 35),
 ('블루투스', 35),
 ('안', 34),
 ('신세계', 34),
 

예상대로 트윗 내용의 명사중 가장 많이 언급된 내용은 '애플'과 '페이'이다.
그다음으로 이어지는 단어는 '쿠팡'과 '파트너'로 보아
    애플페이를 쓰기 위해서는 애플 제품이 필요한데 이부분을 이용해 쿠팡 파트너 수익을 얻기 위해 트위터에 홍보하는 사람들이 많은 것 같다

## 리트윗 통계

In [115]:
print(f"중복 포함한 전체 RT 개수: {len([status for status in statuses if 'retweeted_status' in status])}")
retweets_id = {
    status["retweeted_status"]["id"]
    for status in statuses if 'retweeted_status' in status
}
retweets = {
    status["retweeted_status"]["id"]: (status['retweet_count'], status['retweeted_status']['user']['screen_name'], status['text'])
    for status in statuses if 'retweeted_status' in status
}

retweets = dict(sorted(
    retweets.items(),
    key=lambda rt: rt[1][0],
    reverse=True
))


중복 포함한 전체 RT 개수: 702


In [114]:
print(len(retweets))
retweets

175


{1597463863074893824: (1541,
  'zzenmekeneng',
  'RT @zzenmekeneng: 근데 현대에서 애플페이 1년 독점한다고\n신규고객이 많이 늘을까??\n애초에 애플쓰는 인간들은\n온라인페이 안 써도 된다는 마인드의 씹가오충들이라\n1년 그까이거 존버하고\n쓰던 카드사에서 애플페이되면\n그제서야 카드등록할거같은…'),
 1635083713037094913: (729,
  'lucripeta',
  "RT @lucripeta: [단독] 'D-8일'…애플페이, 21일부터 한국 서비스 개시\n\nhttps://t.co/a9dMyRWfgn\n\n- 애플페이의 국내 서비스 개시일이 오는 21일로 정해졌다. \n\n- 애플은 애플페이 정식 출시를 앞두고 17일 전후…"),
 1634092988073902081: (582,
  'sun1it',
  'RT @sun1it: 애플페이 출시 직후는 현대카드만 되고\n교통카드랑 타 카드사는 추후 가능해지나바 https://t.co/QnEMcqNU3g'),
 1634560519523938306: (523,
  'YUNHO1812',
  'RT @YUNHO1812: 애플페이 가맹점수 일주일도 안되어서 확 늘었네요\n왼쪽 _ 월요일\n오른쪽 _ 오늘 https://t.co/yxpW1ksjob'),
 1632656686115860481: (431,
  't_ransborder',
  'RT @t_ransborder: 애플페이, 이달 하순부터 국내 사용 가능 https://t.co/o3E1nb18gV'),
 1507339286873473031: (416,
  'Upgrade_MyLife',
  'RT @Upgrade_MyLife: 카카오페이에서\n\n애플티비 플러스, 애플 아케이드, 애플뮤직, 아이클라우드 플러스 신규 가입자를 위한 무료체험 프로모션을 진행하고 있습니다.\n\n한 번 알아보세요. 특히 애플뮤직 기존에 가입했다가 해지하신분들! 3개월…'),
 1635094371988307968: (326

가장 많이 RT된 내용을 찾기 위해 RT의 id로 중복 제거를 시도했지만 광고 트윗이 같은 계정 다른 시간대로 올라간게 많아서 제거가 되지 않는다.

내용으로 필터링해보자

In [111]:
duplicate_content_removed_retweets = {
    retweet[1][2]: (retweet[1][0], retweet[1][1])
    for retweet in retweets.items()
}

In [113]:
print(len(duplicate_content_removed_retweets))
duplicate_content_removed_retweets

154


{'RT @zzenmekeneng: 근데 현대에서 애플페이 1년 독점한다고\n신규고객이 많이 늘을까??\n애초에 애플쓰는 인간들은\n온라인페이 안 써도 된다는 마인드의 씹가오충들이라\n1년 그까이거 존버하고\n쓰던 카드사에서 애플페이되면\n그제서야 카드등록할거같은…': (1541,
  'zzenmekeneng'),
 "RT @lucripeta: [단독] 'D-8일'…애플페이, 21일부터 한국 서비스 개시\n\nhttps://t.co/a9dMyRWfgn\n\n- 애플페이의 국내 서비스 개시일이 오는 21일로 정해졌다. \n\n- 애플은 애플페이 정식 출시를 앞두고 17일 전후…": (729,
  'lucripeta'),
 'RT @sun1it: 애플페이 출시 직후는 현대카드만 되고\n교통카드랑 타 카드사는 추후 가능해지나바 https://t.co/QnEMcqNU3g': (582,
  'sun1it'),
 'RT @YUNHO1812: 애플페이 가맹점수 일주일도 안되어서 확 늘었네요\n왼쪽 _ 월요일\n오른쪽 _ 오늘 https://t.co/yxpW1ksjob': (523,
  'YUNHO1812'),
 'RT @t_ransborder: 애플페이, 이달 하순부터 국내 사용 가능 https://t.co/o3E1nb18gV': (431,
  't_ransborder'),
 'RT @Upgrade_MyLife: 카카오페이에서\n\n애플티비 플러스, 애플 아케이드, 애플뮤직, 아이클라우드 플러스 신규 가입자를 위한 무료체험 프로모션을 진행하고 있습니다.\n\n한 번 알아보세요. 특히 애플뮤직 기존에 가입했다가 해지하신분들! 3개월…': (416,
  'Upgrade_MyLife'),
 'RT @warden_america: [단독] ˙D-8일˙…애플페이, 21일부터 한국 서비스 개시 (출처 : 한국경제 | 네이버 뉴스) https://t.co/u9YhZ6LFoq \n\n애플페이 21일부터 개시!!!!!!': (326,
  'warden_america'),
 'RT @ward

중복을 줄여냈다
하지만 광고를 트윗하는 사람들이 교묘하게 내용을 조금씩 바꿔서 이렇게 중복을 제거하는 방법 이상의 processing이 필요해보인다.
추가 방법으로 키워드 추출, 문장 구조 분석 등이 있겠지만
이 방법을 사용하게 되면 다양한 내용을 하나의 중복으로 간주 할 수 있어 위험하다.
중복 제거는 여기서 stop.

In [121]:
# top 10 RTs
rt_df = pd.DataFrame(
    list(map(
        lambda i: (i[1][1], i[0], i[1][0]),
        sorted(
            duplicate_content_removed_retweets.items(),
            key=lambda rt: rt[1][0],
            reverse=True
        )[:10]
    )),
    columns=["작성자", "트윗 내용", "RT 횟수"]
)

In [122]:
rt_df

Unnamed: 0,작성자,트윗 내용,RT 횟수
0,zzenmekeneng,RT @zzenmekeneng: 근데 현대에서 애플페이 1년 독점한다고\n신규고객이...,1541
1,lucripeta,"RT @lucripeta: [단독] 'D-8일'…애플페이, 21일부터 한국 서비스 ...",729
2,sun1it,RT @sun1it: 애플페이 출시 직후는 현대카드만 되고\n교통카드랑 타 카드사는...,582
3,YUNHO1812,RT @YUNHO1812: 애플페이 가맹점수 일주일도 안되어서 확 늘었네요\n왼쪽 ...,523
4,t_ransborder,"RT @t_ransborder: 애플페이, 이달 하순부터 국내 사용 가능 https...",431
5,Upgrade_MyLife,"RT @Upgrade_MyLife: 카카오페이에서\n\n애플티비 플러스, 애플 아케...",416
6,warden_america,"RT @warden_america: [단독] ˙D-8일˙…애플페이, 21일부터 한국...",326
7,warden_america,RT @warden_america: 배민에 떠버린 애플페이 결제란 \n배민 빠르다....,325
8,dino_1155,RT @dino_1155: 충격 실화 곧 애플페이 됩니다 https://t.co/j...,261
9,kuromisia,RT @kuromisia: 애플페이 스티커 붙었네 https://t.co/Ylpl4...,255
