In [1]:
# -*- coding: utf-8 -*-

%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv("tweet_temp.csv")
df.head()

Unnamed: 0,created,tweet_text
0,Sat Jun 12 07:28:52 +0000 2021,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...
1,Sat Jun 12 07:17:25 +0000 2021,코인세탁소 산업혁명셀프 사이트 인공지능 빨래방 손흥민 그래핀 지도 강남구 광고 세탁...
2,Sat Jun 12 07:12:41 +0000 2021,RT @sonny_record: 210611 팬문선답 타래 #손흥민 https://...
3,Sat Jun 12 07:08:51 +0000 2021,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...
4,Sat Jun 12 06:58:57 +0000 2021,함평축구선수 장짐최신영화 증거손흥민 갈천축구 남양읍야설 도이신던스타킹 장성패티쉬 영...


In [3]:
import re

# 텍스트 정제 함수 : 한글 이외의 문자는 전부 제거합니다.
def text_cleaning(text):
    hangul = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글의 정규표현식을 나타냅니다.
    result = hangul.sub('', text)
    return result

In [4]:
# ‘tweet_text’ 피처에 이를 적용합니다.
df['ko_text'] = df['tweet_text'].apply(lambda x: text_cleaning(x))
df.head()

Unnamed: 0,created,tweet_text,ko_text
0,Sat Jun 12 07:28:52 +0000 2021,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...
1,Sat Jun 12 07:17:25 +0000 2021,코인세탁소 산업혁명셀프 사이트 인공지능 빨래방 손흥민 그래핀 지도 강남구 광고 세탁...,코인세탁소 산업혁명셀프 사이트 인공지능 빨래방 손흥민 그래핀 지도 강남구 광고 세탁...
2,Sat Jun 12 07:12:41 +0000 2021,RT @sonny_record: 210611 팬문선답 타래 #손흥민 https://...,팬문선답 타래 손흥민
3,Sat Jun 12 07:08:51 +0000 2021,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...
4,Sat Jun 12 06:58:57 +0000 2021,함평축구선수 장짐최신영화 증거손흥민 갈천축구 남양읍야설 도이신던스타킹 장성패티쉬 영...,함평축구선수 장짐최신영화 증거손흥민 갈천축구 남양읍야설 도이신던스타킹 장성패티쉬 영...


[konlpy를 이용한 키워드 추출]

In [6]:
from konlpy.tag import Okt
from collections import Counter

# 한국어 약식 불용어사전 예시 파일입니다. 출처 - (https://www.ranks.nl/stopwords/korean)
korean_stopwords_path = "korean_stopwords.txt"
with open(korean_stopwords_path, encoding='utf8') as f:
    stopwords = f.readlines()
stopwords = [x.strip() for x in stopwords]

def get_nouns(x):
    nouns_tagger = Okt()
    nouns = nouns_tagger.nouns(x)
    
    # 한글자 키워드를 제거합니다.
    nouns = [noun for noun in nouns if len(noun) > 1]
    
    # 불용어를 제거합니다.
    nouns = [noun for noun in nouns if noun not in stopwords]
    
    return nouns

In [7]:
# ‘ko_text’ 피처에 이를 적용합니다.
df['nouns'] = df['ko_text'].apply(lambda x: get_nouns(x))
print(df.shape)
df.head()

(1000, 4)


Unnamed: 0,created,tweet_text,ko_text,nouns
0,Sat Jun 12 07:28:52 +0000 2021,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...,"[가슴, 경주, 대구, 마사, 마산, 부산, 소통, 야동, 인천, 최신영, 손흥민,..."
1,Sat Jun 12 07:17:25 +0000 2021,코인세탁소 산업혁명셀프 사이트 인공지능 빨래방 손흥민 그래핀 지도 강남구 광고 세탁...,코인세탁소 산업혁명셀프 사이트 인공지능 빨래방 손흥민 그래핀 지도 강남구 광고 세탁...,"[코인, 세탁소, 산업혁명, 셀프, 사이트, 인공, 지능, 빨래, 손흥민, 그래핀,..."
2,Sat Jun 12 07:12:41 +0000 2021,RT @sonny_record: 210611 팬문선답 타래 #손흥민 https://...,팬문선답 타래 손흥민,"[문선, 타래, 손흥민]"
3,Sat Jun 12 07:08:51 +0000 2021,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...,가슴 경주 대구 마사 마산 부산 소통 야동 인천 일탈 최신영화 손흥민 만남앱 소개팅...,"[가슴, 경주, 대구, 마사, 마산, 부산, 소통, 야동, 인천, 최신영, 손흥민,..."
4,Sat Jun 12 06:58:57 +0000 2021,함평축구선수 장짐최신영화 증거손흥민 갈천축구 남양읍야설 도이신던스타킹 장성패티쉬 영...,함평축구선수 장짐최신영화 증거손흥민 갈천축구 남양읍야설 도이신던스타킹 장성패티쉬 영...,"[함평, 축구선수, 장짐, 최신영, 증거, 손흥민, 축구, 남양, 야설, 스타킹, ..."


<Step3. 분석> : 연관 분석을 이용한 키워드 분석

[연관 키워드 추출하기]
* 아래 코드 실행을 위해, anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치해 줍니다.
   - (env_name) pip install apriori apyori
* 혹은 아래의 코드로 라이브러리를 설치합니다.

연관 분석 연습

In [11]:
from apyori import apriori

# 장바구니 형태의 데이터(트랜잭션 데이터)를 생성합니다.
transactions = [
    ['손흥민', '시소코'],
    ['손흥민', '케인'],
    ['손흥민', '케인', '포체티노']
]

# 연관 분석을 수행합니다.
results = list(apriori(transactions))
results
# for result in results:
#     print(result)

[RelationRecord(items=frozenset({'손흥민'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'손흥민'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'시소코'}), support=0.3333333333333333, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'시소코'}), confidence=0.3333333333333333, lift=1.0)]),
 RelationRecord(items=frozenset({'케인'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'케인'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'포체티노'}), support=0.3333333333333333, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'포체티노'}), confidence=0.3333333333333333, lift=1.0)]),
 RelationRecord(items=frozenset({'시소코', '손흥민'}), support=0.3333333333333333, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'시소코', '손흥민'}), confidence=0.3333333333333333, lift

In [14]:
# 지지도 0.5, 신뢰도 0.6, 향상도 1.0 이상이면서 (손흥민, 케인) 처럼 규칙의 크기가 2 이하인 규칙을 추출합니다.
results2 = list(apriori(transactions,
             min_support=0.5,
             min_confidence=0.6,
             min_lift=1.0,
             max_length=2))
results2

[RelationRecord(items=frozenset({'손흥민'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'손흥민'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'케인'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'케인'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'케인', '손흥민'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'케인', '손흥민'}), confidence=0.6666666666666666, lift=1.0), OrderedStatistic(items_base=frozenset({'손흥민'}), items_add=frozenset({'케인'}), confidence=0.6666666666666666, lift=1.0), OrderedStatistic(items_base=frozenset({'케인'}), items_add=frozenset({'손흥민'}), confidence=1.0, lift=1.0)])]

In [39]:
# 데이터 프레임 형태로 정리합니다.
columns = ['source', 'target', 'support']
network_df = pd.DataFrame(columns=columns)

# 규칙의 조건절을 source, 결과절을 target, 지지도를 support 라는 데이터 프레임의 피처로 변환합니다.
for result in results2:
    if len(result.items) == 2:
        items = [x for x in result.items]
        row = [items[0], items[1], result.support]
        series = pd.Series(row, index=network_df.columns)
        network_df = network_df.append(series, ignore_index=True)

network_df.head()

Unnamed: 0,source,target,support
0,케인,손흥민,0.666667


In [32]:
# 손흥민 target 인것만 출력
test = network_df[network_df['target']=='손흥민']
# support 역순정렬
test.sort_values(by='support',ascending=False)

Unnamed: 0,source,target,support
1,케인,손흥민,0.666667
0,시소코,손흥민,0.333333
2,포체티노,손흥민,0.333333


데이터 관련 연관분석

In [40]:
# 트랜잭션 데이터를 추출합니다.
transactions = df['nouns'].tolist()
transactions = [transaction for transaction in transactions if transaction] # 공백 문자열을 방지합니다.
print(transactions)

[['가슴', '경주', '대구', '마사', '마산', '부산', '소통', '야동', '인천', '최신영', '손흥민', '만남', '소개팅', '패티', '만남', '어플', '스타킹', '축구', '축구선수', '울산', '아줌마', '마사지', '스타킹', '동영상', '애무'], ['코인', '세탁소', '산업혁명', '셀프', '사이트', '인공', '지능', '빨래', '손흥민', '그래핀', '지도', '강남구', '광고', '세탁소', '브레이커', '사람인', '심장', '강대국', '블로그', '사물인터넷', '당뇨', '지식인', '스트레스', '빅데이터'], ['문선', '타래', '손흥민'], ['가슴', '경주', '대구', '마사', '마산', '부산', '소통', '야동', '인천', '최신영', '손흥민', '만남', '소개팅', '패티', '만남', '어플', '스타킹', '축구', '축구선수', '울산', '아줌마', '마사지', '스타킹', '동영상', '애무'], ['함평', '축구선수', '장짐', '최신영', '증거', '손흥민', '축구', '남양', '야설', '스타킹', '장성', '패티', '영광', '마사지', '진도', '야사', '아줌마', '연남동', '야동', '포항', '발정', '아줌마', '서울', '부산', '대구인', '완도', '동영상', '남양', '소통', '신안', '케이', '서울', '야노'], ['가슴', '경주', '대구', '마사', '마산', '부산', '소통', '야동', '인천', '최신영', '손흥민', '만남', '소개팅', '패티', '만남', '어플', '스타킹', '축구', '축구선수', '울산', '아줌마', '마사지', '스타킹', '동영상', '애무'], ['카테고리', '프리', '메라', '브라질', '축구', '콜롬비아', '리그', '다드', '축구선수', '브라', '플라멩구', '콜롬비아', '축구', '스포츠토토', '라이브', '스코어', '

In [42]:
# 연관 분석을 수행합니다.
results = list(apriori(transactions,
                       min_support=0.05,
                       min_confidence=0.1,
                       min_lift=5,
                       max_length=2))
print(results)

[RelationRecord(items=frozenset({'국가', '국가대표팀'}), support=0.06740442655935613, ordered_statistics=[OrderedStatistic(items_base=frozenset({'국가'}), items_add=frozenset({'국가대표팀'}), confidence=1.0, lift=14.617647058823529), OrderedStatistic(items_base=frozenset({'국가대표팀'}), items_add=frozenset({'국가'}), confidence=0.9852941176470588, lift=14.617647058823529)]), RelationRecord(items=frozenset({'국가', '김신욱'}), support=0.06740442655935613, ordered_statistics=[OrderedStatistic(items_base=frozenset({'국가'}), items_add=frozenset({'김신욱'}), confidence=1.0, lift=7.705426356589148), OrderedStatistic(items_base=frozenset({'김신욱'}), items_add=frozenset({'국가'}), confidence=0.5193798449612403, lift=7.705426356589148)]), RelationRecord(items=frozenset({'국가', '대한민국'}), support=0.06740442655935613, ordered_statistics=[OrderedStatistic(items_base=frozenset({'국가'}), items_add=frozenset({'대한민국'}), confidence=1.0, lift=13.432432432432432), OrderedStatistic(items_base=frozenset({'대한민국'}), items_add=frozenset({'국가'})

In [44]:
# 데이터 프레임 형태로 정리합니다.
columns = ['source', 'target', 'support']
network_df = pd.DataFrame(columns=columns)

# 규칙의 조건절을 source, 결과절을 target, 지지도를 support 라는 데이터 프레임의 피처로 변환합니다.
for result in results:
    if len(result.items) == 2:
        items = [x for x in result.items]
        row = [items[0], items[1], result.support]
        series = pd.Series(row, index=network_df.columns)
        network_df = network_df.append(series, ignore_index=True)

network_df.head(20)

Unnamed: 0,source,target,support
0,국가,국가대표팀,0.067404
1,국가,김신욱,0.067404
2,국가,대한민국,0.067404
3,국가,동시,0.067404
4,국가,문선,0.067404
5,국가,생중계,0.067404
6,국가,유튜브,0.067404
7,국가,한국,0.067404
8,김신욱,국가대표팀,0.06841
9,대한민국,국가대표팀,0.067404


In [50]:
test = network_df[network_df['source']=='국가']


In [51]:
# support 역순정렬
test.sort_values(by='support',ascending=False)

Unnamed: 0,source,target,support
0,국가,국가대표팀,0.067404
1,국가,김신욱,0.067404
2,국가,대한민국,0.067404
3,국가,동시,0.067404
4,국가,문선,0.067404
5,국가,생중계,0.067404
6,국가,유튜브,0.067404
7,국가,한국,0.067404
