# HW2_소셜 네트워크 분석

## 주요 개념 정리

- 중심성 지표 : 전체네트워크에서 중요한 역할을 하는 노드가 무엇인가, 소셜 네트워크 분석 지표 중에서 일반적으로 가장 많이 사용되는 지표로 한 행위자가 전체 네트워크에서 중심에 위치하는 정도로 표현하는 지표
- 연결정도 : 해당 정도에 직접 연결되어 있는 노드들의 개수, 또는 링크의 개수
- 연결정도 중심성 : 네트워크 상에서 한 노드가 얼마나 많은 연결 관계를 가지고 있는 지를 측정하는 지표
- 근접 중심성 : 네트워크 상의 노드들 간의 근접도를 기준으로 정의, 해당 노드가 전체 네트워크 상에서 얼마나 중앙에 위치하고 있는지를 측정
- 매개 중심성 : 네트워크 상에서 특정 노드가 다른 노드들의 중간에서 얼마나 중개자 및 매개자 역할을 하고 있는 지를 측정하는 지표
- 아이겐벡터 중심성 : 해당 노드에 직접 연결된 다른 노드들의 개수 뿐만 아니라 연결된 다른 노드들의 중요도 또한 함께 반영한 것

- 포괄성 : 네트워크가 얼마나 노드들이 서로 연결되어 있는가, 고립되어있는게 얼마나 있는가
- 링크나 밀도로는 얼마나 포괄되 있는지 알수 없음,포괄성을 통해 모든 노드 중 고립된게 있는지 없는지 확인
- 밀도가 같더라도 포괄성이 다를 수 있음




## 소셜 네트워크 분석 실습 과정

- 소셜 네트워크 분석 실습
  트위터 API를 이용하여 '방탄소년단'키워드를 분석하는 실습을 수행하고자 했다.
  데이터 분석까지는 잘 수행했으나, 네트워크 시각화를 하는 과정에서 오류가 발생했다.
  오류내용을 계속 구글링하며 잘못된 부분을 고치고자 노력했으나, 해결하지 못했다.
  그래서 R을 활용하여 워드클라우드로 시각화를 해보았다.

In [1]:
#패키지 설치 확인
import tweepy
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

- 트위터 API 토큰 인증

In [2]:
#발급 완료된 키를 입력
CONSUMER_KEY = "blind"
CONSUMER_SECRET = "blind"
ACCESS_TOKEN_KEY = "blind"
ACCESS_TOKEN_SECRET = "blind"

#개인정보 인증을 요청하는 Handler
auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)

#인증요청 수행
auth.set_access_token(ACCESS_TOKEN_KEY, ACCESS_TOKEN_SECRET)

#트위터 API를 사용하기 위한 준비
api = tweepy.API(auth)

- BTS 키워드 검색

In [3]:
#트위터 API를 사용하여 '방탄소년단'이 포함된 트윗들을 크롤링한 뒤, entities에서 'user_mentions','hasgtags'를 추출

keyword = "방탄소년단"
tweets = api.search(keyword)
for tweet in tweets:
    print(tweet.text)
    print(tweet.entities['user_mentions'])
    print(tweet.entities['hashtags'])
    print(tweet.created_at)

RT @setiogi: “It’s hard to gather around these days. It’s sad!
But it’d be good to say hello to families &amp; relatives on the phone or throug…
[{'screen_name': 'setiogi', 'name': 'Sari Setiogi Griberg', 'id': 9426092, 'id_str': '9426092', 'indices': [3, 11]}]
[]
2021-09-19 11:44:37
RT @betienn_twt: rút sạc ra đi, nổ máy đó-

#방탄소년단 #bts #btsarmy #rm #jin #suga #jhope #jimin #v #jungkook 
@bts_twt
[{'screen_name': 'betienn_twt', 'name': 'tienn ⁷🌼', 'id': 1284582510693806080, 'id_str': '1284582510693806080', 'indices': [3, 15]}, {'screen_name': 'BTS_twt', 'name': '방탄소년단', 'id': 335141638, 'id_str': '335141638', 'indices': [108, 116]}]
[{'text': '방탄소년단', 'indices': [44, 50]}, {'text': 'bts', 'indices': [51, 55]}, {'text': 'btsarmy', 'indices': [56, 64]}, {'text': 'rm', 'indices': [65, 68]}, {'text': 'jin', 'indices': [69, 73]}, {'text': 'suga', 'indices': [74, 79]}, {'text': 'jhope', 'indices': [80, 86]}, {'text': 'jimin', 'indices': [87, 93]}, {'text': 'v', 'indices': [94, 96]}, {'text

- 데이터 프레임 형태로 수집

In [4]:
#크롤링된 데이터를 저장한 데이터 프레임
columns = ['created', 'tweet_text']
df = pd.DataFrame(columns=columns)

#트위터 API를 사용하여 'BTS'가 포횜된 100페이지의 트윗들을 크롤링한 뒤, 'text', 'created_at' 정보를 데이터 프레임으로 저장
for i in range(1,100):
    print("Get data", str(i/500*100), "%complete..")
    tweets = api.search(keyword)
    for tweet in tweets:
        tweet_text = tweet.text
        created = tweet.created_at
        row = [created, tweet_text]
        series = pd.Series(row, index=df.columns)
        df = df.append(series, ignore_index=True)
print("Get data 100% complete.")

Get data 0.2 %complete..
Get data 0.4 %complete..
Get data 0.6 %complete..
Get data 0.8 %complete..
Get data 1.0 %complete..
Get data 1.2 %complete..
Get data 1.4000000000000001 %complete..
Get data 1.6 %complete..
Get data 1.7999999999999998 %complete..
Get data 2.0 %complete..
Get data 2.1999999999999997 %complete..
Get data 2.4 %complete..
Get data 2.6 %complete..
Get data 2.8000000000000003 %complete..
Get data 3.0 %complete..
Get data 3.2 %complete..
Get data 3.4000000000000004 %complete..
Get data 3.5999999999999996 %complete..
Get data 3.8 %complete..
Get data 4.0 %complete..
Get data 4.2 %complete..
Get data 4.3999999999999995 %complete..
Get data 4.6 %complete..
Get data 4.8 %complete..
Get data 5.0 %complete..
Get data 5.2 %complete..
Get data 5.4 %complete..
Get data 5.6000000000000005 %complete..
Get data 5.800000000000001 %complete..
Get data 6.0 %complete..
Get data 6.2 %complete..
Get data 6.4 %complete..
Get data 6.6000000000000005 %complete..
Get data 6.800000000000001

In [6]:
df.to_csv("tweet_temp.csv", index=False)

[Step.2 추출] : 키워드 추출
[텍스트 데이터 전처리]

In [7]:
df = pd.read_csv("tweet_temp.csv")
df.head()

Unnamed: 0,created,tweet_text
0,2021-09-19 11:44:37,RT @setiogi: “It’s hard to gather around these...
1,2021-09-19 11:44:37,"RT @betienn_twt: rút sạc ra đi, nổ máy đó-\n\n..."
2,2021-09-19 11:44:37,RT @charts_k: Chuseok 2021 Greeting from @BTS_...
3,2021-09-19 11:44:36,RT @PhcHu79127851: @Staram0509 @BTS_twt Yehhh ...
4,2021-09-19 11:44:36,RT @HKimNgn69219523: @Phanhoan301295 @BTS_twt ...


In [8]:
import re

#텍스트 정제 함수 : 한글 이외의 문자는 전부 제거
def text_cleaning(text):
    hangul = re.compile('[^ㄱ-ㅣ가-힇]+') #한글의 정규표현식을 나타냄
    result = hangul.sub('', text)
    return result

In [9]:
# 'Tweet_text' 피처에 이를 적용
df['ko_text'] = df['tweet_text'].apply(lambda x:text_cleaning(x))
df.head()


Unnamed: 0,created,tweet_text,ko_text
0,2021-09-19 11:44:37,RT @setiogi: “It’s hard to gather around these...,
1,2021-09-19 11:44:37,"RT @betienn_twt: rút sạc ra đi, nổ máy đó-\n\n...",방탄소년단
2,2021-09-19 11:44:37,RT @charts_k: Chuseok 2021 Greeting from @BTS_...,방탄소년단
3,2021-09-19 11:44:36,RT @PhcHu79127851: @Staram0509 @BTS_twt Yehhh ...,방탄소년단
4,2021-09-19 11:44:36,RT @HKimNgn69219523: @Phanhoan301295 @BTS_twt ...,방탄소년단


[konlpy를 이용한 키워드 추출]

In [10]:
from konlpy.tag import Okt
from collections import Counter

#불용어사전 활용
korean_stopwords_path = 'C:/Users/박승연/Downloads/korean_stopwords.txt'
with open(korean_stopwords_path, encoding='utf8') as f:
    stopwords = f.readlines()
stopwords = [x.strip() for x in stopwords]

def get_nouns(x):
    nouns_tagger = Okt()
    nouns = nouns_tagger.nouns(x)
    
    #한글자 키워드를 제거
    nouns = [noun for noun in nouns if len(noun) > 1]
    
    #불용어를 제거
    nouns = [noun for noun in nouns if noun not in stopwords]
    
    return nouns




In [11]:
df['nouns'] = df['ko_text'].apply(lambda x: get_nouns(x))
print(df.shape)
df.head()

(1485, 4)


Unnamed: 0,created,tweet_text,ko_text,nouns
0,2021-09-19 11:44:37,RT @setiogi: “It’s hard to gather around these...,,[]
1,2021-09-19 11:44:37,"RT @betienn_twt: rút sạc ra đi, nổ máy đó-\n\n...",방탄소년단,[방탄소년단]
2,2021-09-19 11:44:37,RT @charts_k: Chuseok 2021 Greeting from @BTS_...,방탄소년단,[방탄소년단]
3,2021-09-19 11:44:36,RT @PhcHu79127851: @Staram0509 @BTS_twt Yehhh ...,방탄소년단,[방탄소년단]
4,2021-09-19 11:44:36,RT @HKimNgn69219523: @Phanhoan301295 @BTS_twt ...,방탄소년단,[방탄소년단]


[Step3. 분석] : 연관분석을 이용한 키워드 분석


[연관 키워드 추출하기]

In [12]:
from apyori import apriori

In [13]:
#트랜젝션 데이터를 추출
transactions = df['nouns'].tolist()

transactions = [transaction for transaction in transactions if transaction] #공백 문자열을 방지
print(transactions)


[['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단', '방탄소년단', '제이'], ['방탄소년단'], ['아이돌', '인기상', '투표', '마감', '일시', '로그', '인후', '하루', '투표', '마감', '일인', '지위', '유지', '방탄소년단', '투표'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단', '방탄소년단', '제이'], ['방탄소년단'], ['아이돌', '인기상', '투표', '마감', '일시', '로그', '인후', '하루', '투표', '마감', '일인', '지위', '유지', '방탄소년단', '투표'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단', '방탄소년단', '제이'], ['방탄소년단'], ['아이돌', '인기상', '투표', '마감', '일시', '로그', '인후', '하루', '투표', '마감', '일인', '지위', '유지', '방탄소년단', '투표'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단', '방탄소년단', '제이'], ['방탄소년단'], ['아이돌', '인기상', '투표', '마감', '일시', '로그', '인후', '하루', '투표', '마감', '일인', '지위', '유지', '방탄소년단', '투표'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], ['방탄소년단'], [

In [14]:
#연관분석 수행
results = list(apriori(transactions,  min_support = 0.025, min_confidence=0.2, min_lift=5, max_length=2))
print(results)

[RelationRecord(items=frozenset({'가능성', '노력'}), support=0.03957131079967024, ordered_statistics=[OrderedStatistic(items_base=frozenset({'가능성'}), items_add=frozenset({'노력'}), confidence=1.0, lift=25.270833333333332), OrderedStatistic(items_base=frozenset({'노력'}), items_add=frozenset({'가능성'}), confidence=1.0, lift=25.270833333333332)]), RelationRecord(items=frozenset({'가능성', '달성'}), support=0.03957131079967024, ordered_statistics=[OrderedStatistic(items_base=frozenset({'가능성'}), items_add=frozenset({'달성'}), confidence=1.0, lift=25.270833333333332), OrderedStatistic(items_base=frozenset({'달성'}), items_add=frozenset({'가능성'}), confidence=1.0, lift=25.270833333333332)]), RelationRecord(items=frozenset({'가능성', '만들기'}), support=0.03957131079967024, ordered_statistics=[OrderedStatistic(items_base=frozenset({'가능성'}), items_add=frozenset({'만들기'}), confidence=1.0, lift=25.270833333333332), OrderedStatistic(items_base=frozenset({'만들기'}), items_add=frozenset({'가능성'}), confidence=1.0, lift=25.27083333

In [15]:
#데이터 프레임 형태로 정리
columns = ['source','target','support']
network_df = pd.DataFrame(columns=columns)


#규칙의 조건절을 source, 결과절을 target, 지지도를 support 라는 데이터 프레임의 피처로 변환
for result in results:
    if len(result.items) == 2:
        items = [x for x in result.items]
        row = [items[0], items[1], result.support]
        series = pd.Series(row, index=network_df.columns)
        network_df = network_df.append(series, ignore_index=True)
        
network_df.head()

Unnamed: 0,source,target,support
0,가능성,노력,0.039571
1,가능성,달성,0.039571
2,가능성,만들기,0.039571
3,가능성,세상,0.039571
4,가능성,우린,0.039571


[단어 빈도 추출하기]

In [16]:
tweet_corpus = " ".join(df['ko_text'].tolist())
print(tweet_corpus)

 방탄소년단 방탄소년단 방탄소년단 방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단 방탄소년단제이홉방탄소년단제이홉제이홉 잘다녀와방탄소년단 아이돌인기상투표마감일은일시입니다로그인후하루한표씩투표가가능하니마감일인일까지위를유지할수있도록방탄소년단에투표부탁드립니다 잘다녀와방탄소년단 잘다녀와방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단 방탄소년단제이홉방탄소년단제이홉제이홉 잘다녀와방탄소년단 아이돌인기상투표마감일은일시입니다로그인후하루한표씩투표가가능하니마감일인일까지위를유지할수있도록방탄소년단에투표부탁드립니다 잘다녀와방탄소년단 잘다녀와방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단 방탄소년단제이홉방탄소년단제이홉제이홉 잘다녀와방탄소년단 아이돌인기상투표마감일은일시입니다로그인후하루한표씩투표가가능하니마감일인일까지위를유지할수있도록방탄소년단에투표부탁드립니다 잘다녀와방탄소년단 잘다녀와방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단 방탄소년단제이홉방탄소년단제이홉제이홉 잘다녀와방탄소년단 아이돌인기상투표마감일은일시입니다로그인후하루한표씩투표가가능하니마감일인일까지위를유지할수있도록방탄소년단에투표부탁드립니다 잘다녀와방탄소년단 잘다녀와방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단 방탄소년단제이홉방탄소년단제이홉제이홉 잘다녀와방탄소년단 아이돌인기상투표마감일은일시입니다로그인후하루한표씩투표가가능하니마감일인일까지위를유지할수있도록방탄소년단에투표부탁드립니다 잘다녀와방탄소년단 잘다녀와방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단  방탄소년단 방탄소년단 방탄소년단 방탄소년단 방탄소년단제이홉방탄소년단제이홉제이홉 잘다녀와방탄소년단 아이돌인기상투표마감일은일시입니다로그인후하루한표씩투표가가능하니마감일인일까지위를유지할수있도록방탄소년단에투표부탁드립니다 잘다녀와방탄소년단 잘다녀와방탄소년단  방탄소년단 방탄소년단 방탄소

In [17]:
from konlpy.tag import Okt
from collections import Counter

#명사 키워드 추출
nouns_tagger = Okt()
nouns = nouns_tagger.nouns(tweet_corpus)
count = Counter(nouns)

#한글자 키워드를 제거
remove_char_counter = Counter({x : count[x] for x in count if len(x) > 1})
print(remove_char_counter)

Counter({'방탄소년단': 1245, '지민': 142, '방탄': 114, '정호석': 105, '김태형': 96, '김남준': 95, '구매': 85, '우리': 80, '순간': 80, '제품': 80, '확인': 80, '전정국': 73, '출국': 73, '김석진': 72, '민윤기': 72, '박지민': 72, '판매': 71, '포카': 68, '매직': 68, '오늘': 66, '투표': 57, '교환': 50, '구함': 50, '구해': 50, '메모리즈': 50, '디비디': 50, '라이': 50, '슈가': 48, '가능성': 48, '희망이': 48, '우린': 48, '반드시': 48, '저희': 48, '달성': 48, '세상': 48, '만들기': 48, '위해': 48, '노력': 48, '포토': 47, '카드': 47, '윙즈': 47, '정국': 44, '하이브': 42, '공포': 42, '앨범': 42, '생각': 42, '하루': 40, '마감': 38, '소년': 26, '사용': 26, '업로드': 26, '여러분': 26, '이야기': 26, '이미지': 26, '초상': 26, '추후': 26, '콘텐츠': 26, '활용': 26, '맵솔온콘': 26, '딥디': 26, '블루': 26, '레이블': 26, '현장': 24, '온콘딥디': 24, '블레': 24, '블루레이': 24, '썸패윈패맵솔': 24, '페르소나': 24, '보름달': 23, '서울': 21, '위로': 21, '이상': 21, '제시': 21, '배송비': 21, '포함': 21, '소우주': 21, '머스터': 21, '때문': 21, '참여': 21, '요미': 21, '다가': 21, '품절': 21, '사람': 21, '나야': 21, '나나': 21, '종일': 21, '날수': 21, '소년단': 21, '뉴욕': 21, '마음': 21, '이일': 21, '하늘': 21, '거구': 21, '나하': 21, '해얘':

단어 빈도 점수 추가

In [19]:
#키워드와 키워드 빈도 점수를 'node', 'nodesize' 라는 데이터 프레임의 피처로 생성
node_df = pd.DataFrame(remove_char_counter.items(), columns=['node','nodesize'])

node_df = node_df[node_df['nodesize'] >= 100] #시각화의 편의를 위해 'nodesize' 20이하는 제거
node_df.head()

node_df.query('node.isna()', engine='python')
node_df.query('nodesize.isna()', engine='python')
print(node_df)


     node  nodesize
0   방탄소년단      1245
17    정호석       105
18     방탄       114
20     지민       142


[Step4. 시각화] 연관 키워드 네트워크 시각화 (오류 발생부분)

In [20]:
import networkx as nx
plt.figure(figsize=(25,25))

#networkx 그래프 객체를 생성
G = nx.Graph()
#node_df의 키워드 빈도수를 데이터로 하여, 네트워크 그래프의 '노드' 역할을 하는 원을 생성
for index, row in node_df.iterrows():
    G.add_node(row['node'], nodesize=row['nodesize'])
    
#network_df의 연관분석 데이터를 기반으로, 네트워크 그래프의 '관계' 역할을 하는 선을 생성
for index, row in network_df.iterrows():
    G.add_weighted_edges_from([(row['source'], row['target'], row['support'])])



#그래프 디자인과 관련된 파라미터를 설정
pos = nx.spring_layout(G, k=0.6, iterations=50)
sizes = [G.nodes[node][node_df['nodesize']] *25 for node in G]


#그래프를 출력
ax=plt.gca()
plt.show()

TypeError: 'Series' objects are mutable, thus they cannot be hashed

<Figure size 1800x1800 with 0 Axes>

In [22]:
df2 = pd.DataFrame(node_df) #R로 워드클라우드 그리기 위해서 csv데이터로 저장함
df2.to_csv("data.csv")


In [27]:
from IPython.display import Image

![cloud.PNG](attachment:cloud.PNG)

원래 qgraph로 빈도수를 활용한 네트워크 시각화를 하려고 했으나, R 4.0버전 이상에서는 KoNLP가 작동이 되지 않는 오류를 해결하지 못했다. 깃헙을 통해 후회하여 KoNLP를 설치하려 시도해보았으나 정상적으로 작동되지 않았다.
오류를 조금만 더 해결할 수 있었다면, 더 좋은 결과물은 만들 수 있었을텐데 아쉬움이 많이 남는다. 하지만 오류를 수정하고자 이것저것 많이 찾아보면서 파이썬과 R을 더 많이 배울 수 있는 기회가 되었던것 같다.