In [1]:
# mount Google Drive
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


## Load Data

In [2]:
import pandas as pd 
import numpy as np
from tqdm import tqdm

In [4]:
% cd '/content/gdrive/MyDrive/MBTI'

/content/gdrive/MyDrive/MBTI


In [5]:
import os
from glob import glob 

data_name_list = glob("*.csv")
data_name_list 
data_dict = {}

for name in data_name_list :
  path = os.path.join(name)
  data = pd.read_csv(path,encoding='cp949', index_col=0)
  data_dict[str(name[0:4])] = data 

print(f'Succesfully loaded {len(data_dict)} data')

Succesfully loaded 16 data


In [6]:
data_dict['ESTJ'].head()

Unnamed: 0,num,title,content
1,4,ESTJ갤러리,-
2,7,아따잉 첫빠여라~~ ㅋㅋ,반갑소잉~~<U+00A0>
3,9,여긴 왜 사람이 없냐,존나 조용하네
4,10,estj는 인싸들이어서 글쓸시간도없음,근데 나도 estj임
5,11,MBTI 갤러리에서 떡 돌리러 왔습니다.,반갑습니다.


In [7]:
# labeling 
for label in data_dict.keys():
  data_dict[label]['label'] = label 

In [8]:
#checking 
data_dict['ESTJ'].head()

Unnamed: 0,num,title,content,label
1,4,ESTJ갤러리,-,ESTJ
2,7,아따잉 첫빠여라~~ ㅋㅋ,반갑소잉~~<U+00A0>,ESTJ
3,9,여긴 왜 사람이 없냐,존나 조용하네,ESTJ
4,10,estj는 인싸들이어서 글쓸시간도없음,근데 나도 estj임,ESTJ
5,11,MBTI 갤러리에서 떡 돌리러 왔습니다.,반갑습니다.,ESTJ


In [9]:
# contcat intto one data_set 
result = pd.DataFrame()
for label in data_dict.keys():
  result = pd.concat([result, data_dict[label]])

result = result.drop('num', axis=1)
result = result.reset_index().drop(['index'],axis=1)

In [10]:
result.head()

Unnamed: 0,title,content,label
0,사랑해요 엔프제,천사가 있다면 당신일 것<U+00A0>,ENFJ
1,ㅎㅇ,너희들 다 내 거임,ENFJ
2,엔프제 갤러리 특),엔프제는 없고엔프제를 보려는 관객만 있다,ENFJ
3,갤주는 갤이름 대문자로 바꿔라. ㅈㄴ 불편하네,,ENFJ
4,ㅎㅇㅎㅇ,엔갤 흥하길 바람,ENFJ


In [11]:
result['title'] = result['title'].str.strip() #공백제거
result['content'] = result['content'].str.strip() # 공백제거

result['title'].replace('',np.nan, inplace=True) # 제목없는 경우 nan 대체
result['content'].replace('', np.nan, inplace=True)

result.dropna()

result.tail()

Unnamed: 0,title,content,label
28237,응애 나 아기인팁,응애,INTP
28238,인팁은 악필이냐?,일단 난 악필임,INTP
28239,이제 깨달았다,최근에 mbti 검사해보고 계속 infp 나와서 가끔씩 infp 관련된 거 찾아봤는...,INTP
28240,와시발 턱걸이,- dc official App,INTP
28241,저거 아이큐에서 10정도 빼야 실제 아이큐랑 근사할듯.,패턴 우려먹기 많이 보이네,INTP


In [13]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.8MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 8.0MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/98/88/f817ef1af6f794e8f11313dcd1549de833f4599abcec82746ab5ed086686/JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448kB)
[K     |████████████████████████████████| 450kB 32.3MB/s 
Installing collected p

In [14]:
from konlpy.tag import Hannanum

In [17]:
extractor = Hannanum()
nouns = []

for i, row, in tqdm(result.iterrows()):
  title, content,label = row

  if title and type(title) is str:
    nouns.extend(extractor.nouns(title))

  if content and type(content) is str:
     nouns.extend(extractor.nouns(content))


28242it [06:09, 76.49it/s] 


## Count Word 

In [19]:
nouns

['사랑',
 '엔프제',
 '천사',
 '당신',
 '것<U+00A0',
 'ㅎㅇ',
 '너희들',
 '내',
 '거',
 '엔프제',
 '갤러리',
 '특',
 '엔프제',
 '없고엔프제',
 '관객',
 '갤주',
 '갤이름',
 '대문자',
 'ㅈㄴ',
 '불편',
 'ㅎㅇㅎㅇ',
 '엔갤',
 '흥하길',
 '바람',
 '엔프제',
 '노무',
 '니네',
 '성격',
 '나줘ㅡㅡ',
 '유사',
 '엔프제',
 '입갤',
 '인프제',
 '엔프제',
 '쳐달란',
 '말',
 'ㅡㅡ',
 '현실',
 '어디',
 '잘보',
 '데',
 '극소수',
 '유형',
 '동족',
 '찾는거보다',
 '더찾기힘듬',
 '엔프제',
 '멘탈',
 '내',
 '주위',
 '엔프제',
 '엔프제',
 '갤도있',
 '저',
 '처음검사',
 '5년',
 '엔프제',
 '엔프제예요',
 '잘',
 '안나오',
 '지',
 '전',
 '소문자',
 '모습',
 '뭔가',
 '옆',
 '순환표시',
 '똥글똘글해서',
 '귀여워요가끔',
 '놀러올게요',
 '엔프제에',
 '호감',
 '어케해야할까요',
 '엔프제',
 '마음',
 '뺏고싶은데지금',
 '어느정도',
 '친한정도까진',
 '데',
 '데',
 '어케해야',
 '저',
 '엔프제',
 '성격유형',
 '엔프제',
 '호감',
 '법',
 '에너지',
 '발산',
 '때',
 '에너지',
 '받아주면됨근데',
 '그',
 '입장',
 '에너지',
 '생각이유',
 '엔프제',
 '눈치',
 '존',
 '빨라서상대방',
 '귀찮아하는거',
 '대화',
 '니랑',
 'ㄹㅇ그리',
 '대화',
 '순간',
 '아웃',
 'ㅎㅇ',
 '연속',
 '다섯번',
 '엔프제',
 '사람',
 '우리나라',
 '진심',
 '엔프제',
 '많진',
 '친구',
 '자기',
 '대',
 '2',
 '3일',
 '2',
 '8일',
 '분명',
 'intp였는데',
 '어제',
 'enfj나왔음',
 'ㅎㅎ',
 '애',


In [20]:
from collections import Counter

count = Counter(nouns)
words = dict(count.most_common())
print(words)

{'나': 16626, '것': 11595, '사람': 6982, '생각': 5745, '때': 5074, '말': 4197, '수': 3776, '내': 3502, '진짜': 2930, '친구': 2655, '뭐': 2448, '데': 2308, '근데': 2301, '일': 2152, '너': 1969, '성격': 1861, '애': 1845, '글': 1668, '존': 1658, '거': 1616, '유형': 1615, '듯': 1548, '얘': 1524, '사람들': 1519, '이': 1441, '자기': 1399, '적': 1386, '지': 1259, 'ㅋㅋ': 1174, '그': 1163, '남': 1057, '중': 1046, '마음': 1044, 'ㅋㅋㅋㅋㅋ': 1036, '뭔가': 1033, '엔프제': 1021, '편': 1019, '연락': 997, '감정': 969, '이거': 950, '본인': 930, '누구': 921, '친구들': 904, '관심': 898, '저': 895, '자신': 871, '여자': 852, '이해': 842, '이유': 837, '행동': 830, '라': 825, '인프피': 822, '들': 820, '주변': 816, '걍': 816, '연애': 807, '공부': 802, '하나': 801, '때문': 767, '시간': 760, '남자': 750, '속': 744, '기분': 740, '정도': 739, '인프제': 736, '공감': 734, '엔팁': 725, '여기': 703, '우리': 694, '오늘': 692, '검사': 690, '한번': 686, '전': 680, '인팁': 677, '집': 677, '사랑': 674, '다들': 673, '경우': 672, '엔프피': 670, '대화': 664, 'ㄹㅇ': 659, '특징': 647, '잇프제': 638, '상황': 631, '이상': 627, '성향': 627, '줄': 626, '인생': 614, '상대': 610, '걔

In [21]:
for word in list(words.keys()):
    if len(word) == 1: # 1인것들 제거
        del words[word]
        continue
        
    if words[word] == 1:
        del words[word]
        
print(words)



{'사람': 6982, '생각': 5745, '진짜': 2930, '친구': 2655, '근데': 2301, '성격': 1861, '유형': 1615, '사람들': 1519, '자기': 1399, 'ㅋㅋ': 1174, '마음': 1044, 'ㅋㅋㅋㅋㅋ': 1036, '뭔가': 1033, '엔프제': 1021, '연락': 997, '감정': 969, '이거': 950, '본인': 930, '누구': 921, '친구들': 904, '관심': 898, '자신': 871, '여자': 852, '이해': 842, '이유': 837, '행동': 830, '인프피': 822, '주변': 816, '연애': 807, '공부': 802, '하나': 801, '때문': 767, '시간': 760, '남자': 750, '기분': 740, '정도': 739, '인프제': 736, '공감': 734, '엔팁': 725, '여기': 703, '우리': 694, '오늘': 692, '검사': 690, '한번': 686, '인팁': 677, '사랑': 674, '다들': 673, '경우': 672, '엔프피': 670, '대화': 664, 'ㄹㅇ': 659, '특징': 647, '잇프제': 638, '상황': 631, '이상': 627, '성향': 627, '인생': 614, '상대': 610, 'ㅋㅋㅋ': 606, '이야기': 602, '엔티제': 586, '문제': 574, '관계': 568, '잇프피': 566, 'ㅇㅇ': 563, '고민': 562, '상대방': 552, '상처': 540, '궁금': 531, '계획': 529, '비슷': 526, '세상': 523, '스트레스': 514, '맨날': 509, '노력': 502, '소리': 501, '갤러리': 497, '얘기': 492, '엄마': 483, '필요': 476, '지금': 474, '자체': 472, '인간': 458, '인티제': 457, '엣팁': 435, '행복': 434, '눈치': 428, '그것': 428

In [34]:
import pickle

with open('MBTI.pickle', 'wb') as f:
    pickle.dump(data, f, pickle.HIGHEST_PROTOCOL)

In [51]:
len(words)

22920

In [52]:
words

{'사람': 6982,
 '생각': 5745,
 '진짜': 2930,
 '친구': 2655,
 '근데': 2301,
 '성격': 1861,
 '유형': 1615,
 '사람들': 1519,
 '자기': 1399,
 'ㅋㅋ': 1174,
 '마음': 1044,
 'ㅋㅋㅋㅋㅋ': 1036,
 '뭔가': 1033,
 '엔프제': 1021,
 '연락': 997,
 '감정': 969,
 '이거': 950,
 '본인': 930,
 '누구': 921,
 '친구들': 904,
 '관심': 898,
 '자신': 871,
 '여자': 852,
 '이해': 842,
 '이유': 837,
 '행동': 830,
 '인프피': 822,
 '주변': 816,
 '연애': 807,
 '공부': 802,
 '하나': 801,
 '때문': 767,
 '시간': 760,
 '남자': 750,
 '기분': 740,
 '정도': 739,
 '인프제': 736,
 '공감': 734,
 '엔팁': 725,
 '여기': 703,
 '우리': 694,
 '오늘': 692,
 '검사': 690,
 '한번': 686,
 '인팁': 677,
 '사랑': 674,
 '다들': 673,
 '경우': 672,
 '엔프피': 670,
 '대화': 664,
 'ㄹㅇ': 659,
 '특징': 647,
 '잇프제': 638,
 '상황': 631,
 '이상': 627,
 '성향': 627,
 '인생': 614,
 '상대': 610,
 'ㅋㅋㅋ': 606,
 '이야기': 602,
 '엔티제': 586,
 '문제': 574,
 '관계': 568,
 '잇프피': 566,
 'ㅇㅇ': 563,
 '고민': 562,
 '상대방': 552,
 '상처': 540,
 '궁금': 531,
 '계획': 529,
 '비슷': 526,
 '세상': 523,
 '스트레스': 514,
 '맨날': 509,
 '노력': 502,
 '소리': 501,
 '갤러리': 497,
 '얘기': 492,
 '엄마': 483,
 '필요': 476,
 '지금': 4

In [54]:
import pickle
import gzip

# save and compress.
with gzip.open('MBTIzip.pickle', 'wb') as f:
    pickle.dump(words, f)


## 성격별 명사 추출 위 코드를 재사용

위와 같이 성격별 데이터를 합치지 않고 성격별 데이터를 따로 처리 후

피클파일로 저장 

In [55]:
import os
from glob import glob 

data_name_list = glob("*.csv")
data_name_list 
data_dict = {}

for name in data_name_list :
  path = os.path.join(name)
  data = pd.read_csv(path,encoding='cp949', index_col=0)
  data_dict[str(name[0:4])] = data 

print(f'Succesfully loaded {len(data_dict)} data')

Succesfully loaded 16 data


In [57]:
data_dict['ESTJ']

Unnamed: 0,num,title,content
1,4,ESTJ갤러리,-
2,7,아따잉 첫빠여라~~ ㅋㅋ,반갑소잉~~<U+00A0>
3,9,여긴 왜 사람이 없냐,존나 조용하네
4,10,estj는 인싸들이어서 글쓸시간도없음,근데 나도 estj임
5,11,MBTI 갤러리에서 떡 돌리러 왔습니다.,반갑습니다.
...,...,...,...
486,736,24살 살고싶습니다 조언해주세요,어렷을때부터 불우한 환경을 살았습니다
487,739,엣티제랑 친한 인프핀데,솔직히 처음에는 융통성없고 고지식해보여서
488,740,estj 남자들은 여자 나이차이 몇살까지 가능해?,제곧내
489,742,엣티제 개 섹시함,문제는 상대가 나한테


In [60]:
# labeling 
for label in data_dict.keys():
  data_dict[label]['label'] = label 

In [62]:
data_dict['ESTJ'].head()

Unnamed: 0,num,title,content,label
1,4,ESTJ갤러리,-,ESTJ
2,7,아따잉 첫빠여라~~ ㅋㅋ,반갑소잉~~<U+00A0>,ESTJ
3,9,여긴 왜 사람이 없냐,존나 조용하네,ESTJ
4,10,estj는 인싸들이어서 글쓸시간도없음,근데 나도 estj임,ESTJ
5,11,MBTI 갤러리에서 떡 돌리러 왔습니다.,반갑습니다.,ESTJ


In [63]:
def functionalize_counter(result,label):
  result = result.drop('num', axis=1)
  result = result.reset_index().drop(['index'],axis=1)
  result['title'] = result['title'].str.strip() #공백제거
  result['content'] = result['content'].str.strip() # 공백제거

  result['title'].replace('',np.nan, inplace=True) # 제목없는 경우 nan 대체
  result['content'].replace('', np.nan, inplace=True)

  result.dropna()

  extractor = Hannanum()
  nouns = []

  for i, row, in tqdm(result.iterrows()):
    title, content,label = row

    if title and type(title) is str:
      nouns.extend(extractor.nouns(title))

    if content and type(content) is str:
      nouns.extend(extractor.nouns(content))


  count = Counter(nouns)
  words = dict(count.most_common())

  for word in list(words.keys()):
      if len(word) == 1: # 1인것들 제거
          del words[word]
          continue
          
      if words[word] == 1:
          del words[word]

  # save and compress.
  with gzip.open(label+'_MBTIzip.pickle', 'wb') as f:
      pickle.dump(words, f)



In [64]:
for label in data_dict.keys():
  data = data_dict[label]
  functionalize_counter(data, label)

2229it [00:58, 38.01it/s]
2041it [00:20, 101.24it/s]
1714it [00:26, 63.88it/s]
2218it [00:26, 84.92it/s] 
755it [00:09, 76.33it/s] 
710it [00:07, 90.87it/s]
490it [00:09, 52.89it/s]
1815it [00:28, 62.75it/s]
2131it [00:51, 41.29it/s]
1966it [00:14, 132.68it/s]
1478it [00:23, 62.92it/s]
2343it [00:30, 76.19it/s]
2347it [00:27, 86.44it/s]
2257it [00:32, 70.37it/s]
1284it [00:09, 129.08it/s]
2464it [00:25, 97.46it/s] 
