In [67]:
import requests
import re
import nltk
from bs4 import BeautifulSoup
from konlpy.tag import Okt
from konlpy.tag import Mecab


In [68]:
okt = Okt()
mecab = Mecab()


In [69]:
def parseText (txt):
    regexStr = r'(\(|\[)[^\)^\]]*(\]|\))'
    return list(
        map(lambda s: s.strip(),
            filter(lambda s: len(s) > 0,
                   re.sub(regexStr, ' ', txt).split('.')
                  )
           )
    )

In [70]:
def printItems (items):
    for item in items:
        print(item)

In [71]:
def crawler (url): 
    res = requests.get(url)
    html = res.text
    soup = BeautifulSoup(html, 'html.parser')
    select = soup.select('.wiki-heading-content > .wiki-paragraph')
    select_list = soup.select('.wiki-heading-content > .wiki-list')
    mbti_name = url[-4:]
    
    result = []

    for paragraph in select:
        if (len(paragraph.text) > 0):
            items = parseText(paragraph.text)
            for item in items:
                result.append(item)
        
    for paragraph in select_list:
        if (len(paragraph.text) > 0):
            items = parseText(paragraph.text)
            for item in items:
                result.append(item)

    return mbti_name, result

In [72]:
mbti_list = ['ISTJ', 'ISFJ', 'INFJ', 'INTJ', 'ISTP', 'ISFP', 'INFP', 'INTP', 'ESTP', 'ESFP', 'ENFP', 'ENTP', 'ESTJ', 'ESFJ', 'ENFJ', 'ENTJ']

In [73]:
len(mbti_list)

16

In [74]:
data = dict()

In [75]:
for mbti in mbti_list:
    print('start crawling ' + mbti)
    url = 'https://namu.wiki/w/' + mbti
    _, result = crawler(url)
    data[mbti] = result

start crawling ISTJ
start crawling ISFJ
start crawling INFJ
start crawling INTJ
start crawling ISTP
start crawling ISFP
start crawling INFP
start crawling INTP
start crawling ESTP
start crawling ESFP
start crawling ENFP
start crawling ENTP
start crawling ESTJ
start crawling ESFJ
start crawling ENFJ
start crawling ENTJ


In [76]:
data

{'ISTJ': ['MBTI와 16Personalities 성격 유형 중 ISTJ 유형을 설명하는 문서',
  '청렴결백한 논리주의자, 세상의 소금형',
  '신중하고 조용하며 집중력이 강하고 매사에 철저하며 사리분별력이 뛰어나다',
  '실제 사실에 대하여 정확하고 체계적으로 기억하며 일 처리에 있어서도 신중하며 책임감이 강하다',
  '집중력이 강한 현실감각을 지녔으며 조직적이고 침착하다',
  '보수적인 경향이 있으며, 문제를 해결하는데 과거의 경험을 잘 적용하며, 반복되는 일상적인 일에 대한 인내력이 강하다',
  '자신과 타인의 감정과 기분을 배려하며, 전체적이고 타협적 방안을 고려하는 노력이 때로 필요하다',
  '정확성과 조직력을 발휘하는 분야의 일을 선호한다',
  '겉보기 특성 - 내향적이어서 말을 조금은 아끼는 편이지만 틀에 짜여진 사회에서 주어진 임무를 매우 철저하게 완수하고 규칙을 잘 준수하는 유형이라 회사나 공공기관에서 일반적으로 가장 선호되는 성격 유형 중에 하나다',
  '학교에서 역시 선생님들이 일반적으로 가장 좋아하는 성격의 학생들 중에 하나',
  '자기관리 능력에서 최강으로 주제넘는 말이나 행동을 할 가능성이 가장 낮은 유형이기도 하다',
  '특히 겉으로 튀는 것을 별로 안좋아하고 용의 단정하며 가장 정돈된 스타일의 대표주자이며, 우리나라 치과의사들 중 이 성격 유형이 가장 많이 나타나는 걸로 유명하다',
  'MBTI 유형 중 가장 흔하며 , 여성보다는 남성에게서 흔하다',
  '주의 - 아래 항목은 다른 사람이 각 유형들을 보았을 때 일반적으로 느끼는 특성 위주로 서술되어 있다는 점을 감안할 것',
  '대한민국 부모들의 성격 유형 중 가장 많다',
  'ISTJ 어른들과 비슷하다',
  '사춘기 시절 방황하는 몇 년 정도를 제외하면 빼어난 노력파적인 모습과 책임감, 자제력, 자기관리 모습을 보여준다',
  '따라서 일반적인 학교 선생님들도 매우 좋아한다',
  '열심히 공부를 해서 최소 중상위권 수준의 성적을 발휘하는 

In [77]:
okt.nouns('거절을 잘 못하는 편이고 상대방을 지나치게 배려하거나 타인의 필요를 지나치게 생각한다')


['거절', '편이', '상대방', '타인', '필요', '생각']

In [78]:
tokens = okt.morphs('거절을 잘 못하는 편이고 상대방을 지나치게 배려하거나 타인의 필요를 지나치게 생각한다')
text = nltk.Text(tokens, name='NMSC')


In [79]:
text.collocations()




In [80]:
tokens

['거절',
 '을',
 '잘',
 '못',
 '하는',
 '편이',
 '고',
 '상대방',
 '을',
 '지나치게',
 '배려하거나',
 '타인',
 '의',
 '필요',
 '를',
 '지나치게',
 '생각',
 '한다']

In [92]:
def analyzer(data, target):
    noun_list = []
    target_data = data[target]
    
    except_item_list = ['출처', '것', '등', '이', '중', '때', '를', '그', '유형']
    
    for text in target_data:
        nouns = okt.nouns(text)
        for noun in nouns:
            if (noun not in except_item_list):
                noun_list.append(noun)
            
    return nltk.Text(noun_list, name='NMSC')
    

In [94]:
analyzer(data, 'INTJ').vocab().most_common(50)

[('사람', 25),
 ('수', 16),
 ('자기', 16),
 ('상황', 15),
 ('생각', 15),
 ('편이', 14),
 ('관계', 14),
 ('자신', 11),
 ('능력', 11),
 ('자녀', 11),
 ('일', 10),
 ('속', 10),
 ('위', 10),
 ('사회', 10),
 ('본인', 10),
 ('합리', 9),
 ('성향', 9),
 ('때문', 9),
 ('분야', 8),
 ('필요', 8),
 ('못', 7),
 ('경우', 7),
 ('감정', 7),
 ('사고', 7),
 ('가장', 7),
 ('중시', 6),
 ('의견', 6),
 ('방식', 6),
 ('자주', 6),
 ('이상', 6),
 ('지식', 6),
 ('대한', 6),
 ('효율', 6),
 ('공부', 6),
 ('성격', 6),
 ('인간', 6),
 ('계획', 6),
 ('친구', 6),
 ('더', 6),
 ('비율', 6),
 ('주의', 5),
 ('이기', 5),
 ('편', 5),
 ('이해', 5),
 ('가끔', 5),
 ('현실', 5),
 ('모든', 5),
 ('지적', 5),
 ('수도', 5),
 ('단계', 5)]