In [1]:
import pandas as pd

korean_air_data = pd.read_csv("korean_air_data/korean_air_2020_07.csv")

korean_air_data.columns = ["a","title","text","editor","times","date"]

del korean_air_data["a"]

# na값 제거
data = korean_air_data.dropna()

# 불용어 지정
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','박정환','도','을','것','를','등','으로','자','에','등','와','한','하다''것','\n','로']

# 한글 외의 모든 데이터 제거 : 기업명이 영어로 되어있는 경우를 어떻게 처리 해야할까?
data = data.text.str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

In [2]:
from konlpy.corpus import kolaw
from konlpy.tag import Okt
from konlpy.utils import pprint

from nltk.collocations import BigramAssocMeasures
from nltk.collocations import TrigramAssocMeasures
from nltk.metrics.association import QuadgramAssocMeasures
from nltk.collocations import BigramCollocationFinder
from nltk.collocations import TrigramCollocationFinder
from nltk.collocations import QuadgramCollocationFinder

from collections import Counter

ngram = [(BigramAssocMeasures(),BigramCollocationFinder),
         (TrigramAssocMeasures(),TrigramCollocationFinder),
         (QuadgramAssocMeasures(),QuadgramCollocationFinder)]

okt= Okt()# loading tagger
nouns = []
for sen in data:
    token = okt.morphs(sen, stem = True) # get nouns
    token = [word for word in token if not word in stopwords] 
    nouns.append(token)
    


In [3]:
founds_from_4measure = []
for i in range(0,len(nouns)):
    for measure, finder in ngram:
        finder = finder.from_words(nouns[i])
        founds = finder.nbest(measure.pmi, 10)       # pmi - 상위 10개 추출
        founds += finder.nbest(measure.chi_sq, 10)   # chi_sq - 상위 10개 추출
        founds += finder.nbest(measure.mi_like, 10)  # mi_like - 상위 10개 추출
        founds += finder.nbest(measure.jaccard, 10)  # jaccard - 상위 10개 추출

        founds_from_4measure += founds

collocations = [' '.join(collocation) for collocation in founds_from_4measure]
collocations = [(w,f) for w,f in Counter(collocations).most_common() if f > 2]
pprint(collocations)


[('금융감독원 전 자공시', 84),
 ('개발 증권', 80),
 ('거래소 데이터', 80),
 ('국민일보 엠로보', 80),
 ('금융감독원 전', 80),
 ('개발 증권 뉴스', 80),
 ('거래소 데이터 토대', 80),
 ('국민일보 엠로보 개발', 80),
 ('기사 국민일보 엠로보', 80),
 ('기자 기사 국민일보', 80),
 ('개발 증권 뉴스 전용', 80),
 ('거래소 데이터 토대 작성', 80),
 ('국민일보 엠로보 개발 증권', 80),
 ('금융감독원 전 자공시 시스템', 80),
 ('기사 국민일보 엠로보 개발', 80),
 ('기자 기사 국민일보 엠로보', 80),
 ('경 영', 79),
 ('뉴스 전용 인공 지능', 76),
 ('기자 기사', 75),
 ('뉴스 전용 인공', 72),
 ('기사 국민일보', 71),
 ('경영 권', 64),
 ('더욱 풍부하다 정확하다 내용', 64),
 ('내용 담다 가다', 60),
 ('기간산업 안정 기금', 60),
 ('같다 기간', 57),
 ('기 내', 54),
 ('감염증 코로나', 52),
 ('수 있다', 49),
 ('내용 담다', 45),
 ('권 부여', 45),
 ('거래량 주', 44),
 ('감염증 코로나 사태', 44),
 ('공원 화', 43),
 ('권 분쟁', 42),
 ('계약 체결', 42),
 ('더욱 풍부하다 정확하다', 40),
 ('내 면세 품', 40),
 ('계 열사', 38),
 ('기내 면세점', 37),
 ('거래량 주로', 36),
 ('거래량 주로 직전', 36),
 ('거래량 주로 직전 거래', 36),
 ('기 내 면세', 36),
 ('기 내 면세 품', 35),
 ('경영 권 분쟁', 34),
 ('기간산업 안정', 34),
 ('가액 만원', 34),
 ('내 면세 품 판매', 33),
 ('지 분', 32),
 ('감염증 코로', 30),
 ('경 영 난', 30),
 ('년 동기', 28),
 ('마감 

 ('사회 적 거리 두기', 4),
 ('서울 공항동 본사 격납고', 4),
 ('선반 모니터 안전벨트 손', 4),
 ('안전벨트 손 걸레 닦다', 4),
 ('가다 주요', 4),
 ('간 독점', 4),
 ('개발 주도 권', 4),
 ('경쟁 이후 차', 4),
 ('과연 누구 수가', 4),
 ('년 간 독점', 4),
 ('대한 완전하다 이해', 4),
 ('돼다 올해 만도', 4),
 ('먹히다 지다 주목', 4),
 ('부회장 새롭다 나오다', 4),
 ('비즈니스 창 추다', 4),
 ('사가 여신 관리', 4),
 ('경쟁 이후 차 전이', 4),
 ('돼다 올해 만도 대한항공', 4),
 ('비즈니스 창 추다 여부', 4),
 ('선정 돼다 올해 만도', 4),
 ('안나 과연 누구 수가', 4),
 ('앞서 년 간 독점', 4),
 ('이베이 코리아 손잡다 스마일', 4),
 ('이후 차 전이 불가피하다', 4),
 ('차 전이 불가피하다 보고', 4),
 ('차이 안나 과연 누구', 4),
 ('대비 수준', 4),
 ('디스플레이 패널', 4),
 ('맥 중국', 4),
 ('수준 이다', 4),
 ('업체 오다', 4),
 ('일 공시', 4),
 ('장비 공급', 4),
 ('대비 수준 이다', 4),
 ('중국 디스플레이 패널', 4),
 ('최근 매출 액', 4),
 ('케이 맥 중국', 4),
 ('패널 업체 오다', 4),
 ('공급 계약 체결', 4),
 ('중국 디스플레이 패널 업체', 4),
 ('케이 맥 중국 디스플레이', 4),
 ('규모 최근 매출 액', 4),
 ('기자 케이 맥 중국', 4),
 ('대비 수준 이다 김효진', 4),
 ('매출 액 억원 대비', 4),
 ('금융 호스', 4),
 ('금호 에이치', 4),
 ('나인 우진', 4),
 ('니스 씨티', 4),
 ('금융 호스 팩', 4),
 ('나인 우진 비', 4),
 ('네이쳐 홀딩스 한국', 4),
 ('니스 씨티 씨', 4),
 ('더 네

 ('못 미치다', 3),
 ('보다 그나마', 3),
 ('보이다 가운데', 3),
 ('불과하다 여름', 3),
 ('김자현 기자', 3),
 ('네이버 셀트리온', 3),
 ('높이다 원', 3),
 ('대 장주', 3),
 ('대다 떨어지다', 3),
 ('코로나 여파', 3),
 ('개월 시간', 3),
 ('경기 김포', 3),
 ('계획 차차', 3),
 ('개살구 라는', 3),
 ('걸다 잠', 3),
 ('경쟁 심화', 3),
 ('고개 가로', 3),
 ('근후 제주', 3),
 ('급감 집계', 3),
 ('국내선 보다', 3),
 ('기다리다 사람', 3),
 ('김병덕 기자', 3),
 ('개다 비대', 3),
 ('급락 올해', 3),
 ('기업인 네이버', 3),
 ('가가 부담', 3),
 ('각 국가', 3),
 ('각각 사이트', 3),
 ('각종 특혜', 3),
 ('간편하다 확인', 3),
 ('강세 소', 3),
 ('과의 거리', 3),
 ('국가 법령', 3),
 ('게임 금융', 3),
 ('맥코 디엠', 3),
 ('개점휴업 이라는', 3),
 ('경제 고용', 3),
 ('국가 안보', 3),
 ('국민 경제', 3),
 ('감소 경', 3),
 ('부터 반 년 간', 3),
 ('수가 인 상이 어', 3),
 ('공주 빼다', 3),
 ('국내 시가총액', 3),
 ('금호 석유', 3),
 ('급증 년도', 3),
 ('게 그나마', 3),
 ('경영 체제', 3),
 ('국제 전', 3),
 ('기다 커녕', 3),
 ('가구 및', 3),
 ('가파른 점', 3),
 ('각각 내리다', 3),
 ('갈등 최고', 3),
 ('개 미만', 3),
 ('개국 세계', 3),
 ('경쟁력 떨어지다', 3),
 ('계 위인', 3),
 ('내다 밖에도', 3),
 ('다년 스웨덴', 3),
 ('단일 팀', 3),
 ('대한항공 엑설런스', 3),
 ('돼다 전날', 3),
 ('때 까지', 3),
 ('개발 추

In [4]:
founds_from_4measure = []
for measure, finder in ngram:
        finder = finder.from_words(nouns[1])
        founds = finder.nbest(measure.pmi, 10)       # pmi - 상위 10개 추출
        founds += finder.nbest(measure.chi_sq, 10)   # chi_sq - 상위 10개 추출
        founds += finder.nbest(measure.mi_like, 10)  # mi_like - 상위 10개 추출
        founds += finder.nbest(measure.jaccard, 10)  # jaccard - 상위 10개 추출

        founds_from_4measure += founds

collocations = [' '.join(collocation) for collocation in founds_from_4measure]
collocations = [(w,f) for w,f in Counter(collocations).most_common() if f > 2]
pprint(collocations)


[('고사 직 전일', 4),
 ('관련 업종 취급', 4),
 ('기 저 비용', 4),
 ('대거 줄 도산', 4),
 ('도산 행 발생', 4),
 ('모르다 터 라', 4),
 ('부채 비율 훌쩍', 4),
 ('불확실 성 제거', 4),
 ('비율 훌쩍 넘기다', 4),
 ('고사 직 전일 뿐', 4),
 ('관련 업종 취급 제한', 4),
 ('기 저 비용 항공사', 4),
 ('대거 줄 도산 행', 4),
 ('모르다 터 라 선뜻', 4),
 ('부채 비율 훌쩍 넘기다', 4),
 ('비율 훌쩍 넘기다 지난해', 4),
 ('연 기 저 비용', 4),
 ('전일 뿐 아니다 주요', 4),
 ('줄 도산 행 발생', 4),
 ('가량 연기', 3),
 ('고사 직', 3),
 ('관계자 대한항공', 3),
 ('관련 업종', 3),
 ('기 저', 3),
 ('난항 겪다', 3),
 ('넘기다 지난해', 3),
 ('대거 줄', 3),
 ('대주 주인', 3),
 ('공모 방식', 3)]
