# 데이터의 텍스트 마이닝

## 텍스트 마이닝을 위한 환경설정

In [38]:
import pandas as pd
import re
import time

import warnings
warnings.filterwarnings('ignore')

## 자료별로 사용한 함수들
* regular_cleaner(d, c) :  데이터에서 필요한 부분을 숫자와 한글만 남기고 모두 제거
    * d : dataframe, c : column


* test(s) : text에서 한글과 띄어쓰기만 남기고 표현 / 정규식만 표현
    * s : text

In [29]:
# 영어 특수문자 제거
def regular_cleaner(d, c):
    for i in range(len(d[c])):
        try:
            d[c][i] = re.sub('[^ 0-9|ㄱ-힗]+','',d[c][i])
            
        except:
            print(i)

In [30]:
# 텍스트 클리닝 함수
def test(s):
    hangul = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글과 띄어쓰기를 제외한 모든 글자
    # hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+')  # 위와 동일
    result = hangul.sub('', s) # 한글과 띄어쓰기를 제외한 모든 부분을 제거
    print (result)

    result = hangul.findall(s) # 정규식에 일치되는 부분을 리스트 형태로 저장
    print (result)

## 데이터 불러오기

In [31]:
df_text_ori = pd.read_csv('./data/최종.csv')

In [32]:
df_text = df_text_ori.copy()

내용 column에서 정규식을 제외함

In [33]:
regular_cleaner(df_text, '내용')

한국어 마이닝에 가장 최적화된 Kkma 모델 사용
- https://konlpy-ko.readthedocs.io/ko/v0.4.3/ 참고

In [34]:
from konlpy.tag import Kkma
from konlpy.utils import pprint
import io

kkma = Kkma()

In [39]:
# from konlpy.tag import Twitter
# twitter = Twitter()

# twitter.phrases(df_all['내용'][0])
# twitter.pos(df_all['내용'][0], norm=True, stem=True)

# from konlpy.tag import Hannanum
# hannanum = Hannanum()
# hannanum.nouns(df_all['내용'][0])
# hannanum.pos(df_all['내용'][0])

내용에서 총 상금 정보를 획득하기 위해 상금 정보만 도출

In [40]:
df_text['상금추출'] =''
p = len(df_text) - 1
for j in range(0, p):
    st_time = time.time()
    s = io.StringIO()
    pprint(kkma.sentences(df_text['내용'][j]), s)
    money_list = list(filter(lambda x : '만원' in s.getvalue().split('\n')[x]
                             or '달러' in s.getvalue().split('\n')[x]
                             or '은상' in s.getvalue().split('\n')[x]
                             or '최우수상' in s.getvalue().split('\n')[x]
                             or '금상' in s.getvalue().split('\n')[x]
                             or '특별상' in s.getvalue().split('\n')[x]
                             or '상장' in s.getvalue().split('\n')[x]
                             or '입상구분' in s.getvalue().split('\n')[x]
                             or '시상금' in s.getvalue().split('\n')[x]
                             , range(len(s.getvalue().split('\n')))))
    for i in money_list:
        df_text['상금추출'][j] += (s.getvalue().split('\n')[i])
 
    if j%10 == 0 :
        ed_time = time.time() - st_time
        print('\r남은 개수 :',j,'/',p,'\t\t남은 시간 :',round(ed_time*(p-j-1),2), '\t\t', end='')

남은 개수 : 14440 / 14448 		남은 시간 : 1.44 					

데이터가 너무 크므로 작은 표본에서 확인

In [41]:
df_check = df_text[:100]

In [47]:
df_check['내용'][0]

' 국립대한민국임시정부기념관대국민 아이디어 공모 응모 자격 응모자격  제한 없음 개인 또는 3인 이하 팀지역 연령제한 없이 가능공모 주제 국민들이 생각하는 대한민국 임시정부 과거그리고 미래공모 구분건축물 디자인 분야 내가 생각하는 국립대한민국임시정부기념관의 모습은 대한민국임시정부를 기릴 수 있는 스토리 있는 기념관의 모습을 제안 디자인 컨셉 공간 구성 요소 등 아이디어형태의 국민들이 기대생각하는 기념관의 모습전시 콘텐츠 기획 분야 내가 국립대한민국임시정부기념관에서 보고 느끼고 체험하고 싶은 것은 국립대한민국임시정부기념관의 전시 콘텐츠를 자유롭게 표현 임시정부 시기의 역사상을 보여줄 수 있는 전시 구성 기법 등 제안시상 내역건축물 디자인 분야  총  12개팀 480만원 국가보훈처장 명의 상장수여전시 콘텐츠 기획 분야 총  12개팀 480만원 국가보훈처장 명의 상장수여  응모 일정 접수기간  2018 1 29 월  3 12 월 심사일자  2018 3 15 목 발표일자  2018 3 20 화 심사결과 및 당선작은 공모 홈페이지 공개 및 개인통보 예정 시상식  2018 3 28 수 제출 방법건축물 디자인 분야 이미지3와 참가신청서를 포함한 설명글4 2매 이내를 그려 디지털 파일로 제출 이미지의 형태는 디지털 이미지 혹은 스케치 그림 콜라주 형태 제한 없이 응모 가능172192522981658 172192522981658전시 콘텐츠 기획 분야 참가신청서 제출물은 디지털 파일로 제출 별도 양식 없음 4 3매 이내 접수 방법 공모전 홈페이지   유의 사항 모든 부문에 대한 응모는 온라인만 가능합니다 우편 및 방문 접수 불가 각 부문별 및 부문간 중복 응모 및 당첨이 가능합니다 건축물 디자인부문과 전시 콘텐츠 기획부문은 참가신청서를포함한 제출안양식 없음을 모두 제출하셔야 합니다 응모작에 대한 저작권은 응모자에게 있으며 주최 측은 수상작에 한하여 별도 협의없이 수상작에 대한 발표일로부터 1년 간 본 공모전의 취지 및 목적을 달성하기 위해 필요한 한도 내에서시각화 및 복제배포할

본격적으로 상금만 추출

In [56]:
def prized(data, part):
    data['상금'] = ''
    want = re.compile('[ㄱ-힗]*[0-9]+[ㄱ-힗]+')
    for i in range(len(data[part])):
        data['상금'][i] = want.findall(data[part][i])

In [57]:
prized(df_text, '내용')

In [58]:
df_text['상금'][7]

['1회저탄소',
 '13학년',
 '참여가능개인팀4인',
 '통합대상1팀인농림축산식품부',
 '200만원',
 '부문우수상2인농업기술실용화재단',
 '80만원',
 '부상장려상2인농업기술실용화재단',
 '30만원',
 '부문우수상2팀인농업기술실용화재단',
 '80만원',
 '부상장려상2팀인농업기술실용화재단',
 '30만원',
 '22월',
 '28수',
 '12월',
 '16금',
 '200자내외',
 '4붙임',
 '3붙임',
 '1분',
 '첨부2를',
 '이메일2018에',
 '1인',
 '1팀의',
 '07082558970평일',
 '2018작품제출']