## Import

In [1]:
# 데이터 분석
import pandas as pd
import numpy as np

In [2]:
# 시각화
import seaborn as sns
import matplotlib.pyplot as plt
import koreanize_matplotlib

In [3]:
# 정규표현식
import re

In [4]:
# 형태소분석 okt
from konlpy.tag import Okt
okt = Okt()

## 파일 불러오기

In [5]:
df = pd.read_csv('review_data_2t.csv', encoding='utf-8')
df

Unnamed: 0,review,시설분류
0,?,문화
1,친절해요,문화
2,좋아요 만족스러워요,문화
3,와우~~,문화
4,굿,문화
...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원
141251,친절하십니다,동물병원
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원


## 함수

In [None]:
# # 형태소분석 - okt
# okt_pos = okt.pos(df['review'].iloc[0])
# okt_pos

### 한글만 추출 함수

In [19]:
# 한글만 추출 + 2개이상 공백 1개로 변환
def extract_korean(text):
    # 한글만 추출
    text = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]',' ',text)
    # 공백 2개 이상인 경우 1개로 변환
    text = re.sub(r'\s+',' ',text)
    return text


### 형용사, 동사, 명사, 감탄사 추출 함수

In [34]:
# 형용사 추출하기
def get_adjectives(text):
    okt = Okt() # okt 객체 생성
    okt_pos = okt.pos(text)
    join_text = []
    for text, pos in okt_pos:
        if pos == 'Adjective': # 형용사만 추출
            join_text.append(text)
    return " ".join(join_text)

In [31]:
# 동사 추출하기
def get_verb(text):
    okt = Okt() # okt 객체 생성
    okt_pos = okt.pos(text)
    join_text = []
    for text, pos in okt_pos:
        if pos == 'Verb':
            join_text.append(text)
    return " ".join(join_text)

In [32]:
# 명사 추출하기
def get_nouns(text):
    okt = Okt()  # okt 객체 생성
    okt_nouns = okt.nouns(text)
    return " ".join(okt_nouns)

In [40]:
# 감탄사 추출하기
def get_exclamation(text):
    okt = Okt() # okt 객체 생성
    okt_pos = okt.pos(text)
    join_text = []
    for text, pos in okt_pos:
        if pos == 'Exclamation':
            join_text.append(text)
    return " ".join(join_text)

## 한글만 추출 (review2 생성)

In [21]:
df['review2'] = df['review'].map(lambda review:extract_korean(review))

In [22]:
df

Unnamed: 0,review,시설분류,review2
0,?,문화,
1,친절해요,문화,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요
3,와우~~,문화,와우
4,굿,문화,굿
...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다
141251,친절하십니다,동물병원,친절하십니다
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...


## 파생컬럼 생성

In [18]:
# 시간이 오래 걸리는 작업시 시각적으로 진행상황 수치로( %) 보여준다.
from tqdm import tqdm
tqdm.pandas()

In [25]:
df['형용사'] = df['review'].progress_map(extract_korean).progress_map(get_adjectives)

100%|██████████████████████████████████████████████████████████████████████| 141254/141254 [00:00<00:00, 193246.61it/s]
100%|█████████████████████████████████████████████████████████████████████████| 141254/141254 [06:01<00:00, 390.60it/s]


In [26]:
df

Unnamed: 0,review,시설분류,review2,형용사
0,?,문화,,
1,친절해요,문화,친절해요,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요
3,와우~~,문화,와우,
4,굿,문화,굿,
...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,
141251,친절하십니다,동물병원,친절하십니다,친절하십니다
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데


In [35]:
df['동사'] = df['review'].progress_map(extract_korean).progress_map(get_verb)

100%|██████████████████████████████████████████████████████████████████████| 141254/141254 [00:00<00:00, 190603.81it/s]
100%|█████████████████████████████████████████████████████████████████████████| 141254/141254 [05:42<00:00, 412.74it/s]


In [36]:
df

Unnamed: 0,review,시설분류,review2,형용사,동사
0,?,문화,,,
1,친절해요,문화,친절해요,친절해요,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,
3,와우~~,문화,와우,,
4,굿,문화,굿,,
...,...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋,해서 갔어요 만져 살펴보시더니 먹어도 되겠다고 하셔서 맞고 왔는데 졌어요
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,,데려온 세세하게 봐주셔서 드립니다
141251,친절하십니다,동물병원,친절하십니다,친절하십니다,
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데,봐주세요 챙겨주시고 가자고하니 따라가네요 해주신 좋아졌어요


In [37]:
df['명사'] = df['review'].progress_map(extract_korean).progress_map(get_nouns)

100%|██████████████████████████████████████████████████████████████████████| 141254/141254 [00:00<00:00, 187559.27it/s]
100%|█████████████████████████████████████████████████████████████████████████| 141254/141254 [05:35<00:00, 420.91it/s]


In [38]:
df

Unnamed: 0,review,시설분류,review2,형용사,동사,명사
0,?,문화,,,,
1,친절해요,문화,친절해요,친절해요,,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,
3,와우~~,문화,와우,,,와우
4,굿,문화,굿,,,굿
...,...,...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋,해서 갔어요 만져 살펴보시더니 먹어도 되겠다고 하셔서 맞고 왔는데 졌어요,설사 병원 배 보고 약 주사 집 그다음 날
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,,데려온 세세하게 봐주셔서 드립니다,저희 천사 곳 중성 혈액 검사 전부 늘 감사
141251,친절하십니다,동물병원,친절하십니다,친절하십니다,,
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데,봐주세요 챙겨주시고 가자고하니 따라가네요 해주신 좋아졌어요,진료 진료 후 간식 선생님 산책 요미 처방 습진 약 눈꼽끼는


In [41]:
df['감탄사'] = df['review'].progress_map(extract_korean).progress_map(get_exclamation)

100%|██████████████████████████████████████████████████████████████████████| 141254/141254 [00:00<00:00, 192380.72it/s]
100%|█████████████████████████████████████████████████████████████████████████| 141254/141254 [05:48<00:00, 404.98it/s]


In [42]:
df

Unnamed: 0,review,시설분류,review2,형용사,동사,명사,감탄사
0,?,문화,,,,,
1,친절해요,문화,친절해요,친절해요,,,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,,
3,와우~~,문화,와우,,,와우,
4,굿,문화,굿,,,굿,
...,...,...,...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋,해서 갔어요 만져 살펴보시더니 먹어도 되겠다고 하셔서 맞고 왔는데 졌어요,설사 병원 배 보고 약 주사 집 그다음 날,아
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,,데려온 세세하게 봐주셔서 드립니다,저희 천사 곳 중성 혈액 검사 전부 늘 감사,
141251,친절하십니다,동물병원,친절하십니다,친절하십니다,,,
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데,봐주세요 챙겨주시고 가자고하니 따라가네요 해주신 좋아졌어요,진료 진료 후 간식 선생님 산책 요미 처방 습진 약 눈꼽끼는,


### 결측치 확인

In [43]:
df.isnull().sum()

review     0
시설분류       0
review2    0
형용사        0
동사         0
명사         0
감탄사        0
dtype: int64

### 데이터의 값이 공백인거 NaN으로 변경

In [44]:
# 데이터값이 공백인거 NaN으로 변경
df_NanTest = df.replace(r'^\s*$', np.nan, regex=True)

In [45]:
df_NanTest

Unnamed: 0,review,시설분류,review2,형용사,동사,명사,감탄사
0,?,문화,,,,,
1,친절해요,문화,친절해요,친절해요,,,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,,
3,와우~~,문화,와우,,,와우,
4,굿,문화,굿,,,굿,
...,...,...,...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋,해서 갔어요 만져 살펴보시더니 먹어도 되겠다고 하셔서 맞고 왔는데 졌어요,설사 병원 배 보고 약 주사 집 그다음 날,아
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,,데려온 세세하게 봐주셔서 드립니다,저희 천사 곳 중성 혈액 검사 전부 늘 감사,
141251,친절하십니다,동물병원,친절하십니다,친절하십니다,,,
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데,봐주세요 챙겨주시고 가자고하니 따라가네요 해주신 좋아졌어요,진료 진료 후 간식 선생님 산책 요미 처방 습진 약 눈꼽끼는,


In [46]:
df_NanTest.isnull().sum()

review          9
시설분류            0
review2      4927
형용사         39911
동사          81272
명사          47390
감탄사        140012
dtype: int64

### review2(한글만 남긴 리뷰)의 컬럼 데이터가 NaN이면 제거

In [47]:
df_NanTest.dropna(subset=['review2'], inplace=True)

In [48]:
df_NanTest.isnull().sum()

review          0
시설분류            0
review2         0
형용사         34984
동사          76345
명사          42463
감탄사        135085
dtype: int64

## 저장

In [49]:
df_NanTest.to_csv('review_data_파생컬럼추가.csv', index=False, encoding='utf-8-sig')