<a href="https://colab.research.google.com/github/aabchyein/toy_dcx_data_analytics/blob/main/data_analytics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('./total_db.csv')
df[:5]

Unnamed: 0.1,Unnamed: 0,writer,date,review
0,0,스타트업 · v*******,작성일\n08.17,왜 그렇게 말씀 하신지 물어봐도 될까요? 저도 디스크로 고생하고 있는데 한약치료를 ...
1,1,새회사 · l*********\n작성자,작성일\n01.06,복근은 그럼 뭐로해야할까\n나 헹레레 조아하는데..
2,2,국민건강보험공단\n· !*********,작성일\n2020.10.10.,터지면 상태가 어때?
3,3,국민건강보험공단\n· !*********,작성일\n2021.03.27.,허리조심...
4,4,국민건강보험공단\n· !*********,작성일\n2022.08.26.,나으셨나요


#### 결측치 처리

In [26]:
# null값 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1803 entries, 0 to 1802
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  1803 non-null   int64 
 1   writer      1803 non-null   object
 2   date        1803 non-null   object
 3   review      1801 non-null   object
dtypes: int64(1), object(3)
memory usage: 56.5+ KB


In [28]:
# null값 삭제
df.dropna(inplace=True)

In [29]:
df.isnull().sum(0)

Unnamed: 0    0
writer        0
date          0
review        0
dtype: int64

In [None]:
# !pip install python-mecab-ko pyLDAvis

In [30]:
from mecab import MeCab
mecab = MeCab()

In [31]:
review_list = list(df['review'])
review_list[:5]

['왜 그렇게 말씀 하신지 물어봐도 될까요? 저도 디스크로 고생하고 있는데 한약치료를 받을지 신경주사를 한 번 더 맞을지 고민되서요.',
 '복근은 그럼 뭐로해야할까\n나 헹레레 조아하는데..',
 '터지면 상태가 어때?',
 '허리조심...',
 '나으셨나요']

In [32]:
# 품사 달기
mecab.pos(review_list[0])

[('왜', 'MAG'),
 ('그렇게', 'MAG'),
 ('말씀', 'NNG'),
 ('하', 'VV'),
 ('신지', 'EP+EC'),
 ('물어봐도', 'VV+EC'),
 ('될까요', 'VV+EF'),
 ('?', 'SF'),
 ('저', 'NP'),
 ('도', 'JX'),
 ('디스크', 'NNG'),
 ('로', 'JKB'),
 ('고생', 'NNG'),
 ('하', 'XSA'),
 ('고', 'EC'),
 ('있', 'VX'),
 ('는데', 'EC'),
 ('한', 'MM'),
 ('약치료', 'NNG'),
 ('를', 'JKO'),
 ('받', 'VV'),
 ('을지', 'EC'),
 ('신경', 'NNG'),
 ('주사', 'NNG'),
 ('를', 'JKO'),
 ('한', 'MM'),
 ('번', 'NNBC'),
 ('더', 'MAG'),
 ('맞', 'VV'),
 ('을지', 'EC'),
 ('고민', 'NNG'),
 ('되', 'XSV'),
 ('서요', 'EP+EF'),
 ('.', 'SF')]

#### 불용어, 한단어 처리
- 불용어, 한단어 사전 이용

In [45]:
df_stopwords = pd.read_excel('./stopword_list.xlsx')
# df_stopwords = pd.read_excel('../../datasets/stopword_list.xlsx')
df_stopwords[:2]

Unnamed: 0,stopword
0,가까스로
1,가량


In [40]:
# 불용어 사전
stopwords=df_stopwords['stopword'].values

# 불용어 제거
def remove_stopwords(review_list):
  pos_result = mecab.morphs(review_list) # 형태소 분석 결과

  # 불용어 제거된 단어를 저장할 리스트 초기화
  filtered_words= []

  for word in pos_result:
    if len(word) > 1 and word not in stopwords: # 단어가 불용어가 아닌, 한 단어 이상인 경우에만 추가
      filtered_words.append(word)
  return filtered_words

In [41]:
tokenized_reviews = list()
for reviews in review_list:
  reviews_morphs = remove_stopwords(reviews)
  tokenized_reviews.append(' '.join(reviews_morphs))
print(tokenized_reviews)



In [50]:
df['tokenized_review'] = df['review'].apply(remove_stopwords)
df[:2]

Unnamed: 0.1,Unnamed: 0,writer,date,review,stopword_review,tokenized_review
0,0,스타트업 · v*******,작성일\n08.17,왜 그렇게 말씀 하신지 물어봐도 될까요? 저도 디스크로 고생하고 있는데 한약치료를 ...,"[그렇게, 말씀, 신지, 물어봐도, 될까요, 디스크, 약치료, 을지, 신경, 주사,...","[그렇게, 말씀, 신지, 물어봐도, 될까요, 디스크, 약치료, 을지, 신경, 주사,..."
1,1,새회사 · l*********\n작성자,작성일\n01.06,복근은 그럼 뭐로해야할까\n나 헹레레 조아하는데..,"[복근, 해야, 할까, 조아]","[복근, 해야, 할까, 조아]"


#### 대체어 처리
- 대체어 사전 이용

In [46]:
df_replace_list = pd.read_excel('./replace_list.xlsx')
#df_replace_list = pd.read('../../../datasets/replace_list.xlsx')
df_replace_list[:2]

Unnamed: 0,before_replacement,after_replacement
0,S헬스,삼성헬스
1,LG폰,스마트폰


In [48]:
def replace_word(tokenized_reviews) :
  replaced_review = str()
  for i in range(len(df_replace_list['before_replacement'])):
      # 치환할 단어가 있는 경우 데이터 치환
      if df_replace_list['before_replacement'][i] in tokenized_reviews:
        replaced_review = tokenized_reviews.replace(df_replace_list['before_replacement'][i], df_replace_list['after_replacement'][i])
      # 치환할 단어가 없는 경우 그대로 뱉어냄
      else :
        replaced_review = tokenized_reviews
  return replaced_review

In [51]:
df['preprocess_review'] = df['tokenized_review'].apply(replace_word)
df[:2]

AttributeError: ignored