# [프로젝트1] 고객 상담 기록 자연어 데이터 불러오기 및 전처리 진행

---


## 프로젝트 목표
---
- 프로젝트에서 진행하는 고객 상담 기록 자연어 데이터 불러오기
- 고객 상담 기록 데이터 분석하기
- 고객 상담 기록 데이터 중 자연어 데이터 부분 전처리 진행하기


## 프로젝트 목차
---

1. **자연어 데이터 불러오기:** 프로젝트에서 사용하는 라이브러리를 설치 및 불러오고, 고객 상담 기록 데이터를 불러옵니다.

2. **고객 상담 기록 데이터 분석하기:** 프로젝트에서 사용하는 데이터를 분석합니다.

3. **자연어 데이터 전처리 진행하기:** 데이터 중 자연어 데이터에 대한 전처리를 진행합니다.


## 프로젝트 개요
---

본 실습에서는 분석을 진행하기 전, 데이터를 불러오고 분석해보도록 하겠습니다.

이를 위하여 필요한 라이브러리를 설치 및 불러오고 그 중 `pandas` 라이브러리를 통하여 csv 파일로 저장되어 있는 데이터를 불러오고 라이브러리의 내장 함수를 통하여 데이터를 분석해봅니다.

마지막으로 데이터 중 자연어로 되어있는 데이터에 대하여 자연어 데이터 전처리 기법을 적용해봅니다.

## 1. 자연어 데이터 불러오기

---

### 1.1. 라이브러리 설치 및 불러오기



본 실습 코드는 Python 기반으로 작성되어 있으며 실습에 필요한 Python Package를 아래와 같이 설치 및 불러옵니다.

In [1]:
import pandas as pd

### 1.2. 데이터 불러오기
---

csv 파일을 pandas DataFrame 형태로 불러옵니다.

In [2]:
# csv 파일 불러오기
data = pd.read_csv('./01_data.csv', encoding='cp949')
data.head()  # 데이터 상위 5개 행 출력

Unnamed: 0,id,상담유형1_상담사,상담유형2_상담사,상담유형3_상담사,HDVoice단말여부,메모,상담유형1_GT,상담유형2_GT,상담유형3_GT
0,545,통화품질,HD Voice품질,음질불량,Y,"[HDV][원클릭-양호](L-시설공급) 1. 상세증상 : 통화, 문자 수신 실패...",통화품질,HD Voice품질,발수신불가
1,6079,통화품질,HD Voice품질,음질불량,Y,[코로나양해][HDV][원클릭-양호](L-시설공급) 1. 상세증상 : - 이사이후 ...,통화품질,HD Voice품질,호단절
2,4171,통화품질,HD Voice품질,발신불가,Y,- 방금전부터 위치무관 수신은 되나 발신이 안된다고 함 - 전원재부팅 해도 동일 -...,통화품질,HD Voice품질,수신불가
3,6435,통화품질,HD Voice품질,발수신불가,Y,(중계기 A/S요청) 1. A/S희망일시 : 담당자 방문전 연락드림안내 2. 추...,통화품질,HD Voice품질,호단절
4,5382,통화품질,HD Voice품질,음질불량,Y,[HDV] (중계기AS요청) 1. A/S희망일시(시간준수/협의가능): 방문전 방문일...,통화품질,HD Voice품질,음질불량


## 2. 고객 상담 기록 데이터 분석하기

---

Pandas Dataframe으로 불러온 데이터를 간단히 분석해 봅시다.



In [3]:
num_examples = len(data)  # 데이터 행 개수

In [4]:
print('열 정보 : ', data.columns) # 열 정보

열 정보 :  Index(['id', '상담유형1_상담사', '상담유형2_상담사', '상담유형3_상담사', 'HDVoice단말여부', '메모',
       '상담유형1_GT', '상담유형2_GT', '상담유형3_GT'],
      dtype='object')


In [5]:
label_list = data['상담유형3_GT'].unique().tolist()  # '상담유형3_GT' 열 클래스 종류
print('라벨 종류 : ', label_list)

라벨 종류 :  ['발수신불가', '호단절', '수신불가', '음질불량', '발신불가', '속도저하', '3G천이', '초기접속불가', '데이터 사용중 끊김', 'MMS', '기업형메시지(금융권인증SMS)', '단문메세지(SMS)', '통화중대기', '이설요청/철거요청', '통품상담성', '기타 Application', 'T제공 어플', '카카오']


In [6]:
train_labels = data['상담유형3_GT'].apply(label_list.index).tolist() # 한국어로 써 있는 라벨을 숫자로 변경
print('데이터 개수 : ', len(train_labels))
print('데이터 한국어 라벨 첫 10개 : \n', data['상담유형3_GT'][:10])
print('데이터 숫자 라벨 첫 10개 : ', train_labels[:10])

데이터 개수 :  5000
데이터 한국어 라벨 첫 10개 : 
 0    발수신불가
1      호단절
2     수신불가
3      호단절
4     음질불량
5     음질불량
6    발수신불가
7    발수신불가
8    발수신불가
9      호단절
Name: 상담유형3_GT, dtype: object
데이터 숫자 라벨 첫 10개 :  [0, 1, 2, 1, 3, 3, 0, 0, 0, 1]


In [7]:
train_texts = data['메모'].tolist() # 자연어 데이터를 리스트 형식으로 변환합니다
print('데이터 개수 : ', len(train_texts))
print('예시 메모 데이터 : ', train_texts[0])

데이터 개수 :  5000
예시 메모 데이터 :  [HDV][원클릭-양호](L-시설공급)  1. 상세증상 :  통화, 문자 수신 실패 . 발신정상.  데이터 지연 불량.   / 타지역정상.  2. SKT 타폰 비교 : 비교못함.  3. 내부품질 : 불량 4. 외부품질 : 양호 5. 상담원 조치 사항 : HDV,3G 모두 활성화 되어있어 IMS 초기화 실행 전원 재부팅.  6. 추가 연락처 :   7. 기타 전달사항 : 중계이 없음.


## 3. 자연어 데이터 전처리 진행하기

---

### 3.1 한국어 데이터 전처리 모듈 불러오기


In [8]:
import re
from konlpy.tag import Okt

### [TODO] 전처리 함수에서 불용어 처리를 진행하는 코드를 작성하세요.
- 토큰화과 완료된 `text_token`에서 리스트 형태로 불용어가 적혀있는 `stopword`를 활용하여 불용어를 제거하세요.

In [9]:
def preprocess(text, tokenizer, stopword=None):
    # 정제: 한글, 공백 제외한 문자 제거
    text_cleaning = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]', '', text)
    
    # 토큰화
    text_token = tokenizer.morphs(text_cleaning, stem=True)
    
    # 불용어 처리
    if stopword is not None:
        text_token_stop = [token for token in text_token if not token in stopword] # 불용어 처리가 완료된 토큰화된 텍스트
    return text_cleaning, text_token, text_token_stop

### [TODO] 위에서 작성한 전처리 함수를 활용하여 고객 상담 기록 데이터를 전처리하는 코드를 작성하세요.

In [11]:
tokenizer = Okt()
stopword = ['은','는','이','가','하','아','것','들','의','있','되','수','보','주','등','한']
train_texts_cleaning = []
train_texts_token = []
train_texts_token_stop = []
num_train_texts = len(train_texts) # 학습 텍스트 데이터의 개수
for i in range(num_train_texts):
    text_clean, text_token, text_token_stop = preprocess(train_texts[i], tokenizer, stopword) # 전처리 함수를 사용하여 나온 결과물
    train_texts_cleaning.append(text_clean)
    train_texts_token.append(text_token)
    train_texts_token_stop.append(text_token_stop)

전처리가 어떻게 진행되었는지 확인할 수 있습니다.

In [12]:
print('전처리 전 : ', train_texts[0])
print('='*50)
print('정제 후 : ', train_texts_cleaning[0])
print('='*50)
print('토큰화 후 : ', train_texts_token[0])
print('='*50)
print('불용어 처리 후 : ', train_texts_token_stop[0])

전처리 전 :  [HDV][원클릭-양호](L-시설공급)  1. 상세증상 :  통화, 문자 수신 실패 . 발신정상.  데이터 지연 불량.   / 타지역정상.  2. SKT 타폰 비교 : 비교못함.  3. 내부품질 : 불량 4. 외부품질 : 양호 5. 상담원 조치 사항 : HDV,3G 모두 활성화 되어있어 IMS 초기화 실행 전원 재부팅.  6. 추가 연락처 :   7. 기타 전달사항 : 중계이 없음.
정제 후 :  원클릭양호시설공급   상세증상   통화 문자 수신 실패  발신정상  데이터 지연 불량    타지역정상    타폰 비교  비교못함   내부품질  불량  외부품질  양호  상담원 조치 사항   모두 활성화 되어있어  초기화 실행 전원 재부팅   추가 연락처     기타 전달사항  중계이 없음
토큰화 후 :  ['원클릭', '양호', '시설', '공급', '상세', '증상', '통화', '문자', '수신', '실패', '발신', '정상', '데이터', '지연', '불량', '타', '지역', '정상', '타폰', '비교', '비교', '못', '하다', '내부', '품질', '불량', '외부', '품질', '양호', '상담', '원', '조치', '사항', '모두', '활성화', '되어다', '초기', '화', '실행', '전원', '재부팅', '추가', '연락처', '기타', '전달', '사항', '중계', '이', '없다']
불용어 처리 후 :  ['원클릭', '양호', '시설', '공급', '상세', '증상', '통화', '문자', '수신', '실패', '발신', '정상', '데이터', '지연', '불량', '타', '지역', '정상', '타폰', '비교', '비교', '못', '하다', '내부', '품질', '불량', '외부', '품질', '양호', '상담', '원', '조치', '사항', '모두', '활성화', '되어다', '초기', '화', '실행', '전원', '재부팅', '추가', '연락처', '기타', '전달', '사항', '중계', '없다