# [개별실습] Python 활용한 AI 모델링 - 전처리
+ 이번 실습에서는 Python을 활용한 AI 모델링에서 전처리 파트 문제를 풀어봅니다.
+ 머신러닝과 AI 모델링 전체에서 60~70% 차지하는 부분이 바로 전처리 파트입니다.
+ 굉장히 시간과 노력이 많이 투입되며, 어려운 부분일 수 있습니다.
+ 데이터가 깨끗이 정리되지 않는다면 머신러닝/AI 성능을 장담할수 없으므로 데이터 전처리에 심혈을 기울여 주세요.
+ AICE의 출제범위는 라이브러리 설치, 데이터 로딩, 데이터의 구성 및 확인까지 EDA에서부터 전처리가 모두 해당됩니다.
+ <font color=red>(Tip) 전처리에서 데이터 결측치 처리, 라벨 인코딩, 원핫 인코딩, xy 데이터분리는 출제되니 반드시 마스터해주세요.
+ <span style="background-color:#fff6b1">**[문제]라고 표기된 부분이 실제 점수가 반영되는 시험문제라고 생각하고 더 신경써서 수행해주세요!**

##  <span style="background-color:#fff5b1">학습목차
#### [미션0] 오늘의 목표
#### [미션1] 필요 라이브러리 임포트 및 파일 읽어오기
#### [미션2] EDA (Exploratory Data Analysis) 탐색적 데이터 분석
#### [미션3] 데이터 전처리 수행
 - 불필요 컬럼 삭제
 - 컬럼 내용 변경
 - Null 처리
 - 컬럼 type 변경
#### [미션4] 시각화
#### [미션5] 결과 저장하기

## <span style="background-color:#fff5b1"> [미션0] 오늘의 목표

### **머신러닝, 딥러닝을 사용한 통신 서비스 이탈 예측**
##### 고객 데이터를 분석하고 정확한 이탈 예측 모델을 개발하여 고객을 유지하고 이탈률을 줄이기 위한 방안을 생각해봅시다.
##### Churn은 서비스를 중단하거나 경쟁업체로 이전한 고객을 의미합니다. 기존 고객을 유지하고 새로운 고객을 유치하는 것이 매우 중요합니다.  
##### **오늘 미니프로젝트 목표는 업계에서 경쟁 우위를 유지하기 위해 이탈 예측을 위한 머신러닝, 딥러닝의 가능성을 탐색하고,** 
##### **우리 조에서 찾아낸 데이터의 특징과 이탈 방지 프로모션을 발표하는 것입니다.** 

## <span style="background-color:#fff5b1"> [미션1] 필요 라이브러리 임포트 및 파일 읽어오기

### **Numpy**

#### <font color=blue> **[문제1] numpy 라이브러리를 np alias로 임포트하세요.** </font>

### **Pandas**

#### <font color=blue> **[문제2] pandas 라이브러리를 pd alias로 임포트하세요.** </font>

####  
### <font color=green>읽어올 데이터 파일 : data_v1.csv</font>

#### Telco Customer Churn Dataset 컬럼
1. CustomerID: Customer ID unique for each customer
2. gender: Whether the customer is a male or a female
3. SeniorCitizen: Whether the customer is a senior citizen or not (1, 0) : 고령자 여부
4. Partner: Whether the customer has a partner or not (Yes, No)
5. Dependents: Whether the customer has dependents or not (Yes, No) : 부양가족 여부
6. Tenure: Number of months the customer has stayed with the company : 서비스 사용 개월수
7. PhoneService: Whether the customer has a phone service or not (Yes, No)
8. MultipleLines: Whether the customer has multiple lines or not (Yes, No, No phone service)
9. InternetService: Customer’s internet service provider (DSL, Fiber optic, No)
10. OnlineSecurity: Whether the customer has online security or not (Yes, No, No internet service)
11. OnlineBackup: Whether the customer has an online backup or not (Yes, No, No internet service)
12. DeviceProtection: Whether the customer has device protection or not (Yes, No, No internet service)
13. TechSupport: Whether the customer has tech support or not (Yes, No, No internet service)
14. StreamingTV: Whether the customer has streaming TV or not (Yes, No, No internet service)
15. StreamingMovies: Whether the customer has streaming movies or not (Yes, No, No internet service)
16. Contract: The contract term of the customer (Month-to-month, One year, Two years)
17. PaperlessBilling: Whether the customer has paperless billing or not (Yes, No)
18. PaymentMethod: The customer’s payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic))
19. MonthlyCharges: The amount charged to the customer monthly
20. TotalCharges: The total amount charged to the customer
21. Churn: Whether the customer churned or not (Yes or No) : 이탈 여부

### **CSV 파일 데이터 읽어오기**

#### <font color=blue> **[문제3] data.csv 파일을 Pandas read_csv 함수를 이용하여 읽어 df 변수에 저장하고 확인하세요.** </font>

In [1]:
# 읽어 들일 파일명 : data_v1.csv
# 결과 : df 저장



In [2]:
# 읽어온 데이터프레임 확인하기



## <span style="background-color:#fff5b1"> [미션2] EDA (Exploratory Data Analysis) 탐색적 데이터 분석

### **데이터 탐색하기**

In [3]:
# head 함수 활용



In [4]:
# tail 함수 활용



####  
### **자료구조 파악**

In [5]:
# info 함수 활용



### **인덱스, 컬럼명, Values 확인**

In [6]:
# 인덱스 확인



In [7]:
# 컬럼명 확인



In [8]:
# Values 확인



####  
### **Null 데이터 확인**

In [9]:
# isnull 함수 활용



### **통계 정보 확인**

In [10]:
# describe 함수 활용
# 통계 정보를 통해 알 수 있는 컬럼별 특성을 아래 주석으로 작성해보자.


# [컬럼별 특성] ▼



## <span style="background-color:#fff5b1"> [미션3] 데이터 전처리 수행

####  
### **자료구조 파악**

#### <font color=blue> **[문제4] df DataFrame의 함수를 활용해서 자료구조(Row, column , Not-null, type)을 파악 하세요.** </font>

In [11]:
# DataFrame info 함수 활용



####  
### **컬럼 삭제**

#### <font color=blue> **[문제5] df 데이터프레임에서 'customerID' 컬럼을 삭제 하고 확인하세요.** </font>

In [12]:
# DataFrame drop 함수 활용
# axis=1 옵션 사용하여 컬럼단위 삭제 수행
# inplace=True 옵션 사용, df DataFrame에 저장



In [13]:
# info 함수 활용
# 21컬럼에서 20개 컬럼으로 1개 줄어듬 확인
# TotalCharges 컬럼이 숫자형인지 object인지 Dtype 확인



####  
### **컬럼 내용 변경하기** 

범주형 문자 데이터를 숫자로 변환하는것은 성능에 많은 영향을 미치므로 컬럼 타입을 변환해줘야 합니다.<br>
null이나 문제있는 문자 데이터는 모델링하기 전에 미리 다른 데이터로 변경하거나 필요없을 경우에는 삭제합니다.

#### TotalCharges 컬럼 타입 변경하기

In [14]:
# TotalCharges : 월사용요금이 실수형으로 보이는지 컬럼 확인



In [15]:
# TotalCharges 컬럼 타입을 float으로 변경해 보자.
# astype 함수 활용
# 컬럼이 문자열이라면 숫자형으로 변경할 수 없으므로 에러가 발생할 것이다.



In [16]:
# Boolean indexing으로 'TotalCharges' 컬럼에 빈 문자열('')이나 공백문자(' ')인 값들이 있는지
# 'filterd_df' DataFrame 저장, 출력하여 확인



In [17]:
# 'TotalCharges' 열의 값이 빈 문자열('') 또는 공백문자(' ')인 조건을 'cond' 변수에 저장



####  
#### <font color=blue> **[문제6] df 데이터프레임의 'TotalCharges' 컬럼의 값 ''과 ' '을 --> '0'으로 변경하세요.** </font>

In [18]:
# DataFrame replace 함수 활용
# 대상 컬럼 : 'TotalCharges'




#### <font color=blue> **[문제7] df 데이터프레임의 'TotalCharges' 컬럼 타입을 object에서 float으로 변경하세요.** </font>

In [19]:
# 변경된 결과를 TotalCharges 컬럼에 다시 넣어주기



In [20]:
# 다시 Boolean indexing으로 df[cond] 검색 : 'TotalCharges' 컬럼의 값이 빈 문자열 '' 또는 공백인 ' ' 행들이 있는지 확인
# 빈 문자열이거나 공백인 행들이 없는지 확인



In [21]:
# TotalCharges 컬럼이 float으로 잘 변경되었는지 확인 
# info 함수 활용



#### **Churn 컬럼의 문자열값을 숫자로 변경**

In [22]:
# Churn 컬럼 분포 확인, value_counts 활용



#### <font color=blue> **[문제8] df 데이터프레임에 'Churn' 컬럼의 ['Yes', 'No'] --> [1, 0]으로 변경하세요** </font>

In [23]:
# 컴퓨터는 문자열을 잘 이해하지 못하므로 숫자로 변경해야 함.
# replace 함수 활용
# inplace=True, 원본 데이터프레임 직접 수정



In [24]:
# Churn 컬럼의 분포 확인 
# value_counts 함수 활용
# yes(이탈)는 1, No(비이탈)는 0



####  
### **Null 데이터 확인**

#### <font color=blue> **[문제9] df 데이터프레임에 대해 컬럼별로 null값이 얼마나 있는지 null의 갯수를 나열 하세요.** </font>

In [25]:
# DataFrame isnull() 함수 활용



 ######
 ### **결측치 처리**

데이터에 결측치가 있을 경우, 모델링 단계에서 에러가 발생할 수 있으므로 반드시 결측치를 제거하거나 변경해야 한다.<br>
결측치 제거 시 dropna() 함수를 활용해보자.<br>
결측치를 변경할 때에는 주로 문자형 컬럼에 대해서는 최빈값으로, 숫자형 컬럼에 대해서는 중간값으로 결측치 대신해서 채울 수 있다.

####  
#### <font color=blue> **[문제10] df 데이터프레임의 결측치 많은 컬럼은 제거하고 나머지 결측치가 적은 컬럼은 Row 제거 하세요.** </font>

In [26]:
# 1. 결측치 많은 컬럼 :  DeviceProtection  --> drop 함수 이용, 해당 컬럼 제거
# 2. 결측치 작은 Row에 대해서 dropna로 제거 
# inplace=True 옵션으로 자체 저장




In [27]:
# Null 여부 다시 확인



In [28]:
# DeviceProtection 컬럼 삭제여부 확인



#  
## <span style="background-color:#fff5b1"> [미션4] 시각화

### **라이브러리 임포트하기**

In [29]:
# 아래 라이브러리를 임포트하세요.
import matplotlib.pyplot as plt
%matplotlib inline

####  
### Bar 차트

In [30]:
# df 데이터프레임 'gender' 컬럼의 값 분포 구하기
# DataFrame value_counts() 함수 활용



In [31]:
# 'gender' 컬럼의 값 분포를 Bar 차트 그리기
# DataFrame plot() 함수 활용
# plot 함수 인자 : kind='bar'



#### <font color=blue> **[문제11] df 데이터프레임의 'Partner' 컬럼의 값 분포를 구하고 Bar 차트를 그리세요.** </font>

In [32]:
# 대상 컬럼 : 'Partner'
# plot 함수 인자 : kind='bar'



####  
### **Object 컬럼들에 대해서 각 컬럼의 값분포를 한꺼번에 Bar 차트로 확인해 봅시다.**

In [33]:
# object 컬럼만 뽑아보기
# 방법1. 일일히 눈으로 보고 object 컬럼을 고른다
# 방법2. select_dtypes() 함수를 활용한다.



In [34]:
# Object인 컬럼명만 뽑아보기



In [35]:
# Object 컬럼 하나씩 가져와서 각 컬럼의 분포를 Bar 차트 그려보기
# 각 object 타입의 컬럼에 대해 반복 수행 (for col in df_object:)
# plot 함수 인자 : kind='bar'



#### **불균형 심한 PhoneService 컬럼 삭제**
#### <font color=blue> **[문제12] df 데이터프레임의 'PhoneService' 컬럼을 삭제하세요.** </font>

In [36]:
# inplace=True 옵션으로 자체 저장



####  
#### **숫자형 컬럼에 대한 시각화**

In [37]:
# number(int, float) 컬럼에 대해 검색
# select_dtypes 함수 활용



#### **Churn 컬럼**

In [38]:
# Churn 컬럼은 0, 1로 되어 있으므로 분포 확인



#### <font color=blue> **[문제13] Churn 컬럼에 대해 Bar 차트를 그리고 이탈여부 현황을 확인하시오.** </font>

In [39]:
# 'Churn' 컬럼의 값 분포를 Bar 차트 그리기



#### **SeniorCitizen 컬럼**

In [40]:
# SeniorCitizen 컬럼은 0, 1로 되어 있으므로 분포 확인



In [41]:
# SeniorCitizen 컬럼에 대한 Bar 차트 그리기



#### <font color=blue> **[문제14] 불균형이 심한 'SeniorCitizen' 컬럼을 삭제하세요.** </font>

In [42]:
# DataFrame drop() 함수 활용
# 대상 컬럼 : 'SeniorCitizen'  
# axis 와 inplace 옵션 사용



In [43]:
# SeniorCitizen 삭제 확인



####  
### **Histogram**

In [44]:
# seaborn 라이브러리 임포트하기



#### tenure 컬럼

In [45]:
# tenure(서비스 사용기간)에 대한 히스토그램을 그리고, 주석으로 현황 작성


# [tenure 현황] ↓



In [46]:
# tenure(서비스 사용기간)에 대한 히스토그램을 Churn으로 구분
# x='tenure', hue='Churn'




In [47]:
# kdeplot : tenure에 대한 히스토그램을 곡선으로 그려보고 현황 작성


# [tenure에 따른 Churn 현황] ↓



#### TotalCharges 컬럼

In [48]:
# TotalCharges(서비스 총요금)에 대한 히스토그램을 그리고 현황 작성


# [TotalCharges 현황] ↓



In [49]:
# kdeplot : TotalCharges에 대한 히스토그램을 곡선으로 그리고 현황 작성
# x='TotalCharges', hue='Churn'


# [TotalCharges에 따른 Churn 현황] ↓



####  
### Countplot

In [50]:
# MultipleLines 서비스를 사용하는 고객에 대한 Countplot을 그리고 현황 작성


# [Multiplelines에 따른 Churn 현황] ↓




####  
### heatmap

#### <font color=blue> **[문제15] 'tenure', 'MonthlyCharges', 'TotalCharges' 컬럼간의 상관관계를 heatmap으로 그려보시오.** </font>

In [51]:
# corr() 메소드 사용 



In [52]:
# heatmap으로 tenure, MonthlyCarges, TotalCharges간의 상관관계 살펴보기
# corr() 메소드 사용, annot=True를 사용하여 각 셀에 셀의 값 표시


# [상관관계 분석] ↓


####  
### boxplot

In [53]:
# TotalCharges에 대한 이탈현황을 boxplot으로 그리고 현황을 작성하시오.
# x= Churn, y= TotalCharges


# [TotalCharges에 대한 이탈현황 분석] ↓



#  
## <span style="background-color:#fff5b1"># 5. 결과 저장하기

### **결과를 csv 파일로 저장하기**

In [54]:
# to_csv 함수로 결과 저장
# 저장할 파일명 : 'data_v1_save.csv'
# index=False, 기존 인덱스 값을 저장하지 않기


In [55]:
# 잘 저장되었는지 파일을 읽어 확인하기
# pd.read_csv 함수


In [56]:
# 개별실습 끝 ! 시간이 남으시는 분들은 모델링 실습으로 넘어가셔도 됩니다.

##  
## <span style="background-color:#fff5b1"># 이제까지 여러분들이 성공한 미션들을 다시 한번 볼까요?
    
#### **1. 필요 라이브러리 임포트 및 파일 읽어오기 : pd.read_csv()**
#### **2. EDA (Exploratory Data Analysis) 탐색적 데이터 분석 : df.info(), df.head(), df.tail()**
#### **3. 데이터 전처리 수행**
 + 불필요 컬럼 삭제 : df.drop()
 + 컬럼 내용 변경하기 : df.replace()
 + Null 처리 : df.replace(), df.dropna()
 + 컬럼 type 변경하기 : df['col'].astype(int)
#### **4. 시각화**
 + matplotlib, seaborn
 + bar, scatter, countplot, boxplot 
#### **5. 결과 저장하기**
 + to_csv()

#### 개별실습을 수행하시느라 고생 많으셨습니다.

#### 점심 맛있게 드세요*^^*