In [39]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

pd.set_option("display.max_rows", 10)
customer_churn_reviews = pd.read_csv("../../data/churn_data.csv", index_col = 0)

In [40]:
# 1. 결측치 확인하기

# 각 컬럼별 결측치 개수 확인
customer_churn_reviews.isnull().sum()

#확인 결과 결측치의 개수가 0이므로 결측치 처리는 건너뛴다.

gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
                   ..
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
Length: 20, dtype: int64

In [41]:
#머신러닝을 쓸 예정이기에, 문자열(범주형 변수)는 숫자형으로 변한이 필요.

#범주형 변수 인코딩 방법에는 2가지가 있음.
#1. Label Encoding : 각 볌주를 정수 값으로 변환, gender -> Male(0), Female(1) 간단하나, 숫자로 변환하면 모델이 순서를 오해할 수 있음
#2. One-Hot Encoding : 컬럼을 범주별로 새로 만들어서 0/1로 표시, InternetService -> DSL, Fiber optic, NO 3개의 컬럼 생성, 단점 : 컬럼 수가 늘어난다.

#성별 같은 단순한 이진 변수 -> Label Encoding
#3개 이상 범주가 있는 컬럼(PaymentMethod, Contract 등) -> One-Hot Encoding

In [42]:
#따라서 컬럼 별로 이진 변수인지, 3개 이상 범주형 변수인지 나눈다.

#범주형 컬럼 찾기
categorical_cols = customer_churn_reviews.select_dtypes(include=['object']).columns

#이진 변수 / 다중 범주 변수 구분
binary_vars = []
multi_vars = []

for col in categorical_cols:
    unique_vals = customer_churn_reviews[col].nunique() #고유값 개수
    if unique_vals == 2:
        binary_vars.append(col) #값이 2개 -> 이진 변수
    elif unique_vals > 2:
        multi_vars.append(col) #값이 3개 이상 -> 다중 변수

print("이진 변수(Binary Variables):", binary_vars) #Label Encoding 할 변수
print("다중 범주 변수(Multi-class Variables):", multi_vars) #One-Hot Encoding 할 변수

이진 변수(Binary Variables): ['gender', 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling', 'Churn']
다중 범주 변수(Multi-class Variables): ['MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaymentMethod', 'TotalCharges']


In [43]:
# 1. 이진 변수 Label Encoding
binary_vars = ['gender', 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']
le = LabelEncoder()
for col in binary_vars:
    customer_churn_reviews[col] = le.fit_transform(customer_churn_reviews[col])

# Churn(타겟)도 Yes=1, No=0으로 인코딩
customer_churn_reviews['Churn'] = customer_churn_reviews['Churn'].map({'Yes': 1, 'No': 0})

# 2. 다중 범주형 변수 One-Hot Encoding
multi_vars = ['MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
              'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies',
              'Contract', 'PaymentMethod']

customer_churn_reviews = pd.get_dummies(customer_churn_reviews, columns=multi_vars)

print(customer_churn_reviews.head())

            gender  SeniorCitizen  Partner  Dependents  tenure  PhoneService  \
customerID                                                                     
7590-VHVEG       0              0        1           0       1             0   
5575-GNVDE       1              0        0           0      34             1   
3668-QPYBK       1              0        0           0       2             1   
7795-CFOCW       1              0        0           0      45             0   
9237-HQITU       0              0        0           0       2             1   

            PaperlessBilling  MonthlyCharges TotalCharges  Churn  ...  \
customerID                                                        ...   
7590-VHVEG                 1           29.85        29.85      0  ...   
5575-GNVDE                 0           56.95       1889.5      0  ...   
3668-QPYBK                 1           53.85       108.15      1  ...   
7795-CFOCW                 0           42.30      1840.75      0  ...   
9

In [48]:
#get_dummies 코드가 있을 때 dtype 메소드를 실행시키지 말 것. 
#Jupyter 특성상 같은 셀 안에서 호출되면 원본 컬럼을 못 찾아서 KeyError 발생

customer_churn_reviews.dtypes

gender                                     int64
SeniorCitizen                              int64
Partner                                    int64
Dependents                                 int64
tenure                                     int64
                                           ...  
Contract_Two year                           bool
PaymentMethod_Bank transfer (automatic)     bool
PaymentMethod_Credit card (automatic)       bool
PaymentMethod_Electronic check              bool
PaymentMethod_Mailed check                  bool
Length: 41, dtype: object