## 3주차 미션 소개 -  피처 엔지니어링(Feature Engineering)

* 피처 엔지니어링(Feature Engineering)은 머신러닝 모델을 훈련시키기 위해 입력 데이터로 사용되는 피처(또는 변수)들을 가공하거나 새로운 피처를 만들어내는 과정을 말합니다. 피처 엔지니어링은 머신러닝 성능을 향상시키고 모델의 일반화 성능을 향상시키는 데 핵심적인 역할을 합니다. 현실 세계의 데이터는 종종 불완전하고 노이즈가 많습니다. 결측값, 이상치, 오류 등이 있을 수 있습니다. 종속 변수와의 관계를 강화하고 모델이 더 나은 예측을 할 수 있도록 도와줍니다. 예를 들어, 특정 도메인 지식을 활용하여 새로운 피처를 생성하거나 기존 피처를 변형시켜 모델이 패턴을 더 잘 파악하도록 할 수 있습니다. 불필요한 피처를 제거하거나 피처를 효과적으로 변형함으로써 모델의 계산 효율성을 높일 수 있습니다. 이는 모델을 더 빠르게 훈련시키고 실행시킬 수 있습니다.

* 미션 데이터셋 소개

    * 해당 Kaggle 데이터셋( https://www.kaggle.com/blastchar/telco-customer-churn )은 통신사 고객 이탈(Churn)에 대한 정보를 담고 있습니다. IBM에서 제공한 이 데이터셋은 고객 유지에 필요한 행동을 예측하는 데 사용될 수 있으며, 고객 데이터를 분석하여 고객 유지 프로그램을 개발하는 데 도움이 됩니다.
    * 해당 데이터셋은 다음의 정보로 구성되어 있습니다.
        * 고객 인구 통계 정보(Demographic info): 고객의 성별, 연령대, 배우자 및 부양 가족의 유무(Gender, SeniorCitizen, Partner, Dependents) 등에 관한 정보가 포함되어 있습니다.
        * 고객 이탈(Churn) 정보: 서비스를 중단 여부에 대한 정보가 포함되어 있습니다.
        * 서비스 가입 정보(Services subscribed): 고객들이 가입한 서비스들, 예를 들어 전화, 다중 라인, 인터넷, 온라인 보안, 온라인 백업, 장치 보호, 기술 지원, 스트리밍 TV 및 영화( honeService, MultipleLine, InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies) 등에 대한 정보가 있습니다.
        * 고객 계정 정보(Customer account info): 고객이 얼마나 오래 서비스를 이용했는지, 계약 유형, 결제 방법, 무페이퍼 청구 여부, 월별 요금, 총 요금 (CustomerID, Contract, PaperlessBilling, PaymentMethod, MonthlyCharges, TotalCharges, Tenure)등의 정보가 담겨 있습니다.

# 📌 문제풀이 1️⃣

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 미션 수행을 위해 데이터셋을 로드합니다.
df = pd.read_csv("https://bit.ly/telco-csv", index_col="customerID")
df.shape

In [None]:
df.head()

In [None]:
# TotalCharges 가 수치 타입이 아니기 때문에 수치 연산을 위해 숫자 형태로 변경합니다.
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")

In [None]:
df = df.dropna()

## 미션 1) - 수치형 변수를 범주형 변수로 만들기

In [None]:
df['MonthlyCharges_group']= np.where(df.MonthlyCharges < 30,'0-30',
                                    np.where(df.MonthlyCharges < 70,'30-70',
                                    np.where(df.MonthlyCharges < 99,'70-99',
                                     '99-plus')))
df['MonthlyCharges_group'].reset_index_index()



In [None]:
sns.countplot(x="MonthlyCharges",data=df)


In [None]:
sns.countplot(x="MonthlyCharges_group",data=df)

## 미션 2) - One-Hot-Encoding 하기

In [None]:
df['gender_Female'] = df['gender'] =='Female'
df['gender_Male']= df['gender'] =='Male'
df.head()



## 미션 3) - 여러 피처 엔지니어링 기법을 적용하고 통신사 고객 이탈여부에 대한 모델의 성능을 Accuracy로 평가해 주세요.


In [None]:
# X = df_ohe
# y = df["Churn"]

In [None]:
# from sklearn.model_selection import _______________

# X_train, X_test, y_train, y_test = _______________(
#     X, y, test_size=0.2, stratify=y, random_state=42)

In [None]:
# # 여기에 모델을 구현해 주세요.
# model = _______________

----

# 📌 문제풀이 2️⃣

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:

# 미션 수행을 위해 데이터셋을 로드합니다.
df = pd.read_csv("https://bit.ly/telco-csv", index_col="customerID")
df.shape

In [None]:
df.head()

In [None]:
# TotalCharges 가 수치 타입이 아니기 때문에 수치 연산을 위해 숫자 형태로 변경합니다.
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")

In [None]:
df

## 미션 1) - 수치형 변수를 범주형 변수로 만들기

In [None]:
# 바이너리 변수에 대한 인코딩
df["gender"] = (df["gender"] == "Male").astype(int)
df["Partner"] = (df["Partner"] == "Yes").astype(int)
df["Dependents"] = (df["Dependents"] == "Yes").astype(int)
df["PhoneService"] = (df["PhoneService"] == "Yes").astype(int)
df["PaperlessBilling"] = (df["PaperlessBilling"] == "Yes").astype(int)

In [None]:
#replace를 이용하여 일일히 변경시켜주려다가 ValueError: Length of values (2) does not match length of index (7032)에러로 패스;
#범주의 값들이 0 ~ 9까지로만으로도 충분하다면sklearn 라이브러리의 LabelEncoder 함수를 이용하는방법 채택
flist=df.columns.tolist()
for f in flist:
  li=list(set(list(df[f])))
  print(f,len(li),li)


In [None]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()

# 각 열을 인코딩하여 데이터프레임에 추가
for column in flist:
    # if df[column].dtype == 'object':  # 문자열 열만 처리
    df[column] = label_encoder.fit_transform(df[column])


In [None]:
df['MonthlyCharges'].describe()

In [None]:
sns.distplot(df['MonthlyCharges'])

In [None]:
sns.countplot(data=df,x='MonthlyCharges')

In [None]:
# 1/4씩 마다 나누기
df['Charges_low']=df['MonthlyCharges']<200
df['Charges_middle']=(df['MonthlyCharges']>=201)&(df['MonthlyCharges']<721)
df['Charges_high']=(df['MonthlyCharges']>=721)&(df['MonthlyCharges']<1090)
df['Charges_vip']=(df['MonthlyCharges']>=1090)

In [None]:
#MonthlyChares에 따라 금액 차순대로 사람수에 맞춰4등분
df.shape

In [None]:
df_sorted=df.sort_values(by='MonthlyCharges')

In [None]:
df_sorted['MonthlyCharges'][-1]

In [None]:
print(df_sorted['MonthlyCharges'][int(7032/4)],
df_sorted['MonthlyCharges'][int(7032/4)*2],
df_sorted['MonthlyCharges'][int(7032/4)*3])

In [None]:
df['Charges_low']=df['MonthlyCharges']<201
df['Charges_middle']=(df['MonthlyCharges']>=201)&(df['MonthlyCharges']<721)
df['Charges_high']=(df['MonthlyCharges']>=721)&(df['MonthlyCharges']<1090)
df['Charges_vip']=(df['MonthlyCharges']>=1090)

In [None]:
sns.countplot(data=df,x='Charges_low',hue='Churn')
sns.countplot(data=df,x='Charges_middle',hue='Churn')
sns.countplot(data=df,x='Charges_high',hue='Churn')
sns.countplot(data=df,x='Charges_vip',hue='Churn')
sns.countplot(data=df.melt(value_vars=['Charges_low', 'Charges_middle', 'Charges_high', 'Charges_vip'], id_vars='MonthlyCharges'))

In [None]:

# 갯수 단위로 구간 나누기
num_bins = 4
for col in :
    bins, bin_edges = pd.qcut(df[col], q=num_bins, retbins=True, duplicates='drop')
    df[f'{col}_charges'] = pd.cut(df[col], bins=bin_edges)

# 각 구간의 데이터 갯수 출력
for col in df.columns:
    if '_bin' in col:
        print(f"Data counts for {col}:")
        print(df[col].value_counts())
        print()

## 미션 2) - One-Hot_Encoding 하기

In [None]:
sns.barplot(x=model.feature_importances_,y=features)

In [None]:
# 여기에 one-hot-encoding 을 구현해 주세요.

df['TotalCharges'].describe()

In [None]:
df['TotalCharges_low']=df['TotalCharges']<1380
df['TotalCharges_middle']=(df['TotalCharges']>=1380)&(df['TotalCharges']<3064)
df['TotalCharges_high']=(df['TotalCharges']>=3064)&(df['TotalCharges']<4782)
df['TotalCharges_vip']=(df['TotalCharges']>=4782)

In [None]:
df['tenure'].describe()

In [None]:
def quarter_division(df,feature_name,range1,range2,range3):
  df[f'{feature_name}_low']=df[f'{feature_name}']<range1
  df[f'{feature_name}_middle']=(df[f'{feature_name}']>=range1)&(df[f'{feature_name}']<range2)
  df[f'{feature_name}_high']=(df[f'{feature_name}']>=range2)&(df[f'{feature_name}']<range3)
  df[f'{feature_name}_vip']=(df[f'{feature_name}']>=range3)
  return df

In [None]:
quarter_division(df,'tenure',8,28,54)

In [None]:
df['TotalCharges'].describe()

In [None]:
quarter_division(df,'TotalCharges',1380,3064,4782)

## 미션 3) 여러 피처 엔지니어링 기법을 적용하고 통신사 고객 이탈여부에 대한 모델의 성능을 Accuracy로 평가해 주세요.

In [None]:
split_count=int(df.shape[0]*0.8)
train=df[:split_count].copy()
test=df[split_count:].copy()
features=train.columns.tolist()

In [None]:
features.remove("Churn")

In [None]:
features.remove('MonthlyCharges')
features.remove('tenure')
features.remove('TotalCharges')

In [None]:
features

In [None]:
label_name="Churn"
x_test=test[features]
y_test=test[label_name]

In [None]:
from sklearn.tree import DecisionTreeClassifier
model=DecisionTreeClassifier(random_state=42)

In [None]:
x_train=train[features]
y_train=train[label_name]
print(y_train.shape)
model.fit(x_train,y_train)

In [None]:
model.score(x_test,y_test) #디폴트 0.74 MonthlyCharges 수치>범주0.735

In [None]:
sns.barplot(x=model.feature_importances_,y=features)

In [None]:
sns.distplot(df['Contract'])

In [None]:
df['Contract_log']=np.log(df['Contract']+1)
sns.distplot(df['Contract_log'])

In [None]:
df['Contract'].describe()

In [None]:
g=sns.PairGrid(df,hue='Churn')
g.map(plt.scatter)

In [None]:
MonthlyCharge_group=df[['Charges_low','Charges_middle','Charges_high',"Charges_vip"]]

In [None]:
sns.countplot(data=MonthlyCharge_group)

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 예제 데이터프레임 생성
# df = pd.DataFrame(...)  # 실제 데이터프레임이 있다면 이 부분을 사용하세요.

# 새로운 컬럼 생성
df['Charges_low'] = df['MonthlyCharges'] < 201
df['Charges_middle'] = (df['MonthlyCharges'] >= 201) & (df['MonthlyCharges'] < 721)
df['Charges_high'] = (df['MonthlyCharges'] >= 721) & (df['MonthlyCharges'] < 1090)
df['Charges_vip'] = df['MonthlyCharges'] >= 1090

df['MonthlyCharge_group']=df[['Charges_low','Charges_middle','Charges_high',"Charges_vip"]]

In [None]:
sns.lmplot(data=df,x='tenure',y='MonthlyCharges',hue='Churn')

----

# 📌 문제풀이 3️⃣

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 미션 수행을 위해 데이터셋을 로드합니다.
df = pd.read_csv("https://bit.ly/telco-csv", index_col="customerID")
df.shape

In [None]:
df.head()

In [None]:
# TotalCharges 가 수치 타입이 아니기 때문에 수치 연산을 위해 숫자 형태로 변경합니다.
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")

In [None]:
df = df.dropna()

## 미션 1) - 수치형 변수를 범주형 변수로 만들기

In [None]:
df["monthlycharges_group"] = pd.cut(df["MonthlyCharges"], bins=[0, 30, 70, 99, float("inf")], labels=["0-30", "30-70", "70-99", "99Plus"])
df[["MonthlyCharges", "monthlycharges_group"]].head()

In [None]:
# 여기에 구간화 전의 수치 변수에 대한 히스토그램과 구간화 이후 범주로 변환해준 변수에 대한 countplot을 시각화 해주세요.

sns.countplot(data=df, x="MonthlyCharges")

In [None]:
sns.countplot(data=df, x="monthlycharges_group")

## 미션 2) - One-Hot_Encoding 하기

## 미션 3) 여러 피처 엔지니어링 기법을 적용하고 통신사 고객 이탈여부에 대한 모델의 성능을 Accuracy로 평가해 주세요.

----

# 📌 문제풀이 4️⃣

In [None]:
# 미션 수행을 위해 데이터셋을 로드합니다.
df = pd.read_csv("https://bit.ly/telco-csv", index_col=False)
df.shape

In [None]:
df.head()

In [None]:
# TotalCharges 가 수치 타입이 아니기 때문에 수치 연산을 위해 숫자 형태로 변경합니다.
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")

In [None]:
df = df.dropna()

In [None]:
df.shape

## 미션 1) - 수치형 변수를 범주형 변수로 만들기

In [None]:
df["MonthlyCharges"].describe()

In [None]:
# 월별 지불 금액을 구간별로 범주화
def make_group(x):
    if x <= 30:
        return "0-30"
    elif (x > 30) & (x <= 70):
        return "30-70"
    elif (x > 70) & (x <= 99):
        return "70-99"
    else:
        return "99-"

df["monthlycharges_group"] = df["MonthlyCharges"].apply(lambda x: make_group(x))
df[["MonthlyCharges", "monthlycharges_group"]].head()

In [None]:
# 여기에 구간화 전의 수치 변수에 대한 히스토그램과 구간화 이후 범주로 변환해준 변수에 대한 countplot을 시각화 해주세요.

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))

# 범주화 하기 전, 히스토그램
axes[0].set_title("Histogram of MonthlyCharges before Categorization")
axes[0].hist(df["MonthlyCharges"])
axes[0].grid()

# 범주화 한 후, 카운트 플롯
axes[1].set_title("Countplot of MonthlyCharges after Categorization")
sns.countplot(x=df["monthlycharges_group"], ax=axes[1])

plt.tight_layout()

plt.show()

## 미션 2) - One-Hot_Encoding 하기

In [None]:
# 여기에 one-hot-encoding 을 구현해 주세요.

# 원핫 인코더 함수 정의
def categorized(x):
    if (x == "Yes") | (x == "Male"):
        return 1
    elif (x == "No") | (x == "Female"):
        return 0
    
df["categorized_gender"] = df['gender'].apply(categorized)
df["categorized_SeniorCitizen"] = df['SeniorCitizen'].apply(categorized)
df["categorized_Partner"] = df['Partner'].apply(categorized)
df["categorized_Dependents"] = df['Dependents'].apply(categorized)
df["categorized_PhoneService"] = df['PhoneService'].apply(categorized)
df["categorized_PaperlessBilling"] = df['PaperlessBilling'].apply(categorized)
df["categorized_MultipleLines"]


df["categorized_Churn"] = df["Churn"].apply(categorized)

df

In [None]:
# 원핫인코더 객체 사용하려고 했으나, 실패...

# 범주화 컬럼만 뽑기
# encode_columns = ["gender", "Partner", "Dependents", "PhoneService", "PaperlessBilling"]

# from sklearn.preprocessing import OneHotEncoder

# encoder = OneHotEncoder()
# encoder.fit_transform(df[encode_columns])

## 미션 3) 여러 피처 엔지니어링 기법을 적용하고 통신사 고객 이탈여부에 대한 모델의 성능을 Accuracy로 평가해 주세요.

In [None]:
df.info()

In [None]:
use_columns = ["SeniorCitizen","tenure","MonthlyCharges","TotalCharges",
               "categorized_gender","categorized_Partner","categorized_Dependents",
               "categorized_PhoneService","categorized_PaperlessBilling"]

In [None]:
X = df[use_columns]
y = df["Churn"]

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, 
                                                    stratify=y, 
                                                    random_state=42)

In [None]:
# 여기에 모델을 구현해 주세요.
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()
model

In [None]:
# 위에서 만든 모델로 학습과 예측을 진행해 주세요.
model.fit(X_train, y_train)

In [None]:
# 학습 결과와 원래 정답과의 Accuracy(정확도)를 구해주세요.
y_pred = model.predict(X_test)
y_pred

In [None]:
from sklearn.metrics import accuracy_score
print(f"accuracy = {round(accuracy_score(y_test, y_pred) * 100, 2)}")

----

# 📌 문제풀이 5️⃣

## 미션 1) - 수치형 변수를 범주형 변수로 만들기

## 미션 2) - One-Hot_Encoding 하기

## 미션 3) 여러 피처 엔지니어링 기법을 적용하고 통신사 고객 이탈여부에 대한 모델의 성능을 Accuracy로 평가해 주세요.

-----

# 📌 문제풀이 6️⃣

## 미션 1) - 수치형 변수를 범주형 변수로 만들기

## 미션 2) - One-Hot_Encoding 하기

## 미션 3) 여러 피처 엔지니어링 기법을 적용하고 통신사 고객 이탈여부에 대한 모델의 성능을 Accuracy로 평가해 주세요.