# 기계학습에서 머신러닝

- **지도 학습 절차**
  - 데이터 핸들링 (데이터 불러오기, 병합, 재구조화, 파생변수 생성, 이상치 제거)
    - 데이터 구조적 관점에서 학습을 수행할 수 있는 형태로 변환하는 과정
  - 학습의 목표변수 Y와 설명변수 X를 설정 (변수로 선언)
  - 학습 데이터(Train Set) 검증 데이터(Test Set)를 분할
    - Test Set : 학습에 절대 참여하지 않음
    - Validation Set : 교차검증 과정에서 사용되는 데이터 셋 (학습에 활용되는 데이터)
  - 학습 수행
    - 특성공학(결측값 처리, 스케일링, 교차검증...) + 학습 동시 수행
  - 모델 평가
    - 학습 능력 평가 : 알고리즘이 학습 데이터로 적절한 수식을 잘 찾았는가?
    - 일반화 능력 평가 : 학습에 참여하지 않은 (Test Set)데이터로 새로 들어올 데이터에 대해 얼마나 잘 작동하는가  
  -  새로운 데이터 적용

In [1]:
import pandas as pd

In [4]:
df1 = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\01_Data.csv') 

In [5]:
# 이탈고객 분류 모델을 구성
df1['State'].unique()

array(['계약확정', '기간만료', '해약확정', '해약진행중'], dtype=object)

In [8]:
# 1. 데이터 핸들링
df1['해약여부']=df1['State'].replace({'계약확정':'정상', '기간만료':'정상', '해약확정':'해약', '해약진행중':'해약'})
df1['해약여부'].value_counts()

해약여부
정상    50665
해약      636
Name: count, dtype: int64

In [16]:
# 2. X와 Y를 선정
X = df1[['Age','Term','Amount_Month','Credit_Rank']]
Y = df1['해약여부']

In [14]:
# 3. 학습 데이터와 검증 데이터를 분할
# scipy (Scinces Python) : 응용 통계 분석 및 처리
# scikit learn (Science Pythob Toolkit Learning) : 정형 데이터와 데이터마이닝 기법
from sklearn.model_selection import train_test_split

In [18]:
X_train, X_test, Y_train, Y_test =  train_test_split(X,Y) # 학습데이터 검증데이터 분할 / 75:25
print(X_train.shape , X_test.shape)

(38475, 4) (12826, 4)


In [19]:
# 4. 학습실시
from sklearn.tree import DecisionTreeClassifier # 의사결정 나무 모델(선생님)

In [20]:
model = DecisionTreeClassifier()
model.fit(X_train, Y_train) # fit() : 학습 데이터에 대한 학습 실시 (수식도출실시)

In [22]:
# 5. 평가
from sklearn.metrics import accuracy_score

In [23]:
Y_train_pred = model.predict(X_train) # predict() : 예측을 수행하는 함수
Y_test_pred = model.predict(X_test)

In [24]:
# 실제값과 예측값을 비교하여 평가
accuracy_score(Y_train,Y_train_pred) # 학습 능력

0.9885120207927226

In [25]:
accuracy_score(Y_test,Y_test_pred) # 일반화 능력 

0.9864338063308904

In [26]:
# 6. 새로운 실제 데이터 입력
x1 = input('고객연령을 입력하시오 : ')
x2 = input('계약기간(월) 입력하시오 : ')
x3 = input('계약금액 (월렌털비용) 입력하시오 : ')
x4 = input('신용등급을 입력 하시오 : ')
input_data = pd.DataFrame(data = [[x1,x2,x3,x4]] , columns = ['Age','Term','Amount_Month','Credit_Rank'])
input_data

고객연령을 입력하시오 :  30
계약기간(월) 입력하시오 :  6
계약금액 (월렌털비용) 입력하시오 :  100000
신용등급을 입력 하시오 :  3


Unnamed: 0,Age,Term,Amount_Month,Credit_Rank
0,30,6,100000,3


In [27]:
model.predict(input_data)

array(['정상'], dtype=object)

# 학습 모델 평가

## 분류 모델 평가


- **정확도 (Accuracy)** = (예측 결과가 동일한 데이터 수) / (전체 예측 데이터 수)
- 클래스가 균일 (정상/해약의 비율이 큰 차이 없는경우)에 사용하며, 모든 클래스가 동등한 중요도를 가질 때
- 이진 분류에서 불균형 데이터(Imbalanced Data)가 오는 경으 모델의 성능이 왜고되어 계산
- **오차행렬 (Confusion Matrix)**

In [None]:
- **정밀도 (Prediooin)** : True Posistve / True Posivt + False Positive)



In [28]:
pd.DataFrame(model.predict_proba(X_train), columns=['정상확률','해약확률']).head(10)

Unnamed: 0,정상확률,해약확률
0,0.923077,0.076923
1,1.0,0.0
2,1.0,0.0
3,0.75,0.25
4,0.98218,0.01782
5,1.0,0.0
6,0.985915,0.014085
7,1.0,0.0
8,1.0,0.0
9,0.98218,0.01782


In [29]:
from sklearn.preprocessing import Binarizer

In [30]:
pred_pro = model.predict_proba(X_train)[:1].reshape(-1,1)

In [31]:
Binarizer(threshold=0.10).fit_transform(pred_pro)

array([[1.],
       [0.]])