# 기계학습에서 머신러닝

- **지도 학습 절차**
  - 데이터 핸들링 (데이터 불러오기, 병합, 재구조화, 파생변수 생성, 이상치 제거)
    - 데이터 구조적 관점에서 학습을 수행할 수 있는 형태로 변환하는 과정
  - 학습의 목표변수 Y와 설명변수 X를 설정 (변수로 선언)
  - 학습 데이터(Train Set) 검증 데이터(Test Set)를 분할
    - Test Set : 학습에 절대 참여하지 않음
    - Validation Set : 교차검증 과정에서 사용되는 데이터 셋 (학습에 활용되는 데이터)
  - 학습 수행
    - 특성공학(결측값 처리, 스케일링, 교차검증...) + 학습 동시 수행
  - 모델 평가
    - 학습 능력 평가 : 알고리즘이 학습 데이터로 적절한 수식을 잘 찾았는가?
    - 일반화 능력 평가 : 학습에 참여하지 않은 (Test Set)데이터로 새로 들어올 데이터에 대해 얼마나 잘 작동하는가  
  -  새로운 데이터 적용

In [1]:
import pandas as pd

In [2]:
# df1 = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\01_Data.csv') 
df1 = pd.read_csv(r'C:\Users\MSI\Desktop\study\01_Data.csv')

In [3]:
# 이탈고객 분류 모델을 구성
df1['State'].unique()

array(['계약확정', '기간만료', '해약확정', '해약진행중'], dtype=object)

In [4]:
# 1. 데이터 핸들링
df1['해약여부']=df1['State'].replace({'계약확정':'정상', '기간만료':'정상', '해약확정':'해약', '해약진행중':'해약'})
df1['해약여부'].value_counts()

정상    50665
해약      636
Name: 해약여부, dtype: int64

In [13]:
df2 = df1.dropna() # 결측값제거

# 제거하지않았을 때, 모델.fit(..) 할 때
# Input contains NaN, infinity or a value too large for dtype('float32'). 에러가 뜸

In [14]:
# 2. X와 Y를 선정
X = df2[['Age','Term','Amount_Month','Credit_Rank']]
Y = df2['해약여부']

In [7]:
# 3. 학습 데이터와 검증 데이터를 분할
# scipy (Scinces Python) : 응용 통계 분석 및 처리
# scikit learn (Science Pythob Toolkit Learning) : 정형 데이터와 데이터마이닝 기법
from sklearn.model_selection import train_test_split

In [15]:
X_train, X_test, Y_train, Y_test =  train_test_split(X,Y) # 학습데이터 검증데이터 분할 / 75:25
print(X_train.shape , X_test.shape)

(30485, 4) (10162, 4)


In [16]:
# 4. 학습실시
from sklearn.tree import DecisionTreeClassifier # 의사결정 나무 모델(선생님)

In [17]:
model = DecisionTreeClassifier()
model.fit(X_train, Y_train) # fit() : 학습 데이터에 대한 학습 실시 (수식도출실시)

DecisionTreeClassifier()

In [21]:
# 5. 평가
from sklearn.metrics import accuracy_score

In [19]:
# 예측 값을 계산 하여 평가
Y_train_pred = model.predict(X_train) # predict() : 예측을 수행하는 함수
Y_test_pred = model.predict(X_test)

In [22]:
# 실제값과 예측값을 비교하여 평가
accuracy_score(Y_train,Y_train_pred) # 학습 능력

0.9891422010824996

In [23]:
accuracy_score(Y_test,Y_test_pred) # 일반화 능력 

0.9834678212950206

In [24]:
# 6. 새로운 실제 데이터 입력
x1 = input('고객연령을 입력하시오 : ')
x2 = input('계약기간(월) 입력하시오 : ')
x3 = input('계약금액 (월렌털비용) 입력하시오 : ')
x4 = input('신용등급을 입력 하시오 : ')
input_data = pd.DataFrame(data = [[x1,x2,x3,x4]] , columns = ['Age','Term','Amount_Month','Credit_Rank'])
input_data

고객연령을 입력하시오 : 30
계약기간(월) 입력하시오 : 6
계약금액 (월렌털비용) 입력하시오 : 100000
신용등급을 입력 하시오 : 4


Unnamed: 0,Age,Term,Amount_Month,Credit_Rank
0,30,6,100000,4


In [25]:
model.predict(input_data)

array(['정상'], dtype=object)

# 학습 모델 평가

## 분류 모델 평가


- **정확도 (Accuracy)** = (예측 결과가 동일한 데이터 수) / (전체 예측 데이터 수)
- 클래스가 균일 (정상/해약의 비율이 큰 차이 없는경우)에 사용하며, 모든 클래스가 동등한 중요도를 가질 때
- 이진 분류에서 불균형 데이터(Imbalanced Data)가 오는 경으 모델의 성능이 왜고되어 계산
- **오차행렬 (Confusion Matrix)**

![img1](https://www.researchgate.net/profile/Juan_Banda/publication/256418526/figure/fig1/AS:297921313558528@1448041384565/Confusion-matrix-example.png)

- **정밀도 (Precision)** : True Positive / (True Positive + False Positive)
  - 해약을 기준으로 Precision : (해약을 해약으로 맞춘 수) / (모델이 해약으로 예측한 데이터 수 / 잘 예측한 값 + 잘못 예측한 값)
  - 문제가 없는 데이터를 문제가 있다고 잘못 판단할 때 발생하는 이슈를 나타내는 지표
  -  False Positive가 낮아지는 것에 초점을 맞춘다 / 스팸 메시지 분류기
- **재현율 (Recall)** : True Positive / (True Positive + False Negative)
  - 해약을 기준으로 Recall : (해약을 해약으로 맞춘 수) / (실제 해약인 데이터 / 잘 예측값 + 해약인데 정상으로 잘못 예측된 값)
  - 문제가 있는데 문제가 없다고 잘못 판단 할 때 이슈가 발생하는 경우
  - 민감도(Sensitivity) or TPR(True Positive Rate)
- 두 수치가 좋을수록 좋은 모델이지만, 이진 분류에서는 Recall - Precision Trade off 관계가 있음
- **F1-Score** :정밀도와 재현율을 백분위로 계산한 지표
  - 2x(정밀도 x 재현율) / (정밀도 + 재현율) 

In [27]:
from sklearn.metrics import classification_report

In [28]:
print(classification_report(Y_train, Y_train_pred)) 

              precision    recall  f1-score   support

          정상       0.99      1.00      0.99     30116
          해약       0.95      0.11      0.19       369

    accuracy                           0.99     30485
   macro avg       0.97      0.55      0.59     30485
weighted avg       0.99      0.99      0.98     30485



In [29]:
print(classification_report(Y_test, Y_test_pred)) 

              precision    recall  f1-score   support

          정상       0.99      1.00      0.99     10021
          해약       0.09      0.02      0.03       141

    accuracy                           0.98     10162
   macro avg       0.54      0.51      0.51     10162
weighted avg       0.97      0.98      0.98     10162



# Recall - Precision Trade off 

- Recall-Precision Trade off : 이진 분류에 있어, (불균형 데이터를 분류할 때) 한쪽 지표가 올라가면, 다른 한쪽은 떨어지는 현상
- 정밀도나 재현률을 특별히 강조해야하는 경우, Recall - Precision Trade off 를 활용하여, 정밀도 또는 재현율을 올릴 수 있다.
- Threshold (임계값) : 분류를 함에 있어, 분류확률을 기준으로 클래스를 분류 

In [30]:
pd.DataFrame(model.predict_proba(X_train), columns=['정상확률', '해약확률']).head(10)

Unnamed: 0,정상확률,해약확률
0,1.0,0.0
1,1.0,0.0
2,1.0,0.0
3,1.0,0.0
4,1.0,0.0
5,1.0,0.0
6,1.0,0.0
7,1.0,0.0
8,1.0,0.0
9,1.0,0.0


In [35]:
# 위의 분류 결정 임계값를 다르게 주어, 해약할 확률이 10%만 넘어도 "해약"으로 분류 
from sklearn.preprocessing import Binarizer

In [36]:
pred_pro = model.predict_proba(X_train)[:, 1].reshape(-1,1) # 해약으로 분류 할 확률 가져와 한줄의 시리즈 형태로 변환 

In [37]:
pred_pro

array([[0.        ],
       [0.        ],
       [0.        ],
       ...,
       [0.        ],
       [0.01219512],
       [0.        ]])

In [39]:
# 해약으로 분류될 확률값을 가져와, 10%를 넘어가는 확률에 대해 -> 해약 / 10% 미만은 정상 
Y_train_proba = Binarizer(threshold=0.10).fit_transform(pred_pro)
Y_train_proba

array([[0.],
       [0.],
       [0.],
       ...,
       [0.],
       [0.],
       [0.]])

In [40]:
print(classification_report(Y_train.replace({'정상':0, '해약':1}),Y_train_proba))

              precision    recall  f1-score   support

           0       0.99      0.98      0.99     30116
           1       0.25      0.55      0.35       369

    accuracy                           0.97     30485
   macro avg       0.62      0.77      0.67     30485
weighted avg       0.99      0.97      0.98     30485

