# 예측적 데이터 분석
- PDA ; Predictive Data Analysis
- 목표변수와 설명변수 간의 관계를 수식화(modeling)하여
- 새로 등잘할 데이터에 대해 예측 혹은 대응
  - 전통 통계 : 회귀분석
  - 데이터 마이닝 : 기계학습 (머신러닝)
  - 전통통계의 회귀분석과 머신러닝의 회귀분석 매커니즘은 다르다.
  - 전통통계에서는 학습 / 검증 데이터를 나누지 않는다.
  - 전통통계에서는 모집단을 잘 추정하고 있는지에 대한 지표들이 있다.

## 머신러닝
- 기계학습 : 컴퓨터가 데이터로부터 새로운 규칙 / 수식을 도출해내는 작업
- 학습능력 : 컴퓨터가 기존의 데이터를 얼마나 잘 학습하는가?
- 일반화능력 : 컴퓨터가 새로운 데이터에 대해 얼마나 잘 예측하는가?

- 기계학습의 3요소
    - 1) 데이터 (교과서) : 학습 목적에 맞는 깔끔한 데이터 셋을 구축해야함
         - 특성공학 : feature engineering 머신러닝 모델을 위해 좋은 턱성을 선택하는 작업
    - 2) 알고리즘 (선생님) : 수학자나 통계학자들이 만들어 놓은 수학적인 구조이다. 컴퓨터 혼자서는 공부(학습) 할 수 없고, 알고리즘을 통해 학습한다.
         - 선형회귀분석 / 의사결정나무 /KNN / SVM / Ensemble /...
    - 3) 하드웨어 (학생) : CPU / GPU와 같이 컴퓨터의 성능을 결정
    - 1,2번은 조절 가능한 부분이다.

## 머신러닝의 3가지 종류
1) 지도학습 (supervised learning) : 목표변수 Y 와 설명변수 X의 관계를 수식화하여, 새로운 X 가 들어올 때 , Y를 예측 / 분류

- 답이 주어지고, 답을 찾아야하는 학습이다.
- 회귀분석 : Y 연속형 : 주가예측 / 매출예측 / ...
- 분류분석 : Y 범주형 : 스팸메일판독 / 불량여부예측 / 고객이탈예측 / ...

2) 비지도학습 (unspervised learning) : 목표변수 Y가 없음
- 답이 없고, 비슷한 군으로 묶어줌
- 설명변수 X 간의 유사성,연관성 등을 계산하여 유사한 데이터끼리 묶거나 군집화
- 군집분석 (clustering) / 연관분석 (association analysis)
- 장바구니 분석 / 추천 시스템 / 유튜브 영상 추천 / 상품추천 / ...

3) 강화학습 (reinforcement learning)
- 컴퓨터가 시뮬레이션을 통해 주어진 상황에 대해 (사용자가 정의한 상황) 보상이 좋은 방향으로 학습
- 데이터가 주어지지 않음 / 답도 정해져있지 않음
- 알파고 / 게임 AI / ...

# 분류모델

In [1]:
from sklearn.model_selection import train_test_split

In [2]:
# 01_Data.csv

## 지도학습 절차
- 목표변수 : Y 계약해지 여부 'State'
- 설명변수 : X 계약정보

1. 데이터 핸들링 : 데이터를 불러와서 파생변수 / 이상치 제거 / 결측값 처리 / 변수 선택
2. 목표변수 Y (State) 와 설명변수 X를 선언
3. 학습데이터(Train_Set) 검증 데이터(Test_Set) 분할
4. 학습을 수행
  - 특성공학 (feature engineering : 학습을 잘 수행하기 위한 데이터 처리 기법)
     - 결측값 처리 / 스케일링 / 인코딩 / 교차검증 / ...
  - 학습 알고리즘에 의한 학습 수행

5. 평가 (Evaluation) : 학습 능력 평가 / 일반화 능력 평가
6. 실행
    - 모델을 사용 가능한 형태로 변환 (파일 : 새로운 데이터만 입력할 수 있도록)

In [2]:
import pandas as pd
df1 = pd.read_csv('01_Data.csv')

In [5]:
df1

Unnamed: 0,Index,Member_ID,Sales_Type,Contract_Type,Channel,Datetime,Term,Payment_Type,Product_Type,Amount_Month,Customer_Type,Age,Address1,Address2,State,Overdue_count,Overdue_Type,Gender,Credit_Rank,Bank
0,1,66758234,렌탈,일반계약,영업방판,2022-05-05,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,9.0,새마을금고
1,2,66755948,렌탈,교체계약,영업방판,2023-02-19,60,카드이체,DES-1,102900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,2.0,현대카드
2,3,66756657,렌탈,일반계약,홈쇼핑/방송,2022-02-27,60,CMS,DES-1,96900,개인,48.0,경기도,경기도,계약확정,0,없음,여자,8.0,우리은행
3,4,66423450,멤버십,멤버십3유형,재계약,2022-05-12,12,CMS,DES-1,66900,개인,39.0,경기도,경기도,계약확정,0,없음,남자,5.0,농협회원조합
4,5,66423204,멤버십,멤버십3유형,재계약,2022-05-09,12,CMS,DES-1,66900,개인,60.0,경기도,경기도,기간만료,12,있음,남자,8.0,농협회원조합
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51296,51298,66579515,렌탈,프로모션계약,대형마트A,2022-02-28,60,CMS,DES-3A,96900,개인,47.0,경기도,경기도,계약확정,0,없음,남자,,기업은행
51297,51299,66799558,렌탈,일반계약,대형마트A,2022-03-31,60,CMS,DES-1,96900,개인,42.0,경기도,경기도,계약확정,0,없음,여자,8.0,새마을금고
51298,51300,66799197,렌탈,프로모션계약,영업방판,2022-03-31,39,카드이체,ERA,120900,개인,65.0,서울특별시,서울특별시,계약확정,0,없음,여자,1.0,롯데카드
51299,51301,66792778,렌탈,일반계약,홈쇼핑/방송,2023-02-05,60,카드이체,DES-1,96900,개인,54.0,서울특별시,서울특별시,계약확정,0,없음,여자,2.0,롯데카드


In [6]:
df1.columns

Index(['Index', 'Member_ID', 'Sales_Type', 'Contract_Type', 'Channel',
       'Datetime', 'Term', 'Payment_Type', 'Product_Type', 'Amount_Month',
       'Customer_Type', 'Age', 'Address1', 'Address2', 'State',
       'Overdue_count', 'Overdue_Type', 'Gender', 'Credit_Rank', 'Bank'],
      dtype='object')

In [7]:
# state의 항목 / 빈도 확인
df1['State'].value_counts()

State
계약확정     50620
해약확정       622
기간만료        45
해약진행중       14
Name: count, dtype: int64

In [10]:
# 1.데이터 핸들링 : 데이터를 불러와서 파생변수 / 이상치 제거 / 결측값 처리 / 변수 선택
# target 컬럼 생성
df1['Target'] = df1['State'].replace( {'계약확정':0 , '해약확정': 1 , '기간만료': 0 , '해약진행중': 1}) 

# 컴퓨터는 0과1이 인식하기 좋기 때문에 0과1로 저장한다.
# 해약을 예측하려 하기애ㅔ , 해약을 1로 설정

In [11]:
df1['Target'].value_counts()

Target
0    50665
1      636
Name: count, dtype: int64

In [12]:

# 결측값 제거 , 1번 단계가 끝남
df2 = df1.dropna()

In [13]:
# 2. 목표변수와 설명변수 설정
Y = df2['Target']
X =df2[['Term','Amount_Month','Age','Credit_Rank']]

In [14]:
# 3. 학습 데이터 검증 데이터 분할
from sklearn.model_selection import train_test_split

In [15]:
x_train , x_test, y_train , y_test = train_test_split(X,Y, random_state=1234)
# unpacking

In [17]:
# 4. 학습수행
from sklearn.tree import DecisionTreeClassifier
# 분류학습을 도와줄 알고리즘

In [18]:
model = DecisionTreeClassifier()
model.fit( x_train, y_train)

# fit 학습시키는 함수

In [19]:
# 5. 평가수행
from sklearn.metrics import accuracy_score

In [23]:
# 학습능력평가
# 얼마나 input이 잘 됐냐
y_train_pred = model.predict(x_train) # predict() 답안지 없이 풀어보는 함수

In [24]:
accuracy_score(y_train,y_train_pred) # 실제 답 과 답안지 없이 풀어본 값의 차이 Ex) y_train - y_train_pred , 결과 : 0.98...

0.9883877316713138

In [25]:
# 일반화 능력 평가
y_test_pred = model.predict(x_test)

In [26]:
accuracy_score(y_test,y_test_pred)

0.9860263727612675

In [27]:
Y.value_counts()

Target
0    40137
1      510
Name: count, dtype: int64

In [28]:
Y

0        0
1        0
2        0
3        0
4        0
        ..
51295    0
51297    0
51298    0
51299    0
51300    0
Name: Target, Length: 40647, dtype: int64

## 분류 모델을 평가하는 여러 지표
- 모델평가 기법(evaluation)
1) 분류에서 평가
정확도 accuracy : ㅈ어확하게 예측한 수 / 전체 데이터 중

- confusion matrix 오차행렬 : 정확도만 가지고 평가하는 한계깍 있어서 사용한다.
- Precision 정밀도 : TP / ( TP + FP ) : 예측한 것중 실제 타켓의 수
   - TP(True Positive) , FP(False Postive)
- Recall 재현율 : TP / (TP + FN) : 실제 타켓 중에 예측 성공한 타겟 수
  - TP(True Positive) , FN(False Negative)
- F1 Score : [ 2x (정밀도) x (재현율)] / 정밀도 + 재현율

In [29]:
# 분류 모델 평가지표 계산함수
from sklearn.metrics import classification_report

In [31]:
# 학습능력 평가
print( classification_report(y_train, y_train_pred))

# precision 해약을 나타내는 것
# 데이터 비율이 깨져있는 경우에는 recall이 높게나오는게 중요하다.
# precision : 맞힌 것 / 맞다고 한것
# recall : 맞힌 것 / 맞은 것(실제 타켓)

              precision    recall  f1-score   support

           0       0.99      1.00      0.99     30091
           1       0.95      0.11      0.19       394

    accuracy                           0.99     30485
   macro avg       0.97      0.55      0.59     30485
weighted avg       0.99      0.99      0.98     30485



In [32]:
# 일반화 능력 평가
# 전에 없던 데이터를 가지고 성적을 냄

print( classification_report(y_test,y_test_pred))

              precision    recall  f1-score   support

           0       0.99      1.00      0.99     10046
           1       0.07      0.02      0.03       116

    accuracy                           0.99     10162
   macro avg       0.53      0.51      0.51     10162
weighted avg       0.98      0.99      0.98     10162



In [33]:
# 모델을 저장
import pickle

In [34]:
# 학습 모델 저장
pickle.dump(model , open('model.sav','wb'))

# wb : write binary : 파일 생성
# rb : read binary : 파일 읽기

### 회귀모델 (Regression Model)
- 회귀 모델 평가 지표

- R² (R sqaure) : 결정계수 : 회귀선이 데이터를 얼마나 잘 설명하는가 (0에서 1사이의 값을 가진다)
- 총 변동 SST (TSS) : (Total Sum of Square)
- 회귀변동 SSE (ESS) : (Explained Sum of Square) /
  - (Regression Sum of Square : SSR)
- 오차변동 SSR (RSS) : (Residual sum of Square)
  - (Erro sum of square : SSE )

-  R² = SST / SST = ( 1-SSR / SST )

평균과 실제값 (관측값)은 주어진 값이다.
예측값은 회귀선에 의해 조정할 수 있는 값이다.

회귀선이 예측을 잘할수록 R²가 1에 가까워진다.

MSE (Mean Square Error)
시그마( 실제값 - 예측값)² / 데이터 수

MAE ( Mean Absolute Error)
시그마 ( 절대값( 실제값 - 예측값 )) / 데이터 수

RMSE (Root Mean Sqaure Error) : MSE가 제곱을 하여 수치가 너무 크게 나오니 Root를 씌어줌

R² : 0 ~ 1 사이의 값을 가진다. 그런데 위의 세 지표는 upper boundry이 없고 클수록 안좋다.

In [4]:
# preprocessing_data

df1 = pd.read_csv('preprocessing_data.csv')
df1.head()

Unnamed: 0.1,Unnamed: 0,Ox_Chamber,process,type,Temp_OXid,Vapor,ppm,Pressure,Oxid_time,thickness,...,Flux480s,Flux840s,input_Energy,Temp_implantation,Furance_Temp,RTA_Temp,Target,Error_message,target_binom,Chamber_Route
0,0,1,Oxidation,dry,1138.979159,O2,32.8,0.2,62.0,699.443,...,3.002593e+17,6.000007e+17,31574.41,102.847,885.0,154,96,none,0.0,route_11133
1,1,1,Oxidation,dry,1218.184551,O2,31.86,0.194,137.0,696.792,...,3.017903e+17,6.000012e+17,31580.213,104.323,919.0,154,102,none,0.0,route_11222
2,2,1,Oxidation,dry,1062.467808,O2,39.51,0.217,128.0,705.471,...,2.994231e+17,6.000002e+17,32162.414,100.605,916.0,155,95,none,0.0,route_11311
3,3,1,Oxidation,dry,1114.704773,O2,32.88,0.201,90.0,710.772,...,2.991354e+17,6.000003e+17,32874.925,101.739,911.0,156,117,none,0.0,route_12111
4,4,1,Oxidation,dry,989.411946,O2,38.11,0.204,98.0,716.975,...,3.005576e+17,6.000013e+17,30985.928,106.422,872.0,155,143,none,0.0,route_12222


In [5]:
df1.shape

(752, 60)

In [6]:
df1.columns

Index(['Unnamed: 0', 'Ox_Chamber', 'process', 'type', 'Temp_OXid', 'Vapor',
       'ppm', 'Pressure', 'Oxid_time', 'thickness', 'No_Die', 'Reinforcement',
       'Unnamed: 0_x', 'photo_soft_Chamber', 'process 2', 'resist_target',
       'N2_HMDS', 'pressure_HMDS', 'temp_HMDS', 'temp_HMDS_bake',
       'time_HMDS_bake', 'spin1', 'spin2', 'spin3', 'photoresist_bake',
       'temp_softbake', 'time_softbake', 'lithography_Chamber', 'Line_CD',
       'UV_type', 'Wavelength', 'Resolution', 'Energy_Exposure', 'Range_check',
       'Unnamed: 0_y', 'Etching_Chamber', 'Process 3', 'Temp_Etching',
       'Source_Power', 'Selectivity', 'Thin Film 4', 'Thin Film 3',
       'Thin Film 2', 'Thin Film 1', 'Etching_rate', 'Chamber_Num', 'process4',
       'Flux60s', 'Flux90s', 'Flux160s', 'Flux480s', 'Flux840s',
       'input_Energy', 'Temp_implantation', 'Furance_Temp', 'RTA_Temp',
       'Target', 'Error_message', 'target_binom', 'Chamber_Route'],
      dtype='object')

In [15]:
from sklearn.model_selection import train_test_split
Y = df1['Target'] # wafer 내의 불량칩 개수
X = df1[['Temp_OXid','Oxid_time','thickness','Line_CD',
        'Etching_rate','Temp_Etching']]

In [16]:
# 학습데이터 검증데이터 분할
x_train , x_test , y_train , y_test = train_test_split(X,Y,random_state=1234)

# test_size 옵션으로 학습데이터와 검증데이터 비율을 정할 수 있다.

In [17]:
print( x_train.shape)
print( x_test.shape)
print( y_train.shape)
print( y_test.shape)

(564, 6)
(188, 6)
(564,)
(188,)


In [18]:
# 알고리즘
from sklearn.linear_model import LinearRegression


In [21]:
model = LinearRegression()
model.fit(x_train,y_train)

In [22]:
# 평가지표
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

In [23]:
y_train_pred = model.predict(x_train)

In [24]:
y_test_pred = model.predict(x_test)

In [26]:
# R² 
r2_score(y_train,y_train_pred)

# 0~1 사이의 값을 가지고 ,1에 가까울수록 회귀선이 데이터를 잘 설명한다.

0.3458237902299175

In [27]:
r2_score(y_test,y_test_pred)

0.2939680114254186

In [29]:
# MSE
mean_squared_error(y_train,y_train_pred)
# R²와는 다르게 상한이 없고, 클수룩 회귀선이 데이터를 설명하지 못한다는 의미이다.

2684.955321336236

In [30]:
mean_squared_error(y_test,y_test_pred)

2089.4785779224744

In [31]:
# MAE
mean_absolute_error(y_train,y_train_pred)

37.230011618024804

In [32]:
mean_absolute_error(y_test,y_test_pred)

34.71724975119017

In [34]:
def evaluation_reg(model):
    y_train_pred = model.predict(x_train)
    y_test_pred = model.predict(x_test)
    print('학습 데이터 결정계수 :',r2_score(y_train,y_train_pred))
    print('검증 데이터 결정계수 : ',r2_score(y_test,y_test_pred))
    print('학습 데이터 MSE : ', mean_squared_error(y_train,y_train_pred))
    print('검증 데이터 MSE : ', mean_squared_error(y_test,y_test_pred))
    print('학습 데이터 MAE : ',mean_absolute_error(y_train,y_train_pred))
    print('검증 데이터 MAE : ',mean_absolute_error(y_train,y_train_pred))

In [36]:
evaluation_reg(model)
# 한꺼번에 확인하는 함수를 만들어 줌

학습 데이터 결정계수 : 0.3458237902299175
검증 데이터 결정계수 :  0.2939680114254186
학습 데이터 MSE :  2684.955321336236
검증 데이터 MSE :  2089.4785779224744
학습 데이터 MAE :  37.230011618024804
검증 데이터 MAE :  37.230011618024804


## 특성 공학 기법 적용
- pipeline : 학습과 특성공학을 동시에 사용할 수 있게 해주는 라이브러리
- 데이터를 한꺼번에 처리하며 학습을 수행하는 함수

In [37]:
from sklearn.pipeline import Pipeline
# 학습 + 특성공학 둘 다 사용할 수 있게 해주는 함수

from sklearn.impute import SimpleImputer
# 결측치 : 단일값으로 대치해주는 함수

In [39]:
Y =df1['Target']
X = df1[['Temp_OXid','Oxid_time','thickness','Line_CD','Etching_rate','Temp_Etching']]

In [40]:
x_trian,x_test,y_train,y_test = train_test_split(X,Y,
                                                random_state=1234)

In [42]:
# 파이프라인 생성

pipe_list = [('imputer',SimpleImputer() ),
             ('model',LinearRegression() )]

In [43]:
pipe_model = Pipeline( pipe_list)

In [44]:
pipe_model.fit( x_train,y_train)

# 결측치 지나가고 선형회귀할것이라는 뜻

In [45]:
evaluation_reg( pipe_model)

학습 데이터 결정계수 : 0.3458237902299175
검증 데이터 결정계수 :  0.2939680114254186
학습 데이터 MSE :  2684.955321336236
검증 데이터 MSE :  2089.4785779224744
학습 데이터 MAE :  37.230011618024804
검증 데이터 MAE :  37.230011618024804


In [46]:
X.columns

Index(['Temp_OXid', 'Oxid_time', 'thickness', 'Line_CD', 'Etching_rate',
       'Temp_Etching'],
      dtype='object')

In [48]:
x1 = input(f' {X.columns[0]}을 입력하시오 :')
x2 = input(f' {X.columns[1]}을 입력하시오 :')
x3 = input(f' {X.columns[2]}을 입력하시오 :')
x4 = input(f' {X.columns[3]}을 입력하시오 :')
x5 = input(f' {X.columns[4]}을 입력하시오 :')
x6 = input(f' {X.columns[5]}을 입력하시오 :')

 Temp_OXid을 입력하시오 : 50
 Oxid_time을 입력하시오 : 40
 thickness을 입력하시오 : 30
 Line_CD을 입력하시오 : 20
 Etching_rate을 입력하시오 : 10
 Temp_Etching을 입력하시오 : 0


In [49]:
input_data = pd.DataFrame( [[x1,x2,x3,x4,x5,x6]],
                         columns=X.columns)
input_data

Unnamed: 0,Temp_OXid,Oxid_time,thickness,Line_CD,Etching_rate,Temp_Etching
0,50,40,30,20,10,0


In [50]:
pipe_model.predict(input_data)
# 입력한 데이터에서는 불량칩 개수가 몇개 발생할까? 예측

array([7694.12509889])

In [52]:
# 결측값 입력
import numpy as np
input_data2 = pd.DataFrame([[x1,np.nan,np.nan,x4,x5,x6]],
                          columns=  X.columns)
input_data2

Unnamed: 0,Temp_OXid,Oxid_time,thickness,Line_CD,Etching_rate,Temp_Etching
0,50,,,20,10,0


In [54]:
pipe_model.predict(input_data2)

# 결측값이 있어도 알아서 해준다.

array([8506.20953928])

## Pipeline Compose Column Tranfer
- 연속형 / 범주형 데이터를 모두 모델에 사용

In [55]:
# scaling : 연속형 
# encoding : 범주형

In [56]:
# scaling : 연속형 데이터의 규모(사이즈) 일정해주는 작업
# Ex) 계약기간 12~ 17 / 비용 10000000 ~ 500000000 / 연련 20 ~ 60
# 컴퓨터는 이 숫자들의 의미와 정상범위를 알지 못한다
# 이 규모가 다름에 민감하게 반응하지 못한다.

# standard scaler : 모든 숫자 데이터를 평균 0, 표준편차 1
# min max scaler : 최소값을 0, 최대값을 1로 변환
# robust scaler : 모든 숫자 데이터를 중앙값 0 ,IQR 1

In [57]:
# encoding : 범주형 데이터를 숫자 데이터로 변환
# label encoding : 범주형 데이터의 각 항목을 정수로 변환
# one hot encoding : 0 아니면 1 행렬로 변환 : 컴퓨터는 유무만 인식

# 사과 딸기 배
# [1,0,0] : 사과
# [0,1,0] : 딸기
# [0,0,1] : 배

In [58]:
# 파이프라인
# scaling / encoding / imputation : 숫자형 / 범주형에 따라 각각 적용되어야함

In [60]:
Y =df1['Target']
X = df1[['Oxid_time','thickness','Vapor','resist_target',
        'Line_CD','Etching_rate','UV_type']]

In [61]:
x_train,x_test,y_train,y_test = train_test_split(X,Y,
                                                random_state=1234)

In [64]:
# 라이브러리 호출
from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline

# 스케일링 & 인코딩
from sklearn.preprocessing import MinMaxScaler # 연속형 데이터 스케일링
from sklearn.preprocessing import OneHotEncoder # 범주형 데이터 인코딩

In [65]:
X.head()

Unnamed: 0,Oxid_time,thickness,Vapor,resist_target,Line_CD,Etching_rate,UV_type
0,62.0,699.443,O2,1.21194,30.959,2.7595,H
1,137.0,696.792,O2,0.88772,29.653,2.72775,H
2,128.0,705.471,O2,1.113156,28.063,2.67,I
3,90.0,710.772,O2,0.882195,31.556,2.74825,I
4,98.0,716.975,O2,0.834001,31.969,2.74625,I


In [67]:
# describe 함수를 이용해 연속형 컬럼과 범주형 컬럼을 추출
X.describe().columns
# 연속형 컬럼만 추출

Index(['Oxid_time', 'thickness', 'resist_target', 'Line_CD', 'Etching_rate'], dtype='object')

In [70]:
X.describe(include='object').columns 
# 범주형 컬럼만 추출

Index(['Vapor', 'UV_type'], dtype='object')

In [72]:
# 연속형 파이프라인 생성
numeric_pipe =make_pipeline( SimpleImputer ( strategy= 'mean'),
                           MinMaxScaler())
numeric_pipe

# strategy= 'mean' 이 기본 값다 그래서 SimpleImputer() 로 표시된다.

In [74]:
# 범주형 파이프라인 생성
category_pipe =make_pipeline( SimpleImputer ( strategy='most_frequent'),
                            OneHotEncoder())
category_pipe

In [75]:
# 두 파이프를 합치자
numeric_list = X.describe().columns
category_list = X.describe( include='object').columns

In [76]:
preprocessing_pipe = make_column_transformer( (numeric_pipe,numeric_list), 
                                            (category_pipe,category_list))

In [77]:
preprocessing_pipe

In [78]:
# 알고리즘 학습
# 회귀

pipe_model = make_pipeline( preprocessing_pipe,LinearRegression() )
pipe_model

In [79]:
# 학습 수행
pipe_model.fit(x_train,y_train)

In [80]:
evaluation_reg( pipe_model)

학습 데이터 결정계수 : 0.38311464373728366
검증 데이터 결정계수 :  0.28547901254699726
학습 데이터 MSE :  2531.901336696589
검증 데이터 MSE :  2114.6014924525657
학습 데이터 MAE :  36.33614506435797
검증 데이터 MAE :  36.33614506435797


In [82]:
# 교차 검증

In [83]:
Y =df1['target_binom'] #불량 여부
X = df1[['thickness','resist_target','Etching_rate','UV_type','Line_CD']]

In [84]:
from sklearn.compose import make_column_transformer


In [85]:
x_train,x_test,y_train,y_test = train_test_split(X,Y,
                                                random_state=1234)

In [86]:
numeric_list = X.describe().columns
category_list = X.describe(include='object').columns

In [87]:
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import OneHotEncoder

In [88]:
# 연속형 파이프 생성
numeric_pipe = make_pipeline( SimpleImputer( strategy='median'),
                            RobustScaler())
# 문자형 파이프 생성
category_pipe = make_pipeline( SimpleImputer( strategy = 'most_frequent'),
                             OneHotEncoder())

In [89]:
numeric_pipe

In [90]:
category_pipe

In [130]:

from sklearn.tree import DecisionTreeClassifier
# 합치기
preprocessing_pipe = make_column_transformer( (numeric_pipe,numeric_list)
                                  ,(category_pipe,category_list))
# 학습
model_pipe = make_pipeline( preprocessing_pipe, DecisionTreeClassifier())
model_pipe

In [131]:
# 교차검증 라이브러리
from sklearn.model_selection import GridSearchCV # 교차검증 + 하이퍼파라미터튜닝

In [132]:
# 학습 데이터를 5개로 분할하여 ,교차검증 수행
grid_model = GridSearchCV(model_pipe , param_grid={},cv=5,scoring='f1')

# scoring : 교차검증을 수행한 후 , 가장 성능이 좋은 모델을 선택할 때 ,
# 기준이되는 성능지표

In [133]:
grid_model.fit(x_train,y_train)

In [134]:
# 최적의 모델을 선정
best_model = grid_model.best_estimator_

In [135]:
#분류모델 평가 함수 구성
from sklearn.metrics import classification_report

def evaluation_func(model):
    y_train_pred = model.predict(x_train)
    y_test_pred = model.predict(x_test)
    print('학습 능력')
    print(classification_report(y_train, y_train_pred))
    print('일반화 능력')
    print(classification_report(y_test, y_test_pred))

In [136]:
evaluation_func(best_model)

학습 능력
              precision    recall  f1-score   support

         0.0       1.00      1.00      1.00       516
         1.0       1.00      1.00      1.00        48

    accuracy                           1.00       564
   macro avg       1.00      1.00      1.00       564
weighted avg       1.00      1.00      1.00       564

일반화 능력
              precision    recall  f1-score   support

         0.0       0.92      0.93      0.93       172
         1.0       0.20      0.19      0.19        16

    accuracy                           0.87       188
   macro avg       0.56      0.56      0.56       188
weighted avg       0.86      0.87      0.87       188



# 프로젝트 만드는법
- 과제명 설정 : 제목
  - 무엇을 어떻게 해결할 것이냐 , 구체적으로 표현 , 도메인에 대해서 잘 알고있어야함
- 추진 배경 작성
  - 왜하는지를 설명하는 부분 , 인사이트 도출
- 현황 및 목표 설정
  - 현재 업계 현황을 설명 , 자사나 타사 이야기를 한다.  , KPI (목표) : 퍼센트로 제시하는게 좋다.
  - - 왼쪽 상단부터 작성하여 결론을 밑에 쓰는 것이 좋다.
- 데이터 분석 계획서 작성
  - 분석 전 미리 계획을 작성해야함
  - 데이터 분석 계획서가 있어야 팀끼리 협업이 원활하다

