# note
> 머신러닝 정리, 빅분기 대비

- toc: true
- branch: master
- badges: false
- comments: true
- author: pinkocto
- categories: [python]

## 기계학습
- 학습 Train / 검증 Test $\to$ 평가


- 특성공학 : 데이터 전처리
    - 스케일링
    - 인코딩
    - 교차검증
    - 매개변수 튜닝
    
    
- 지도학습 ($Y$)
    - 분류 ($Y$: 범주형) : Logistic Regression
    - 회귀 ($Y$: 연속형)
    
    
- 비지도 학습
    - 군집 분석 : Clustering

### 특성공학

#### `-` Scaling :  숫자 데이터의 스케일 조정 (Standard / MinMax / Robust)
#### `-` Encoding: 숫자 데이터를 문자로 변환 (Label / One hot)
#### `-` Cross Validation: 교차 검증을 통해, 여러개의 모델
#### `-` Model Hyperparameter Tunning: 알고리즘 내 구조를 Tunning

### 지도 학습
#### `-` $Y$ 연속형 (숫자) : Regression 회귀 / 예측
#### `-` $Y$ 범주형 (문자) : Classification 분류


### 비지도 학습

#### `-` 군집분석
#### `-` 차원축소  / 연관분석

## Practice

In [1]:
# Pandas 라이브러리 호출
import pandas as pd

In [5]:
# 데이터 파일 불러오기
df1 = pd.read_csv('./data/Breast_Cancer/data1.csv')

In [6]:
# 데이터 구조 및 타입 확인
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 32 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       569 non-null    int64  
 1   diagnosis                569 non-null    object 
 2   radius_mean              569 non-null    float64
 3   texture_mean             569 non-null    float64
 4   perimeter_mean           569 non-null    float64
 5   area_mean                569 non-null    float64
 6   smoothness_mean          569 non-null    float64
 7   compactness_mean         569 non-null    float64
 8   concavity_mean           569 non-null    float64
 9   concave_points_mean      569 non-null    float64
 10  symmetry_mean            569 non-null    float64
 11  fractal_dimension_mean   569 non-null    float64
 12  radius_se                569 non-null    float64
 13  texture_se               569 non-null    float64
 14  perimeter_se             5

In [8]:
df1['diagnosis'] # Target

0      M
1      M
2      M
3      M
4      M
      ..
564    M
565    M
566    M
567    M
568    B
Name: diagnosis, Length: 569, dtype: object

In [10]:
# 문자를 숫자로 변경
df1['Target'] = df1['diagnosis'].replace('M',1).replace('B',0)

In [12]:
df1['diagnosis'].unique()

array(['M', 'B'], dtype=object)

### 01. Logistic Rgression

In [16]:
Y = df1['diagnosis']
X = df1[['radius_mean', 'perimeter_mean', 'area_mean']]

In [17]:
# Scikit Learn :  특성공학 + 머신러닝
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [18]:
# 학습 및 테스트 데이터 셋 분할
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
                                                    test_size=0.3)

In [20]:
# 모델 학습
model = LogisticRegression()
model.fit(X_train, Y_train)

In [21]:
# 예측값 계산
Y_test_pred = model.predict(X_test)
Y_test_pred

array(['B', 'B', 'M', 'B', 'B', 'B', 'B', 'M', 'M', 'M', 'B', 'B', 'B',
       'M', 'B', 'B', 'B', 'M', 'M', 'M', 'B', 'M', 'B', 'B', 'B', 'M',
       'B', 'M', 'B', 'B', 'M', 'B', 'B', 'B', 'M', 'M', 'B', 'M', 'M',
       'M', 'B', 'B', 'M', 'B', 'B', 'M', 'M', 'M', 'M', 'M', 'M', 'B',
       'B', 'M', 'B', 'M', 'M', 'M', 'M', 'B', 'B', 'M', 'B', 'B', 'B',
       'B', 'M', 'M', 'M', 'B', 'M', 'B', 'B', 'B', 'B', 'M', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'M', 'M', 'B', 'M', 'M', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'M', 'B',
       'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'M', 'B', 'B', 'M', 'B', 'B', 'M', 'B', 'M', 'B', 'B', 'M',
       'M', 'B', 'M', 'B', 'B', 'M', 'M', 'B', 'B', 'B', 'B', 'M', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'M', 'M', 'M', 'M',
       'B', 'B', 'B', 'B', 'B', 'B', 'M', 'B', 'B', 'B', 'M', 'B', 'M',
       'B', 'B'], dtype=object)

In [23]:
# 분류 : 정확도 / 정확도 / 정밀도 / 재현율 / f1
print(classification_report(Y_test, Y_test_pred))

              precision    recall  f1-score   support

           B       0.89      0.90      0.90       110
           M       0.82      0.80      0.81        61

    accuracy                           0.87       171
   macro avg       0.85      0.85      0.85       171
weighted avg       0.87      0.87      0.87       171



- M과 B의 차이가 크지 않아야하고, 만약 차이가 크다면 모델을 다시 만들어야 한다.
- macro avg를 보고 모델이 얼마나 잘 생성되었는지 판단을 하면 된다.

### 특성공학

In [30]:
import pandas as pd

In [32]:
df1 = pd.read_csv('./data/Breast_Cancer/data1.csv')
df1.head(2)

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave_points_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave_points_worst,symmetry_worst,fractal_dimension_worst
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902


In [33]:
print(df1.shape)

(569, 32)
