## **각 class에 속하는 지 분류 (다항분류 A / B / C/ D)**
### 1. 패키지 설치 및 데이터 로드

In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

body = pd.read_csv('https://raw.githubusercontent.com/ADPclass/ADP_book_ver01/main/data/bodyPerformance.csv')
body.head()

Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,class
0,27.0,M,172.3,75.24,21.3,80.0,130.0,54.9,18.4,60.0,217.0,C
1,25.0,M,165.0,55.8,15.7,77.0,126.0,36.4,16.3,53.0,229.0,A
2,31.0,M,179.6,78.0,20.1,92.0,152.0,44.8,12.0,49.0,181.0,C
3,32.0,M,174.5,71.1,18.4,76.0,147.0,41.4,15.2,53.0,219.0,B
4,28.0,M,173.8,67.7,17.1,70.0,127.0,43.5,27.1,45.0,217.0,B


In [2]:
body['class'].value_counts()

class
C    3349
D    3349
A    3348
B    3347
Name: count, dtype: int64

In [3]:
# 성별은 여자 남자 2개 밖에 없으니까 이진분류
body['gender'] = np.where(body['gender']=='M', 0, 1)

# class A,B,C 
mapping = {'A':0, 'B':1, 'C':2, 'D':3}
body['class_2'] = body['class'].map(mapping)
body.head()

Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,class,class_2
0,27.0,0,172.3,75.24,21.3,80.0,130.0,54.9,18.4,60.0,217.0,C,2
1,25.0,0,165.0,55.8,15.7,77.0,126.0,36.4,16.3,53.0,229.0,A,0
2,31.0,0,179.6,78.0,20.1,92.0,152.0,44.8,12.0,49.0,181.0,C,2
3,32.0,0,174.5,71.1,18.4,76.0,147.0,41.4,15.2,53.0,219.0,B,1
4,28.0,0,173.8,67.7,17.1,70.0,127.0,43.5,27.1,45.0,217.0,B,1


### 2. 데이터 확인

In [4]:
body.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13393 entries, 0 to 13392
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   age                      13393 non-null  float64
 1   gender                   13393 non-null  int32  
 2   height_cm                13393 non-null  float64
 3   weight_kg                13393 non-null  float64
 4   body fat_%               13393 non-null  float64
 5   diastolic                13393 non-null  float64
 6   systolic                 13393 non-null  float64
 7   gripForce                13393 non-null  float64
 8   sit and bend forward_cm  13393 non-null  float64
 9   sit-ups counts           13393 non-null  float64
 10  broad jump_cm            13393 non-null  float64
 11  class                    13393 non-null  object 
 12  class_2                  13393 non-null  int64  
dtypes: float64(10), int32(1), int64(1), object(1)
memory usage: 1.3+ MB


> 결측치가 없는 것으로 확인

In [5]:
# 종속변수와 독립변수 구분
y = body[['class_2']]
x = body[body.columns.difference(['class_2', 'class'])]
x.head()

Unnamed: 0,age,body fat_%,broad jump_cm,diastolic,gender,gripForce,height_cm,sit and bend forward_cm,sit-ups counts,systolic,weight_kg
0,27.0,21.3,217.0,80.0,0,54.9,172.3,18.4,60.0,130.0,75.24
1,25.0,15.7,229.0,77.0,0,36.4,165.0,16.3,53.0,126.0,55.8
2,31.0,20.1,181.0,92.0,0,44.8,179.6,12.0,49.0,152.0,78.0
3,32.0,18.4,219.0,76.0,0,41.4,174.5,15.2,53.0,147.0,71.1
4,28.0,17.1,217.0,70.0,0,43.5,173.8,27.1,45.0,127.0,67.7


In [6]:
x.describe()

Unnamed: 0,age,body fat_%,broad jump_cm,diastolic,gender,gripForce,height_cm,sit and bend forward_cm,sit-ups counts,systolic,weight_kg
count,13393.0,13393.0,13393.0,13393.0,13393.0,13393.0,13393.0,13393.0,13393.0,13393.0,13393.0
mean,36.775106,23.240165,190.129627,78.796842,0.367804,36.963877,168.559807,15.209268,39.771224,130.234817,67.447316
std,13.625639,7.256844,39.868,10.742033,0.482226,10.624864,8.426583,8.456677,14.276698,14.713954,11.949666
min,21.0,3.0,0.0,0.0,0.0,0.0,125.0,-25.0,0.0,0.0,26.3
25%,25.0,18.0,162.0,71.0,0.0,27.5,162.4,10.9,30.0,120.0,58.2
50%,32.0,22.8,193.0,79.0,0.0,37.9,169.2,16.2,41.0,130.0,67.4
75%,48.0,28.0,221.0,86.0,1.0,45.2,174.8,20.7,50.0,141.0,75.3
max,64.0,78.4,303.0,156.2,1.0,70.5,193.8,213.0,80.0,201.0,138.1


> 독립변수들의 크기가 너무 다르다!! -> Scaling 필요해보인다.

__[궁금증] 독립변수들의 범위가 너무 클 때, 항상 스케일링을 해야할까?__

독립 변수들의 범위가 너무 클 때 스케일링을 해서 범위를 맞추는 것이 `항상 필요한 것은 아닙니다`. 

스케일링은 주로 다음과 같은 경우에 유용합니다:
- 1. 모델의 성능 향상: 일부 머신러닝 알고리즘은 독립 변수의 스케일에 민감하게 반응할 수 있습니다. 예를 들어, 경사 하강법을 사용하는 선형 회귀나 로지스틱 회귀와 같은 알고리즘은 스케일이 큰 변수에 영향을 받을 수 있습니다. 따라서, 독립 변수들의 스케일을 조정하면 모델의 수렴 속도가 빨라지고 성능이 향상될 수 있습니다.

- 2. 정규화: 스케일링은 종종 정규화의 일부로 사용됩니다. 변수의 범위를 조정하면 모든 변수가 동일한 스케일로 표준화되어 모델이 가중치를 학습하는 데에 도움이 됩니다. 이는 모델의 일반화 성능을 향상시키고 오버피팅을 방지하는 데에 도움이 될 수 있습니다.

- 3. 시각화: 독립 변수들을 시각화할 때 스케일링을 사용하면 차트의 축이 일관된 범위를 가지게 되어 해석이 쉬워질 수 있습니다.

그러나 모든 경우에 스케일링을 적용하는 것이 적합한 것은 아닙니다. 예를 들어, `트리 기반의 알고리즘(의사 결정 트리, 랜덤 포레스트 등)은 스케일에 민감하지 않기 때문에 스케일링을 적용할 필요가 없습니다. 또한, 스케일링은 변수의 중요도나 해석력을 감소시킬 수 있으므로 주의가 필요합니다`. 따라서, 데이터와 모델에 따라 스케일링의 적용 여부를 결정해야 합니다.

In [7]:
x

Unnamed: 0,age,body fat_%,broad jump_cm,diastolic,gender,gripForce,height_cm,sit and bend forward_cm,sit-ups counts,systolic,weight_kg
0,27.0,21.3,217.0,80.0,0,54.9,172.3,18.4,60.0,130.0,75.24
1,25.0,15.7,229.0,77.0,0,36.4,165.0,16.3,53.0,126.0,55.80
2,31.0,20.1,181.0,92.0,0,44.8,179.6,12.0,49.0,152.0,78.00
3,32.0,18.4,219.0,76.0,0,41.4,174.5,15.2,53.0,147.0,71.10
4,28.0,17.1,217.0,70.0,0,43.5,173.8,27.1,45.0,127.0,67.70
...,...,...,...,...,...,...,...,...,...,...,...
13388,25.0,16.2,198.0,74.0,0,35.8,172.1,17.4,47.0,141.0,71.80
13389,21.0,12.1,167.0,74.0,0,33.0,179.7,1.1,48.0,128.0,63.90
13390,39.0,20.1,229.0,78.0,0,63.5,177.2,16.4,45.0,132.0,80.50
13391,64.0,40.4,75.0,68.0,1,19.3,146.1,9.2,0.0,121.0,57.70


### 3. 독립변수들의 scaling

In [8]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)
x_scaled

array([[-0.71743212, -0.26736655,  0.67400862, ...,  1.41696147,
        -0.01595937,  0.65215002],
       [-0.8642197 , -1.03908068,  0.97501314, ...,  0.92663372,
        -0.28782032, -0.97473438],
       [-0.42385695, -0.43273387, -0.22900492, ...,  0.64644644,
         1.47927584,  0.88312744],
       ...,
       [ 0.16329338, -0.43273387,  0.97501314, ...,  0.36625915,
         0.1199711 ,  1.09234611],
       [ 1.99813815,  2.36472984, -2.88787813, ..., -2.7858478 ,
        -0.6276465 , -0.81572819],
       [-0.20367558, -0.51541752, -0.25408863, ...,  0.78654008,
         1.34334536, -0.11275345]])

In [9]:
df_scaled_x = pd.DataFrame(x_scaled, columns=x.columns)
df_scaled_x.head()

Unnamed: 0,age,body fat_%,broad jump_cm,diastolic,gender,gripForce,height_cm,sit and bend forward_cm,sit-ups counts,systolic,weight_kg
0,-0.717432,-0.267367,0.674009,0.112009,-0.76275,1.68819,0.443873,0.377317,1.416961,-0.015959,0.65215
1,-0.86422,-1.039081,0.975013,-0.167278,-0.76275,-0.053073,-0.422465,0.128984,0.926634,-0.28782,-0.974734
2,-0.423857,-0.432734,-0.229005,1.229158,-0.76275,0.737554,1.310211,-0.379509,0.646446,1.479276,0.883127
3,-0.350463,-0.667004,0.724176,-0.260374,-0.76275,0.417538,0.704961,-0.001096,0.926634,1.13945,0.305684
4,-0.644038,-0.846152,0.674009,-0.818948,-0.76275,0.615195,0.621888,1.406129,0.366259,-0.219855,0.021147


### 4. 학습, 테스트 셋 분리

In [10]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_scaled_x, y, test_size=0.3, random_state=10)

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(9375, 11) (9375, 1)
(4018, 11) (4018, 1)


### 5. 모델링
- 이진분류가 아닌 다항분류는 LogisticRegression parameters 에 `multi_class='multinomial', solver='lbfgs'` 설정

    1. multi_class='multinomial':
    - multi_class 매개 변수는 다항 분류를 지정합니다. 'multinomial' 옵션은 다중 클래스 분류 모델을 의미합니다. 이 옵션을 선택하면 softmax 함수를 사용하여 다중 클래스 로지스틱 회귀 모델을 학습합니다.
    - oftmax 함수는 다중 클래스 분류에서 각 클래스에 대한 확률을 예측하는 데 사용됩니다. 모델은 각 클래스에 대한 확률을 출력하고, 가장 높은 확률을 갖는 클래스를 선택하여 예측합니다.

    2. solver='lbfgs':
    - solver 매개 변수는 최적화 알고리즘을 지정합니다. 'lbfgs' 옵션은 Limited-memory Broyden-Fletcher-Goldfarb-Shanno 알고리즘을 나타냅니다.
    - lbfgs 알고리즘은 미분 가능한 함수의 최적화에 사용되며, 다항 로지스틱 회귀와 같은 복잡한 모델에 사용될 수 있습니다. 이 알고리즘은 2차 도함수의 근사치를 이용하여 최적화를 수행합니다.
    - 다항 로지스틱 회귀의 경우 lbfgs가 일반적으로 잘 작동하며, 속도가 빠르고 효율적인 최적화를 제공합니다.

In [12]:
from sklearn.linear_model import LogisticRegression

softm= LogisticRegression(multi_class='multinomial', solver='lbfgs', C=10, random_state=10)
softm.fit(X_train, y_train)

pred = softm.predict(X_test)
pred

array([3, 3, 1, ..., 2, 3, 1], dtype=int64)

### 6. 평가

In [13]:
from sklearn.metrics import accuracy_score, confusion_matrix

print('confusion matrix:', confusion_matrix(y_test, pred))
print('정확도:', accuracy_score(y_test, pred))

confusion matrix: [[722 237  27   0]
 [269 407 327  28]
 [ 79 214 531 183]
 [ 16  47 148 783]]
정확도: 0.60801393728223


In [14]:
softm.predict([X_test.iloc[-1,:]])

array([1], dtype=int64)

> class 1에 속할 것 (='B')

In [15]:
softm.predict_proba([X_test.iloc[-1,:]])

array([[0.22004088, 0.39702972, 0.34337863, 0.03955077]])

> class0에 속할 확률 0.22004088, class1에 속할 확률 0.39702972, class2에 속할 확률 0.34337863, class3에 속할 확률 0.03955077 <br>
> 따라서 X_test 데이터의 가장 마지막 행은 class1 즉 'B' 속할 확률이 높다.