<a href="https://colab.research.google.com/github/seo-minsu/BDA-/blob/main/%EC%9C%A0%ED%98%952.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

###데이터 탐색 --> 결측값, 이상값 처리 --> 변수 처리 --> 모델링 --> 성능 평가

데이터탐색(EDA)
1. 행/열 확인: df.shape
2. 데이터 정보 확인: df.info()
3. 기초통계량 확인: df.describe()
4. 범주형 변수 빈도: df.value_counts()

결측값 확인 및 처리
1. 결측치 확인: df.isnull.sum()
2. 결측치 삭제(행 기준): df.dropna()
3. 결측치 대체: df['A'].median() / mean() / mode()
 - 연속형 데이터: 중앙값, 평균값 대체
 - 범주형 데이터: 최빈값 대체

이상값 확인 및 처리
1. 이상값 확인: df.describe()
  - train, test 데이터의 데이터 분포 형태를 확인해서 이상치 여부 확인
  - 논리적으로 설명할 수 없는 데이터(보통 min, max 값에서 확인)
2. 이상값 처리(train / test 둘 다 살펴보기)
  - 대체:
    * 연속형데이터 - 극단값은 최소나 최대로 대체
    * 범주형데이터 - 최빈으로 대체

분석 변수 처리
1. 불필요한 변수 삭제
 - df = df.drop(columns = ['변수1', '변수2'])
 - df = df.drop(['변수1', '변수2'], axis = 1)
2. 필요시 파생변수 생성
3. 원핫인코딩(문자형 데이터 처리하기)
 - x_train = pd.get_dummies(x_train)
 - x_test = pd.get_dummies(y_test)

모델 선정: RandomForest

================================================================

##2유형 분석순서 다시 한번 정리 !
1. 라이브러리 및 데이터 확인
2. 데이터 탐색(EDA)
  - 데이터타입, 결측치, 기초통계량 등
3. 데이터 전처리 및 분리
  - 결측치/이상치: 대체 혹은 삭제
  - 변수처리: 변수 선택/추가, 원핫인코딩
4. 모델링 및 성능평가
  - 분류: RandomForestClassifier
   * Accuracy, F1 score
  - 회귀: RandomForestRegressor
   * R2, MSE, RMSE
5. 예측값 제출




In [10]:
import pandas as pd
import numpy as np

In [11]:
from sklearn.datasets import load_wine

wine = load_wine()

x = pd.DataFrame(wine.data, columns = wine.feature_names)
y = pd.DataFrame(wine.target)

In [12]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2, stratify=y, random_state=2023)

x_test = pd.DataFrame(x_test)
x_train = pd.DataFrame(x_train)
y_train = pd.DataFrame(y_train)

x_test.reset_index()
y_train.columns = ['target']


In [15]:
## 데이터의 종류 분류하기
## 1. 데이터의 결측치, 이상치 처리
## 2. 분류모델 사용해서 F1 스코어, AUC 값 산출
## 3. 제출은 result 변수에 담아 제출

print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00

In [18]:
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)

(142, 13)
(36, 13)
(142, 1)


In [21]:
print(x_train.head(3))
print(x_test.head(3))
print(y_train.head(3))

     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
52     13.82        1.75  2.42               14.0      111.0           3.88   
146    13.88        5.04  2.23               20.0       80.0           0.98   
44     13.05        1.77  2.10               17.0      107.0           3.00   

     flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
52         3.74                  0.32             1.87             7.05  1.01   
146        0.34                  0.40             0.68             4.90  0.58   
44         3.00                  0.28             2.03             5.04  0.88   

     od280/od315_of_diluted_wines  proline  
52                           3.26   1190.0  
146                          1.33    415.0  
44                           3.35    885.0  
     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
168    13.58        2.58  2.69               24.5      105.0           1.55   
144    12.25        

In [23]:
print(x_train.info())
print(x_test.info())
print(y_train.info())

<class 'pandas.core.frame.DataFrame'>
Index: 142 entries, 52 to 115
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       142 non-null    float64
 1   malic_acid                    142 non-null    float64
 2   ash                           142 non-null    float64
 3   alcalinity_of_ash             142 non-null    float64
 4   magnesium                     142 non-null    float64
 5   total_phenols                 142 non-null    float64
 6   flavanoids                    142 non-null    float64
 7   nonflavanoid_phenols          142 non-null    float64
 8   proanthocyanins               142 non-null    float64
 9   color_intensity               142 non-null    float64
 10  hue                           142 non-null    float64
 11  od280/od315_of_diluted_wines  142 non-null    float64
 12  proline                       142 non-null    float64
dtypes: float6

In [26]:
print(x_train.describe().T)
# y_train.describe().T
print(x_test.describe().T)

                              count        mean         std     min       25%  \
alcohol                       142.0   13.025915    0.812423   11.03   12.3700   
malic_acid                    142.0    2.354296    1.142722    0.74    1.6100   
ash                           142.0    2.340211    0.279910    1.36    2.1900   
alcalinity_of_ash             142.0   19.354225    3.476825   10.60   16.8000   
magnesium                     142.0   98.732394   13.581859   70.00   88.0000   
total_phenols                 142.0    2.303592    0.633955    0.98    1.7575   
flavanoids                    142.0    2.043592    1.033597    0.34    1.2275   
nonflavanoid_phenols          142.0    0.361479    0.124627    0.14    0.2700   
proanthocyanins               142.0    1.575070    0.576798    0.41    1.2425   
color_intensity               142.0    5.005070    2.150186    1.28    3.3000   
hue                           142.0    0.950394    0.220736    0.54    0.7825   
od280/od315_of_diluted_wines

In [28]:
print(y_train.value_counts())

target
1         57
0         47
2         38
Name: count, dtype: int64


In [29]:
print(x_train.isnull().sum())
print(x_test.isnull().sum())
print(y_train.isnull().sum())


alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64
alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64
target    0
dtype: int64


In [None]:
## 결측치 대체 : df['변수명'] = df['변수명'].fillna(대체할 값)
## 이상치 대체 : df['변수명'] = np.where(df['변수명']>=5, 대체할 값, df['변수명'])

## 변수 처리
  ## 불필요한 변수 제거 : df = df.drop(['변수명'], axis = 1)
  ## 필요시 변수 추가(파생변수 생성)

## 원핫인코딩
# x_train = pd.get_dummies(x_train)
# x_test = pd.get_dummies(x_test)
# print(x_train.info())
# print(x_test.info())

In [32]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# 데이터 로드
wine = load_wine()
X = wine['data']
y = wine['target']

# 데이터를 8:2로 분할
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, stratify=y, random_state=2023)

print(X_train.shape)
print(X_val.shape)
print(y_train.shape)
print(y_val.shape)

(142, 13)
(36, 13)
(142,)
(36,)


In [33]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()

model.fit(X_train, y_train)

In [35]:
## 모델을 사용해서 테스트 데이터 예측

y_pred = model.predict(X_val)

In [37]:
## 모델 성능 평가(정확도, F1 score, 민감도, 특이도 등)

## ROC_AUC 값은 이진분류일 때만, 다중분류일때는 안됨

from sklearn.metrics import accuracy_score, roc_auc_score, f1_score, recall_score, precision_score

acc = accuracy_score(y_val, y_pred) ## (실제값, 예측값)
f1 = f1_score(y_val, y_pred, average = 'macro') ##(매크로 에버리지 구하라고 문제에 나올 수도 있음)
#auc = roc_auc_score(y_val, y_pred)

print(acc)
print(f1)


1.0
1.0


In [42]:
## 예측값 제출
#(주의) test set을 모델에 넣어서 나온 예측값을 제출해야 함.

# 실기시험 안내사항: 아래 코드 예측변수와 수험번호를 개인별로 변경하여 활용
# pd.DataFrame({'result': y_result}).to_csv('수험번호.csv', index=False)

## 모델을 사용하여 테스트 데이터 예측

# 1) 특정 클래스로 분류할 경우 (predict)
y_result = model.predict(x_test)
print(y_result[:5])

# 2) 특정 클래스로 분류될 확률을 구할 경우 (predict_proba)
y_result_prob = model.predict_proba(x_test)
print(y_result_prob[:5])

# 이해해보기
result_prob = pd.DataFrame({
    'result': y_result,
    'prob_0': y_result_prob[:,0],
    'prob_1': y_result_prob[:,1],
    'prob_2': y_result_prob[:,2]
})

## Class 0일 확률: y_result_prob[:,0]
## Class 1일 확률: y_result_prob[:,1]
## Class 2일 확률: y_result_prob[:,2]

[2 2 2 0 1]
[[0.   0.03 0.97]
 [0.06 0.12 0.82]
 [0.   0.1  0.9 ]
 [0.98 0.01 0.01]
 [0.03 0.92 0.05]]


