# 빅데이터 분석과정
1. 데이터 수집 : 공공데이터 API (XML, JSON) >> PYTHON dict() >> CSV
2. 데이터 불러오기 : import, ML from sklearn...
    * X(독립변수, 특성_features), y(종속변수, 결괏값 - 비지도학습은 y값 없음)
    * 데이터 구분 (훈련용 데이터, 평가용 데이터)
        * 훈련용 데이터 (X_train, y_train) : 모델 구축
        * 평가용 데이터 (X_test, y_test) : 모델 검정, 성능 평가
        * 홀드아웃 : 평가용 데이터는 검증용 데이터이기 때문에 !
3. 데이터 살펴보기
* raw -> raw.copy() -> df -> df.head -> shape -> info (결측치, dtypes, describe)

4. 데이터 전처리
* 정규화 (정규화된 표준화) : min-max scaler (0-1 사이의 값) / standardScaler()

5. 데이터 탐색 (EDA)
* 데이터 시각화 (pairplot) : plt, sns

6. 모델링
* 회귀분석 등..
* fit, fit_transform() : 반드시 X_train, y_train 훈련용 데이터로 모델 구축

7. 분석 수행
* y_pred : 예측, y_real : 실제값 ==> 비교 (정확도 등..)
* y_pred에 x_test 정보가 들어간 모델을 넣어준다.

8. 데이터 시각화
* 표, 그래프

9. 모델 간 성능 비교
10. 정리 (통찰 : insight)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn

In [2]:
# 사용할 모델 import
# 1. 의사결정나무 분류모델
from sklearn.tree import DecisionTreeClassifier

# 학습용 / 테스트(평가용) 데이터 구분 (분리) 위한 패키지 가져오기
from sklearn.model_selection import train_test_split

## 데이터 수집 & 불러오기

In [11]:
path = '../datasets/iris.csv'

raw = pd.read_csv(path)
df = raw.copy()
df.head(2)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


## 데이터 확인

In [12]:
print(df.shape)
df.info()

(150, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [13]:
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## 데이터 타입 변환
* text 문자 되어 있는 species 컬럼의 데이터를 0, 1, 2로 변환하기 (정수 인코딩)
* 라벨인코딩 >> 정수인코딩 >> 원핫인코딩

In [14]:
# species type : text
# species 종류와 개수 파악
df.species.value_counts()

species
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64

In [15]:
# replace 이용
df.species.replace({'setosa' : 0, 'versicolor' : 1, 'virginica' : 2}, inplace=True)
df.head(2)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0


## 분석 데이터셋 준비 (X, y)
* X : 독립변수, 특성(features)
* y : 종속변수, 결괏값

In [18]:
# 2차원 행렬
X = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
y = df['species']

In [20]:
print(X, y)

     sepal_length  sepal_width  petal_length  petal_width
0             5.1          3.5           1.4          0.2
1             4.9          3.0           1.4          0.2
2             4.7          3.2           1.3          0.2
3             4.6          3.1           1.5          0.2
4             5.0          3.6           1.4          0.2
..            ...          ...           ...          ...
145           6.7          3.0           5.2          2.3
146           6.3          2.5           5.0          1.9
147           6.5          3.0           5.2          2.0
148           6.2          3.4           5.4          2.3
149           5.9          3.0           5.1          1.8

[150 rows x 4 columns] 0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: species, Length: 150, dtype: int64


## 데이터 분리
* 훈련용 / 평가용 데이터 분리 (train, test)

In [21]:
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.2, random_state=42)

## 모델링

In [22]:
# 의사결정나무 이용
DT = DecisionTreeClassifier(random_state=42)

In [23]:
# 모델 훈련 (fit)
DT.fit(X_train, y_train)

In [25]:
# 학습 완료 >> DT
# 모델 활용, 예측 수행 (x_test)
y_pred = DT.predict(X_test)
y_pred

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0], dtype=int64)

In [26]:
# 모델 활용
# 예측한 값(y_pred)와 실제 값 (y_test) 비교
y_test

73     1
18     0
118    2
78     1
76     1
31     0
64     1
141    2
68     1
82     1
110    2
12     0
36     0
9      0
19     0
56     1
104    2
69     1
55     1
132    2
29     0
127    2
26     0
128    2
131    2
145    2
108    2
143    2
45     0
30     0
Name: species, dtype: int64

In [27]:
# 모델 성능 & 정확도 측정
from sklearn.metrics import accuracy_score

acc = accuracy_score(y_test, y_pred)
print(acc)

1.0


## 분석모델 성능평가 방법

In [28]:
# 모델 성능 - 오차 행렬 (혼동 행렬_confusion matrix)
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

array([[10,  0,  0],
       [ 0,  9,  0],
       [ 0,  0, 11]], dtype=int64)

In [30]:
# 성능 평가 - 평가 지표 계산
from sklearn.metrics import classification_report
cr = classification_report(y_test, y_pred)
print(cr)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



### 혼동행렬
* https://python-y999256.slack.com/archives/C06P1FMN1SN/p1716355875996599