### 빅데이터 분석 과정

- 필요 패키지 임포트(import)


In [1]:
import numpy as np # 넘파이 패키지
import pandas as pd # 판다스 패키지
import sklearn     # 사이킷런 패키지

# 의사결정나무 분류모델을 위한 패키지 임포트
from sklearn.tree import DecisionTreeClassifier

# 학습 및 테스트 데이터셋 분리를 위한 패키지 임포트
from sklearn.model_selection import train_test_split

- 데이터 불러오기

In [2]:
df = pd.read_csv('/content/drive/MyDrive/순천대학교/data/iris.csv')

- 데이터 살펴보기

In [3]:
# 데이터 프레임 전체 출력
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [4]:
# 데이터프레임의 열과 행의 수 출력
df.shape

(150, 5)

In [5]:
# 데이터프레임의 요약정보 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [6]:
# 데이터프레임의 기술통계 보여주기
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


- 데이터 전처리
 - 답지가 텍스트로 되어 있음
 - 텍스트로 되어 있는 종륲를 숫자(0,1,2)로 변경(레이블 인코딩)

- 종류 확인

In [11]:
df.value_counts('species')

species
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
dtype: int64

In [12]:
# 텍스트로 되어 있는 species 컬럼의 데이터를 0,1,2로 변환한다
df['species'].replace({'Iris-setosa':0, 'Iris-versicolor':1,'Iris-virginica':2}, inplace= True)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


- 분석 데이터셋 준비
 - 학습용 데이터셋 , 테스트용 데이터셋으로 분리(8:2)

In [13]:
# 분석 데이터셋 준비
# X는 독립변수(문제), y는 종속변수(답지)
X = df[['sepal_length','sepal_width','petal_length','petal_width']]
y = df['species']

In [20]:
# train, test Set 나누기
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2, random_state=11)

In [21]:
# 분류후 크기 확인하기
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(120, 4)
(120,)
(30, 4)
(30,)


- 데이터분석 수행
 - 지도학습 : 분류 - 의사결정,KNN,SVM,로지스틱회귀, 랜덤포레스트
 - 지도학습 : 회귀 - 선형회귀분석, 다중회귀분석,의사결정나무(회귀)
 - 비지도학습 : 군집분석, 연관분석,인공신경망


In [22]:
# 이것은 분류문제이기 때문에 지도학습에서 분류 모델 하나를 선택
# DecisionTreeClassifier 객체 선택
dt = DecisionTreeClassifier(random_state=11)
# 학습 수행
dt.fit(X_train,y_train)

In [23]:
# 예측
pred = dt.predict(X_test)

In [24]:
print(pred)

[2 2 1 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


In [27]:
# 예측
pred_pro = dt.predict_proba(X_test)
print(pred_pro[1])

[0. 0. 1.]


- 성능평가 및 시각화

In [28]:
# 모델 성능 - 정확도 측정
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, pred)
print(acc)

0.9333333333333333


### 분석모델 성능 평가 방법
- 오차행렬(confusion maxtir)

In [29]:
# 모델 성능 - 오차행렬
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test,pred)

array([[ 9,  0,  0],
       [ 0, 10,  0],
       [ 0,  2,  9]])

### 모델 평가지표

In [30]:
# 모델 성능 평가 - 평가지표 계산
from sklearn.metrics import classification_report
rpt = classification_report(y_test, pred)
print(rpt)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.83      1.00      0.91        10
           2       1.00      0.82      0.90        11

    accuracy                           0.93        30
   macro avg       0.94      0.94      0.94        30
weighted avg       0.94      0.93      0.93        30

