# 01. 빅데이터 분석 과정

## 1.필요 패키지 import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

from sklearn.tree import DecisionTreeClassifier          # 의사결정트리 - 분류
from sklearn.model_selection import train_test_split     # train/test set 분리 패키지

## 2. 데이터 불러오기

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv")

## 3. 데이터 살펴보기

In [4]:
df.head(), df.shape, df.info(), df.describe().T

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


(   sepal_length  sepal_width  petal_length  petal_width species
 0           5.1          3.5           1.4          0.2  setosa
 1           4.9          3.0           1.4          0.2  setosa
 2           4.7          3.2           1.3          0.2  setosa
 3           4.6          3.1           1.5          0.2  setosa
 4           5.0          3.6           1.4          0.2  setosa,
 (150, 5),
 None,
               count      mean       std  min  25%   50%  75%  max
 sepal_length  150.0  5.843333  0.828066  4.3  5.1  5.80  6.4  7.9
 sepal_width   150.0  3.057333  0.435866  2.0  2.8  3.00  3.3  4.4
 petal_length  150.0  3.758000  1.765298  1.0  1.6  4.35  5.1  6.9
 petal_width   150.0  1.199333  0.762238  0.1  0.3  1.30  1.8  2.5)

## 4. 데이터 전처리
- 이상치, 결측치 처리
- 인코딩, 단위 환산, 자료형 변환, 정규화, 파생변수 생성 등

### 레이블 인코딩 연습

In [6]:
df['species'].replace({'setosa':0, 'versicolor':1, 'virginica':2}, inplace=True)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


## 5. 분석 데이터셋 준비
- 일반적으로 8:2로 분리

In [14]:
X = df.drop(columns='species')
y = df['species']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
# stratify=y :: y 레이블을 균형있게 분리

print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)

(120, 4) (30, 4)
(120,) (30,)


## 6. 데이터 분석 수행
- 지도 학습
> 분류 : 의사결정나무, KNN, SVM, 로지스틱 회귀분석, 랜덤포레스트, 인공신경망 <br>
> 회귀(예측) : 선형회귀분석, 다중회귀분석, 의사결정트리

- 비지도 학습
> 군집분석, 연관분석, 인공신경망

In [15]:
tree = DecisionTreeClassifier(random_state=1)  # 객체 생성
tree.fit(X_train, y_train)                     # 학습

In [16]:
pred = tree.predict(X_test)   # 예측

## 7. 성능평가 및 시각화
- 분류 결과(pred)와 실제 분류값(y_test)를 비교해 정확도 평가

In [17]:
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, pred)  # 실제값, 예측갑 순으로 입력
print('accuracy', acc)

accuracy 0.9666666666666667


# 02. 사이킷런 패키지 

### 사이킷런 제공 주요 모듈, 알고리즘
- **변수 처리**
> sklearn.preprocessing <br>
> sklearn.feature_selection : 알고리즘에 영향을 미치는 변수 우선순위대로 선택하는 기능 <br>
> sklearn.feature_extraction : 텍스트 이미지나 이미지 데이터의 벡터화된 피처를 추출하는 데 사용
<br><br>
- **데이터 분리, 검증**
> sklearn.model_selection : 차원 축소와 관련된 알고리즘 지원
<br><br>
- **평가**
> sklearn.metrics : accuracy, precision, recall, roc-auc, rmse 등 제공
<br><br>
- **머신러닝 알고리즘**
> sklearn.tree : DecisionTreeClassifier <br>
> sklearn.neighbors : KNN <br>
> sklearn.svm : SVM <br>
> sklearn.ensemble : RandomForestClassfier, GradientBoostingClassifier, RandomForestRegressor, GradientBoostingRegressor <br>
> sklearn.linear_model : LinearRegression, Ridge, Lasso <br>
> sklearn.naive_bayes : 나이브 베이즈 <br>
> sklearn.cluster : K-means, DBSCAN 

# 03. 성능 평가 방법

## 1. 오차행렬 (Confusion Matrix, 혼동행렬)

In [18]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, pred)  # 실제값, 예측값 순으로 입력

array([[11,  0,  0],
       [ 0, 12,  1],
       [ 0,  0,  6]], dtype=int64)

## 2. 모델 평가지표

**(1) 정확도 (accuracy)** <br>
- accuracy_score() 함수로 구할 수 있음
- 전체 데이터에서 정답을 맞힌 비율
<br><br>
**(2) 정밀도 (precision, 양성 예측도)** <br>
- precision_score() 함수로 구할 수 있음
- 1로 예측한 것들 중 실제로 1인 것의 비율
<br><br>
**(3) 재현율 (recall, 민감도)** <br>
- recall_score() 함수로 구할 수 있음
- 실제 1들 중 정답을 맞힌 비율
<br><br>
**(4) F1 score** <br>
- f1_score() 함수로 구할 수 있음
- 정밀도와 재현율을 결합한 조화평균 지표, 값이 클수록 모형이 정확한 것

In [19]:
from sklearn.metrics import classification_report

rpt = classification_report(y_test, pred)
print(rpt)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.92      0.96        13
           2       0.86      1.00      0.92         6

    accuracy                           0.97        30
   macro avg       0.95      0.97      0.96        30
weighted avg       0.97      0.97      0.97        30

