# Quadratic Discriminant Analysis (QDA)

## - **Problem**
- sklearn 라이브러리에 있는 아이리스 데이터를 사용하여 3개의 꽃으로 분류할 것.


# **1. 라이브러리 가져오기**

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

# **2. 데이터 불러오기 / 전처리 하기**

- **iris 구성**

  'target_names':예측하려는 값(class)를 가진 문자열 배열

  'target': label (출력데이터)

  'data': feature (입력 데이터)

  'features_name': 입력 변수 각 항목의 이름

In [2]:
from sklearn.datasets import load_iris
iris = load_iris()
print("Target_Name: ",iris['target_names'][0:10])
print("Target: ",iris['target'][0:10])
print("Data: ",iris['data'][0:10])
print("Feature_name: ",iris['feature_names'][0:10])

iris_X = pd.DataFrame(data = iris['data'], columns =iris['feature_names'])
print("Iris_X: ",iris_X)

iris_Y = pd.DataFrame(data = iris['target'], columns =['target_names'])
print("Iris_Y",iris_Y)

Target_Name:  ['setosa' 'versicolor' 'virginica']
Target:  [0 0 0 0 0 0 0 0 0 0]
Data:  [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
Feature_name:  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Iris_X:       sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2         

# **3. 훈련용 / 시험용 데이터셋 분리**

In [3]:
from sklearn.model_selection import train_test_split

train_X, test_X, train_Y, test_Y = train_test_split(iris_X, iris_Y)

# **4. 데이터 정규화**

In [4]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(train_X)
train_X = scaler.transform(train_X)
test_X = scaler.transform(test_X)

print(train_X, train_Y)

[[-1.60057471  0.27865108 -1.40697476 -1.34238366]
 [-0.23214442  3.03237944 -1.34963081 -1.08249261]
 [ 1.26068862  0.27865108  1.05881507  1.38647232]
 [ 0.63867485  0.04917372  0.94412717  0.7367447 ]
 [-0.10774167  2.11446999 -1.52166266 -1.34238366]
 [-1.60057471  0.04917372 -1.34963081 -1.34238366]
 [ 0.63867485  0.27865108  0.37068767  0.34690814]
 [ 0.5142721  -0.86873573  0.60006347  0.7367447 ]
 [-0.35654718 -0.63925837  0.60006347  0.99663575]
 [ 0.01666108 -0.18030364  0.19865582  0.34690814]
 [-1.35176921  0.73760581 -1.29228686 -1.34238366]
 [-0.10774167 -0.86873573  0.14131188 -0.30281948]
 [-1.1029637  -0.18030364 -1.29228686 -1.34238366]
 [ 1.63389688  1.19656054  1.28819086  1.64636336]
 [-0.60535268  1.4260379  -1.34963081 -1.34238366]
 [ 0.01666108 -0.18030364  0.71475137  0.7367447 ]
 [-0.35654718 -0.86873573  0.19865582  0.08701709]
 [ 0.38986934  0.73760581  0.88678322  1.38647232]
 [ 1.01188311  0.50812845  1.05881507  1.64636336]
 [-0.48094993 -1.32769046  0.08

# **5. 모델 생성 및 학습 / 예측**


### **fit() 함수**는
데이터를 학습하는 과정을 나타낸다. 즉 데이터를 기반으로 내부 매개 변수를 계산하거나 설정한다.

- **데이터 전처리**

  평균, 표준편차, 최대값, 최소값 등을 예로 들 수 있다. 이 값들을 계산하여 scaler 객체 내부에 저장한다.

- **머신러닝 모델**
  
  머신 모델에서는 데이터를 학습하여 최적의 가중치(weight)와 편향(bias)를 찾는 과정이다.

### **transform() 함수**는

- **데이터 전처리**

  fit으로 학습된 정보를 사용하여 데이터를 변환하는 과정이다.

- **머신러닝**

  머신러닝 모델은 데이터를 변환하지 않으므로 transform()가 없다. 대신 예측(prediction())을 사용한다.







https://huidea.tistory.com/59 참조해서 코드를 작성함


LDA는 분류와 차원 축소를 동시에 처리할 수 있다.

- **분류**는 fit함수만 사용하면 되고,

In [7]:
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

QDA = QuadraticDiscriminantAnalysis()
QDA.fit(train_X, train_Y)

predict_Y = QDA.predict(test_X)
print("Predict: ",predict_Y)
print("Score: ",QDA.score(test_X, test_Y))

Predict:  [2 0 0 2 1 1 0 2 1 1 2 0 0 0 1 0 1 0 0 1 2 2 0 0 1 1 1 0 2 0 1 2 0 2 2 2 2
 0]
Score:  1.0


  y = column_or_1d(y, warn=True)
