<a href="https://colab.research.google.com/github/hyesukim1/Prediction-of-wine-quality/blob/main/prediction_of_quality_of_wine_white.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 케글 api로 연결하여 데이터 로드

In [None]:
!pip install kaggle
from google.colab import files
files.upload()

In [None]:
# ls -1ha kaggle.json

# json file 이동시키기
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/

# permission warning 방지
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
!kaggle datasets download -d uciml/red-wine-quality-cortez-et-al-2009

In [None]:
!ls

----

## 프로젝트 설명


### 변수 설명

#### 와인의 각종 산은 침샘을 자극해서 식욕을 돋워주고 단맛과 조화를 이뤄 질리지 않는 맛을 만들어주기 때문에 산도가 중요한 변수이다.

1. fixed acidity(고정 산도): 와인에 포함된 대부분의 산이며 와인의 산도를 제어

2. volatile actidity(휘발성 산도): 와인에서 식초와 같은 향을 주는 휘발성 산

3. citric acid(구연산): 와인용 포도에 매우 적은 양을 포함함, 포도의 산미가 약하면 산미 보조제를 더 첨가해 생산함

4. residual sugar(잔류 설탕/grams per liter): 알코올 발효가 끝난 후 와인에 남은 천연 포도당

5. chlorides(염화물): 와인에 포함된 소금의 양으로 짠맛을 내고 신맛을 좌우함

6. free sulfur dioxide(자유 이산화황), total sulfur dioxide(총 이산화황), sulphates(황화합물):특정 박테리아와 효모를 죽여서 와인을 오래 보관하는 역할

7. density(밀도): 바디의 높고 낮음을 표현하는 와인의 무게감을 의미

8. pH(산성도): 와인의 신맛의 정도를 나타냄

9. alcohol(알코올): 와인에 단맛을 주며 바디감에 영향을 줌

10. quality(품질): 예측하려고 하는 변수


# Importing Libraries

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
%matplotlib inline

In [None]:
# 데이터 로드하기
wine_data = pd.read_csv('/content/red-wine-quality-cortez-et-al-2009.zip')

In [None]:
wine_data.head()

In [None]:
print(wine_data.info())
print('====================================================================================')
print('Wine data shape:', wine_data.shape)
print('====================================================================================')
print(wine_data.describe())
print('====================================================================================')
print('Quality Unique Values:', wine_data.quality.unique())
print('====================================================================================')
print('Quality Value counts')
print(wine_data.quality.value_counts())

In [None]:
# 상관관게 분석_각 변수별로 상관관계를 가지는 지 확인
corr_wine = wine_data.corr()
corr_wine = corr_wine.apply(lambda x: round(x, 2))
corr_wine

# 핏쳐가 많기 때문에 히트맵으로 시각화
fig, ax = plt.subplots(figsize=(12, 6))

sns.heatmap(corr_wine,
            annot = True,
            ax = ax,
            linewidths = 0.4,
            linecolor = 'white',
            fmt = '.1f',
            cmap = 'viridis')

- Quality, alcohol 양의 상관관계(0.5)
- Sulphates, chlorides 양의 상관관계(0.4)
- density, fixed acidity 양의 상관관계(0.7)
- total, free sulfur dioxide 양의 상관관계(0.7) => 비슷한 성분으로 유의미하지 않음
- citric acid, fixed acidity 양의 상관관계(0.7)


In [None]:
# 밸런스한 데이터 인지 확인
sns.countplot(x = 'quality', data=wine_data)

In [None]:
sns.boxplot('quality', 'fixed acidity', data = wine_data)

In [None]:
sns.boxplot('quality', 'volatile acidity', data = wine_data)

In [None]:
sns.boxplot('quality', 'citric acid', data = wine_data)

In [None]:
sns.boxplot('quality', 'residual sugar', data = wine_data)

In [None]:
sns.boxplot('quality', 'chlorides', data = wine_data)

In [None]:
sns.boxplot('quality', 'free sulfur dioxide', data = wine_data)

In [None]:
sns.boxplot('quality', 'total sulfur dioxide', data = wine_data)

In [None]:
sns.boxplot('quality', 'density', data = wine_data)

In [None]:
sns.boxplot('quality', 'pH', data = wine_data)

In [None]:
sns.boxplot('quality', 'sulphates', data = wine_data)

In [None]:
sns.boxplot('quality', 'alcohol', data = wine_data)

In [None]:
# plot_1: value_counts를 시각화
sns.countplot(x='quality', data = wine_data)

In [None]:
# plot_2: 종모양을 띄는 지 확인 = 정규성 만족하는지
sns.displot(wine_data['quality'])

In [None]:
# plot_3: 정규성 확인
import scipy.stats as stats
stats.probplot(wine_data['quality'], plot=plt)

- 데이터가 작아서 원하는 그래프 모양으로 확인하지 못함
- plot_2에서 종모양을 띄고 plot_3에서 빨간선에 가깝게 그려졌기 때문에 가우시안 정규 분포를 따른다고 볼수 있음

---
## Class 분류하기
- 클래스가 대략 8개 정도 되는데 너무 많기 때문에 클래수를 bad, average, excellent로 구분지어서 명확하게 확인할 수 있게 클래스 분류

In [None]:
'''
review values 나누기
1, 2, 3 -> Bad == 1
4, 5, 6, 7 -> Average == 2
8, 9, 10 -> Excellent == 3
'''

reviews = []

for i in wine_data['quality']:
  if i >= 3 and i <= 4:
    reviews.append('1')
  elif i >= 5 and i <= 6:
    reviews.append('2')
  elif i >= 7 and i <= 8:
    reviews.append('3')

wine_data['reviews'] = reviews

wine_data

In [None]:
sns.countplot(x = 'reviews', data=wine_data)

In [None]:
import collections
collections.Counter(wine_data['reviews'])

## Train-Test Split

In [None]:
x = wine_data.iloc[:, :11]
y = wine_data['reviews']

### StandardSacler
- 변수들이 너무 스케일이 다르기 때문에 데이터 스케일 조정 필요
- 평균 0, 분산 1로 조정

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc_x = sc.fit_transform(x)
print(sc_x)

### PCA
- 차원의 저주: 머신러닝 훈련 샘플이 각각 수백만개의 특성을 가지고 있을때
  유의미한 특성을 찾기가 어렵고 훈련을 느리게 하기 때문에 결과적으로 성능저하를 야기함
- PCA를 통해서 분산을 최대로 보존할 수 있는 축을 선택해 정보를 가장 적게 손실함
즉, 분산이 최대인 축을 찾고, 이 첫번째 축에 직교하고 남은 분산을 최대한 보존하는 2번째 축을 찾는다

In [None]:
from sklearn.decomposition import PCA
import numpy as np
pca = PCA()
pca_x = pca.fit_transform(x)

plt.figure(figsize=(10, 10))
plt.plot(np.cumsum(pca.explained_variance_ratio_), 'ro-')
plt.grid()

In [None]:
pca_new = PCA(n_components = 8)
new_x = pca_new.fit_transform(x)
print(new_x)

### 훈련, 테스트 데이터로 분리

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(new_x, y, test_size=0.25, random_state=0)

print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

# Machine Learning

### 다중 분류 문제 (Multi class classification)

### 모델 평가: accuracy, F-score

### 머신러닝 알고리즘

1. Logistic Regression
 - 소프트맥스 함수를 사용해 다중분류

2. Decision Trees
3. Naive Bayes
4. Random Forests
5. SVM

#### Logistic Regression

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score

# 파라미터 후보
parameters = {'C':[0.001, 0.01, 0.1, 1, 10, 100], # C값 작으면=> penalty 강해짐(단순모델)/C값 크면=> penalty 약해짐(정규화 없어짐)
              'max_iter' : [100,1000],
              'penalty' : ['l1', 'l2']}

# 그리드 서치 진행
grid_search = GridSearchCV(LogisticRegression(), parameters, cv=5)
grid_search.best_params_
#{'C': 1, 'max_iter': 1000, 'penalty': 'l2'}

In [None]:
best_logistic_model = grid_search.fit(x_train, y_train)
best_logistic_pred = best_logistic_model.predict(x_test)
grid_search.score(x_test, y_test) # 0.8525

In [None]:
lr_conf_matrix = confusion_matrix(y_test, best_logistic_pred)
lr_acc_score = accuracy_score(y_test, best_logistic_pred)
print(lr_conf_matrix)
print(lr_acc_score*100)

In [None]:
# 로지스틱 회귀 f1_score 확인
from sklearn import metrics 
print('precision: ', metrics.precision_score(y_test, best_logistic_pred, average='micro'))
print('recall: ', metrics.recall_score(y_test, best_logistic_pred, average='micro'))
print('f1_socre: ', metrics.f1_score(y_test, best_logistic_pred, average='micro'))

### DecisionTreeClassifier

In [None]:
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()
dt.fit(x_train, y_train)
dt_pred = dt.predict(x_test)

In [None]:
dt_conf_matrix = confusion_matrix(y_test, dt_pred)
dt_acc_score = accuracy_score(y_test, dt_pred)
print(dt_conf_matrix)
print(dt_acc_score*100)

In [None]:
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()
nb.fit(x_train, y_train)
nb_pred = nb.predict(x_test)

In [None]:
nb_conf_matrix = confusion_matrix(y_test, nb_pred)
nb_acc_score = accuracy_score(y_test, nb_pred)
print(nb_conf_matrix)
print(nb_acc_score*100)

In [None]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(x_train, y_train)
rf_predict = rf.predict(x_test)

In [None]:
rf_conf_matrix = confusion_matrix(y_test, rf_predict)
rf_acc_score = accuracy_score(y_test, rf_predict)
print(rf_conf_matrix)
print(rf_acc_score*100)

In [None]:
from sklearn.svm import SVC

lin_svc = SVC()
lin_svc.fit(x_train, y_train)
lin_svc = rf.predict(x_test)

In [None]:
lin_svc_conf_matrix = confusion_matrix(y_test, rf_predict)
lin_svc_acc_score = accuracy_score(y_test, rf_predict)
print(lin_svc_conf_matrix)
print(lin_svc_acc_score*100)