# 와인 품질 예측하기

-  데이터셋 저장소 : https://archive.ics.uci.edu/dataset/186/wine+quality (캘리포니아 어바인 대학 머신러닝 저장소)

# 데이터 탐색하기
- 기본정보 확인
- wine 데이터셋 필드 
- type                  : 와인 타입(red, white)
- fixed acidity         : 결합산 - 주로 타르타산(tartaric), 사과산(malic)으로 구성, 완인의 산도 제어
- volatile acidity      : 휘발산 - 와인의 향과 연관
- citric acid           : 구연산 - 와인의 신선함을 올려주는 역할, 산성화에 연관을 미침
- residual sugar        : 잔여 설탕 - 화인의 단맛을 올여줌
- chlorides             : 염화물 - 화인의 짠맛의 원인이며 와인의 신맛을 좌우하는 성분
- free sulfur dioxide   : 이산화 황 활성
- total sulfur dioxide  : 이산화 황 총량
- sulphates             : 황산염
- ** 황 화합물 : 황 화합물은 원하지 않는 박테리아와 효모를 죽여서 와인을 오래 보관하는 역할 
    (free sulfur dioxide, total sulfur dioxide, sulphates)
- density               : 밀도 - 바디의 높고 낮음을 표현하는 와인의 무게감
- pH                    : 산성도 - 와인의 신맛의 정도를 나타냄
- alcohol               : 알코올 와인의 ㅌ
- quality    

In [14]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style='whitegrid')

#한글 표기 설정
from matplotlib import rc, font_manager
fontname='c:/Windows/Fonts/malgun.ttf'
font_name=font_manager.FontProperties(fname=fontname).get_name()
rc('font',family=font_name)

#축에 마이너스 표기
plt.rcParams['axes.unicode_minus']=False

#그래프 사이즈 설정
plt.rcParams['figure.figsize']=(5,4)

In [None]:
red_df=pd.read_csv('data/winequality-red.csv', sep=';')
white_df=pd.read_csv('data/winequality-white.csv', sep=';')
red_df.to_csv('data/winequality-red1.csv', index=False)
white_df.to_csv('data/winequality-white1.csv', index=False)

In [None]:
red_df.info()

In [None]:
white_df.info()

In [None]:
red_df.insert(0,column='type', value='red')
#red_df['type'] 은 가장 뒷쪽으로 데이터가 들어감
red_df.head() 

In [None]:
white_df.insert(0,column='type',value='white')
white_df.head()

# 데이터 합치기 

In [None]:
wine=pd.concat([red_df, white_df])
#axis=0 이 생략됨
wine.info()
#index 가 겹쳐짐 ( Int64Index: 6497 entries, 0 to 4897 )

# 데이터 CSV 로 저장하기

In [None]:
wine.to_csv('data/wine.csv', index=False)

# 저장된 데이터 불러오기

In [5]:
wine=pd.read_csv('data/wine.csv',sep=',')

In [6]:
wine.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,red,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,red,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,red,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,red,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,red,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


# 필드명 공백 지우기

In [None]:
wine.columns=wine.columns.str.replace(' ','_')
wine

In [None]:
print(wine.describe())

# quality 필드의 value의 중복값 제거, 각 value 별 데이터 갯수 확인 

In [None]:
print(sorted(wine['quality'].unique()))
print(wine['quality'].value_counts())

# groupby() 
- type 필드 값으로 그룹
- groupby('기준 필드')['연산할 필드'].함수

In [None]:
wine.groupby('type')['quality'].describe()

- 단일 함수 호출

In [None]:
wine.groupby('type')['quality'].std()

- 복수 함수 호출 

In [None]:
wine.groupby('type')['quality'].agg(['mean','sum','std'])

- 필드마다 다른 함수 호출하려면 딕셔너리 형태로 인자 전달 

In [None]:
wine.groupby('type').agg({'quality':'sum', 'alcohol':'mean'})

- 필드마다 복수 함수 호출 할 경우,,

In [None]:
wine.groupby('type').agg({'quality':['sum','mean'], 'alcohol':['std','median']})

# 7/12(수) 
    1. 와인의 type과 quality로 groupby 하여 alcohol의 평균을 구하라.
    2. 와인의 quality로 groupby 하여 alcohol의 평균과 표준편차(std)를 구하라.
    3. 와인의 quality로 groupby 하여 alcohol의 [평균, 분산(val)], pH의 [중앙값(median)과 합]을 구하라.
    4. 와인의 type과 quality로 groupby하여 alcohol의 [평균과 중앙값]을 구하라.

In [12]:
# 1번
wine.groupby(['type','quality'])['alcohol'].mean()

type   quality
red    3           9.955000
       4          10.265094
       5           9.899706
       6          10.629519
       7          11.465913
       8          12.094444
white  3          10.345000
       4          10.152454
       5           9.808840
       6          10.575372
       7          11.367936
       8          11.636000
       9          12.180000
Name: alcohol, dtype: float64

In [8]:
# 2번
wine.groupby('quality')['alcohol'].agg(['mean','std'])

Unnamed: 0_level_0,mean,std
quality,Unnamed: 1_level_1,Unnamed: 2_level_1
3,10.215,1.106497
4,10.180093,0.985923
5,9.837783,0.814416
6,10.587553,1.126491
7,11.386006,1.199337
8,11.678756,1.278921
9,12.18,1.01341


In [9]:
# 3번
wine.groupby('quality').agg({'alcohol':['mean','std'],'pH':['median','sum']})

Unnamed: 0_level_0,alcohol,alcohol,pH,pH
Unnamed: 0_level_1,mean,std,median,sum
quality,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
3,10.215,1.106497,3.245,97.73
4,10.180093,0.985923,3.22,698.03
5,9.837783,0.814416,3.19,6867.66
6,10.587553,1.126491,3.21,9125.47
7,11.386006,1.199337,3.22,3483.09
8,11.678756,1.278921,3.23,622.08
9,12.18,1.01341,3.28,16.54


In [11]:
# 4번
wine.groupby(['type','quality'])['alcohol'].agg(['mean','std'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,std
type,quality,Unnamed: 2_level_1,Unnamed: 3_level_1
red,3,9.955,0.818009
red,4,10.265094,0.934776
red,5,9.899706,0.736521
red,6,10.629519,1.049639
red,7,11.465913,0.961933
red,8,12.094444,1.224011
white,3,10.345,1.224089
white,4,10.152454,1.003217
white,5,9.80884,0.847065
white,6,10.575372,1.147776
