# example-1

### 유제품 생산량, 소비량 분석

- 매년 생산되는 유제품(치즈, 버터, 연유, 탈지분유 등)의 생산량, 소비량 정보
- 데이터 항목 : year(년도), diary(종류), production(생산량), consumption(소비량)

## 유제품 전체 생산량, 소비량

In [11]:
import pandas as pd

data = pd.read_csv('milk.csv')

# .head(갯수) : 맨 위 데이터 갯수만큼 출력
print(data.head(5), '\n')

# .columns : 열 이름 출력
print(data.columns, '\n')

# .set_index(column 이름) : index를 column 이름으로 지정
data = data.set_index('year')

print(data.describe(), '\n')
print(data.min(), '\n')
print(data.max(), '\n')

   year dairy  production  consumption
0  2015    치즈       23188       103899
1  2015    버터        3587        10206
2  2015   발효유      596928       589768
3  2015  백색시유     1345440      1345440
4  2015  가공시유      302046       302046 

Index(['year', 'dairy', 'production', 'consumption'], dtype='object') 

         production   consumption
count  3.420000e+02  3.420000e+02
mean   1.962601e+05  1.943141e+05
std    3.784896e+05  3.783745e+05
min    7.000000e+01  0.000000e+00
25%    3.951500e+03  4.054250e+03
50%    1.709750e+04  1.650550e+04
75%    1.707425e+05  1.428565e+05
max    1.465793e+06  1.465793e+06 

dairy          가공시유
production       70
consumption       0
dtype: object 

dairy             탈지분유
production     1465793
consumption    1465793
dtype: object 



## 유제품 종류별 생산량, 소비량

In [12]:
# .groupby(컬럼명) : 컬럼명 기준으로 그룹화하기(범주형 데이터에 적용하는 것 추천)
grouped_diary = data.groupby('dairy')

for key, group in grouped_diary:
    print(key) # group을 묶을 때 쓴 key
    print(group.head(3), '\n') # key로 묶인 group
    
# 평균
print(grouped_diary.mean(), "\n")

print(grouped_diary.min(), "\n")
print(grouped_diary.max(), "\n")

# .get_group(그룹명) : 그룹명에 해당하는 데이터 출력
print(grouped_diary.get_group('치즈').head(3), '\n')
print(grouped_diary.get_group('연유').sort_values('year', ascending=True).head(3))

# 년도 기준으로 묶기
grouped_year = data.groupby('year')
print(grouped_year.get_group(2011).head(3))

가공시유
     dairy  production  consumption
year                               
2015  가공시유      302046       302046
2014  가공시유      280693       280693
2013  가공시유      291307       291307 

발효유
     dairy  production  consumption
year                               
2015   발효유      596928       589768
2014   발효유      572418       567069
2013   발효유      573672       566910 

백색시유
     dairy  production  consumption
year                               
2015  백색시유     1345440      1345440
2014  백색시유     1356301      1356301
2013  백색시유     1392204      1392204 

버터
     dairy  production  consumption
year                               
2015    버터        3587        10206
2014    버터        4311         9185
2013    버터        2003         7950 

연유
     dairy  production  consumption
year                               
2015    연유        8079         4593
2014    연유        8535         2732
2013    연유        6012         1069 

전지분유
     dairy  production  consumption
year                         

## 시각화

In [13]:
import matplotlib.font_manager as fm
fm._rebuild()

import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'D2Coding' # D2 Coding 폰트가 깔려 있어야 한다.

In [15]:
def milk_graph():
    for key, group in grouped_diary:
        group_sorted = group.sort_values('year', ascending = True)
        group_sorted.plot(kind = 'bar', subplots = False)
       
        plt.legend(['production', 'consumption'])
        plt.xlabel(key)
        
    plt.show()
    
milk_graph()