# 국가별 알콜 섭취량 데이터 분석
- 데이터 읽기
- 데이터 정보 확인
- 컬럼명 한글로 변경
    - 원본 데이터 컬럼 정보
    - country : 국가명
    - beer_servings : 맥주 소비량
    - spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
    - wine_servings : 와인 소비량
    - total_litres_of_pure_alcohol : 순수 알코올
    - continent : 대륙
- 결측치 확인
    - `대륙`에 대한 정보가 부족한 것을 확인할 수 있다.
    - drinks.csv 파일을 열어 원인을 확인한다.
    - 대륙의 종류
        - 아시아, 유럽, 아프리카, 북아메리카, 남아메리카, 오세아니아
        - AS, EU, AF, NA, SA, OC
- 결측치 해결
    - 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv 함수의 na_filter=False 파라메터 : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 
- 통계값 구하기
    - 전세계 맥주, 증류주, 와인, 알코올의 소비에 대한 '평균', '최대값', '최소값' 구하기
- 주류 소비량 비교
    - 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
    - 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
    - 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
    - 맥주를 가장 많이 소비하는 국가 확인
    - 증류주를 가장 많이 소비하는 국가 확인
    - 평균 맥주 소비량이 가장 많은 대륙 확인
- 데이터 프레임 조작
    - 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
    - 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
        - 알코올비율 = '알코올' / '주류소비량'
        - 알코올비율'이 NaN인 것에 대해 0으로 채우기
    - 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
    - DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
    - 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
        <pre>
               맥주	    증류주	     와인	      알코올	  주류소비량	알코올비율
     국가						
South Korea	140.000000	16.000000	9.000000	9.800000	165.000000	0.059394
World Wide	106.160622	80.994819	49.450777	4.717098	236.606218	0.026115
</pre>
    - pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다.

## 데이터 읽기
csv 파일 가져오기 
- csv 파일은 컬럼 구분이 콤마(,) 로 이루어진 파일
- df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴
- DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장, index는 제외하고 저장하기 위해서는 index=False로 지정

In [19]:
import numpy as np
import pandas as pd

df = pd.read_csv('drinks.csv',na_filter=False)
df

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


## 컬럼명 한글로 변경
- country : 국가명
    - beer_servings : 맥주 소비량
    - spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
    - wine_servings : 와인 소비량
    - total_litres_of_pure_alcohol : 순수 알코올
    - continent : 대륙

In [26]:
# df.columns = ['국가명','맥주 소비량','증류주 소비량','와인 소비량','순수 알코올','대륙']
df.rename(columns= {'total_litres_of_pure_alcohol':'순수 알코올'},inplace=True)
df

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


## 결측치 확인

In [27]:
df.isna().sum()

국가명        0
맥주 소비량     0
증류주 소비량    0
와인 소비량     0
순수 알코올     0
대륙         0
dtype: int64

## 결측치 해결

- 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv(파일이름, na_filter=False) : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 


- 결측치를 다른 값으로 채우기 함
    - DataFrame.fillna(값) 또는 Series.fillna(값) : 결측값을 특정 값으로 채우기 
    - 연속형 데이터 : 0으로 채우기, 평균값으로 채우기, 범주별 평균값 채우기 등
    - 범주형 데이터 : 다른 범주로 만들어 채우기 

## 통계값 구하기
- DataFrame.describe() : 컬럼별 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기

In [28]:
# describe()는 기본적으로 수치형 데이터에 대한 통계를 보여준다
# 데이터 상관없이 모든 컬럼에 대한 통계값 확인: include = 'all'
# df.describe(include = 'all') 
df.describe()

Unnamed: 0,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


## 주류 소비량 비교
- 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
    - 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
    - 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
    - 맥주를 가장 많이 소비하는 국가 확인
    - 증류주를 가장 많이 소비하는 국가 확인
    - 평균 맥주 소비량이 가장 많은 대륙 확인


In [63]:
#와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
df[df['와인 소비량'] > df['맥주 소비량']+df['증류주 소비량']].sort_values('대륙')

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
55,Equatorial Guinea,92,0,233,5.8,AF
148,Sao Tome & Principe,56,38,140,4.2,AF
92,Laos,62,0,123,6.2,AS
171,Timor-Leste,1,1,4,0.1,AS
61,France,127,151,370,11.8,EU
83,Italy,85,42,237,6.5,EU
136,Portugal,194,67,339,11.0,EU
6,Argentina,193,25,221,8.3,SA
185,Uruguay,115,35,220,6.6,SA


In [48]:
df.head()
#맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
df[df['맥주 소비량'] >230][df['와인 소비량'] >230]


  df[df['맥주 소비량'] >230][df['와인 소비량'] >230].sort_values('대륙')


Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
3,Andorra,245,138,312,12.4,EU
99,Luxembourg,236,133,271,11.4,EU
156,Slovenia,270,51,276,10.6,EU


In [91]:
#전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
# df['순수 알코올'].mean()
df[df['순수 알코올'] > df['순수 알코올'].mean()]
# df['대륙'].unique()
grouped = df.groupby('대륙')
grouped[['순수 알코올']].mean() > df['순수 알코올'].mean()

Unnamed: 0_level_0,순수 알코올
대륙,Unnamed: 1_level_1
AF,False
AS,False
EU,True
,True
OC,False
SA,True


In [82]:
#- 맥주를 가장 많이 소비하는 국가 확인
df[df['맥주 소비량'] == df['맥주 소비량'].max()]

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
117,Namibia,376,3,1,6.8,AF


In [83]:
#증류주를 가장 많이 소비하는 국가 확인
df[df['증류주 소비량'] == df['증류주 소비량'].max()]

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
68,Grenada,199,438,28,11.9,


In [95]:
#평균 맥주 소비량이 가장 많은 대륙 확인
grouped = df.groupby('대륙')
grouped[['맥주 소비량']].mean()


Unnamed: 0_level_0,맥주 소비량
대륙,Unnamed: 1_level_1
AF,61.471698
AS,37.045455
EU,193.777778
,145.434783
OC,89.6875
SA,175.083333


## 데이터 프레임 조작
    - 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
    - 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
    - 알코올비율 = '알코올' / '주류소비량'
    - 알코올비율'이 NaN인 것에 대해 0으로 채우기
    - 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
    - DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
    - 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기

In [99]:
df['주류 소비량'] =df['맥주 소비량']+df['증류주 소비량']+df['와인 소비량']
df

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류 소비량
0,Afghanistan,0,0,0,0.0,AS,0
1,Albania,89,132,54,4.9,EU,275
2,Algeria,25,0,14,0.7,AF,39
3,Andorra,245,138,312,12.4,EU,695
4,Angola,217,57,45,5.9,AF,319
...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA,436
189,Vietnam,111,2,1,2.0,AS,114
190,Yemen,6,0,0,0.1,AS,6
191,Zambia,32,19,4,2.5,AF,55


In [100]:
#주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
#알코올비율 = '알코올' / '주류소비량'
df['알코올 비율'] = df['순수 알코올']/df['주류 소비량']
df


Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류 소비량,알코올 비율
0,Afghanistan,0,0,0,0.0,AS,0,
1,Albania,89,132,54,4.9,EU,275,0.017818
2,Algeria,25,0,14,0.7,AF,39,0.017949
3,Andorra,245,138,312,12.4,EU,695,0.017842
4,Angola,217,57,45,5.9,AF,319,0.018495
...,...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA,436,0.017661
189,Vietnam,111,2,1,2.0,AS,114,0.017544
190,Yemen,6,0,0,0.1,AS,6,0.016667
191,Zambia,32,19,4,2.5,AF,55,0.045455


In [107]:
#알코올비율'이 NaN인 것에 대해 0으로 채우기
df['알코올 비율'] = df['알코올 비율'].fillna(0)
df.isna().sum()
df

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류 소비량,알코올 비율
0,Afghanistan,0,0,0,0.0,AS,0,0.000000
1,Albania,89,132,54,4.9,EU,275,0.017818
2,Algeria,25,0,14,0.7,AF,39,0.017949
3,Andorra,245,138,312,12.4,EU,695,0.017842
4,Angola,217,57,45,5.9,AF,319,0.018495
...,...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA,436,0.017661
189,Vietnam,111,2,1,2.0,AS,114,0.017544
190,Yemen,6,0,0,0.1,AS,6,0.016667
191,Zambia,32,19,4,2.5,AF,55,0.045455


In [175]:
#알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
#df[df['알코올 비율'] > df[['알코올 비율']]]
df.sort_values('알코올 비율', ascending = False)[:5].loc[:,['국가명','주류 소비량','알코올 비율']]

Unnamed: 0,국가명,주류 소비량,알코올 비율
63,Gambia,9,0.266667
153,Sierra Leone,30,0.223333
124,Nigeria,49,0.185714
179,Uganda,54,0.153704
142,Rwanda,45,0.151111


In [179]:
#DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df2로 저장
df2 = pd.pivot_table(df, index = ['대륙','국가명'])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,맥주 소비량,순수 알코올,알코올 비율,와인 소비량,주류 소비량,증류주 소비량
대륙,국가명,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
AF,Algeria,25,0.7,0.017949,14,39,0
AF,Angola,217,5.9,0.018495,45,319,57
AF,Benin,34,1.1,0.021569,13,51,4
AF,Botswana,173,5.4,0.022222,35,243,35
AF,Burkina Faso,25,4.3,0.110256,7,39,7
...,...,...,...,...,...,...,...
SA,Paraguay,213,7.3,0.018069,74,404,117
SA,Peru,163,6.1,0.017733,21,344,160
SA,Suriname,128,5.6,0.017891,7,313,178
SA,Uruguay,115,6.6,0.017838,220,370,35


In [190]:
# 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기

world_wide = pd.DataFrame(df[['맥주 소비량','증류주 소비량','와인 소비량','순수 알코올','주류 소비량','알코올 비율']].mean())
world_wide = world_wide.T
world_wide.insert(0,'국가명',value = ["world_wide"])
world_wide

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,주류 소비량,알코올 비율
0,world_wide,106.160622,80.994819,49.450777,4.717098,236.606218,0.026115


In [195]:
# 한국

korea = pd.DataFrame(df[df['국가명'] == 'South Korea'])
korea

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류 소비량,알코올 비율
138,South Korea,140,16,9,9.8,AS,165,0.059394
