# 국가별 알콜 섭취량 데이터 분석
- 데이터 읽기
- 데이터 정보 확인
- 컬럼명 한글로 변경 (rename())
    - 원본 데이터 컬럼 정보
    - country : 국가명
    - beer_servings : 맥주 소비량
    - spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
    - wine_servings : 와인 소비량
    - total_litres_of_pure_alcohol : 순수 알코올
    - continent : 대륙
- 결측치 확인
    - `대륙`에 대한 정보가 부족한 것을 확인할 수 있다.
    - drinks.csv 파일을 열어 원인을 확인한다.
    - 대륙의 종류 (unique())
        - 아시아, 유럽, 아프리카, 북아메리카, 남아메리카, 오세아니아
        - AS, EU, AF, NA, SA, OC
- 결측치 해결
    - 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv 함수의 na_filter=False 파라메터 : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 
- 통계값 구하기
    - 전세계 맥주, 증류주, 와인, 알코올의 소비에 대한 '평균', '최대값', '최소값' 구하기
- 주류 소비량 비교
    - 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
    - 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
    - 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
    - 맥주를 가장 많이 소비하는 국가 확인
    - 증류주를 가장 많이 소비하는 국가 확인
    - 평균 맥주 소비량이 가장 많은 대륙 확인
- 데이터 프레임 조작
    - 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
    - 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
        - 알코올비율 = '알코올' / '주류소비량'
        - 알코올비율'이 NaN인 것에 대해 0으로 채우기
    - 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
    - DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
    - 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
        <pre>
               맥주	    증류주	     와인	      알코올	  주류소비량	알코올비율
     국가						
South Korea	140.000000	16.000000	9.000000	9.800000	165.000000	0.059394
World Wide	106.160622	80.994819	49.450777	4.717098	236.606218	0.026115
</pre>
    - pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다.

## 데이터 읽기
csv 파일 가져오기 
- csv 파일은 컬럼 구분이 콤마(,) 로 이루어진 파일
- df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴
- DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장, index는 제외하고 저장하기 위해서는 index=False로 지정

In [None]:
# 행 열 개수가 많아서 화면에 잘 보이지 않을 때
# pd.set_option('display.max_columns', 100)  # 100개의 컬럼이 화면에 보여지도록 세팅
pd.set_option('display.max_columns', None) # 모든 컬럼값이 보여지도록 세팅
pd.set_option('display.max_rows', None) # 모든 행값이 보여지도록 세팅

In [71]:
import pandas as pd
import numpy as np

df = pd.read_csv('drinks.csv') # na_filter: 결측치로 읽히지 않고 그대로 읽음

df.shape
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   country                       193 non-null    object 
 1   beer_servings                 193 non-null    int64  
 2   spirit_servings               193 non-null    int64  
 3   wine_servings                 193 non-null    int64  
 4   total_litres_of_pure_alcohol  193 non-null    float64
 5   continent                     170 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB


Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


## 컬럼명 한글로 변경
- country : 국가명
- beer_servings : 맥주 소비량
- spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
- wine_servings : 와인 소비량
- total_litres_of_pure_alcohol : 순수 알코올
- continent : 대륙

In [72]:
# answer - 전체 컬럼을 바꿀 때
df.columns = ['국가명', '맥주', '증류주', '와인', '알코올', '대륙']
df.head()

Unnamed: 0,국가명,맥주,증류주,와인,알코올,대륙
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


In [3]:
df.rename(columns={'country':'국가명', 'beer_servings':'맥주 소비량', 'spirit_servings':'증류주 소비량', 'wine_servings':'와인 소비량', 'total_litres_of_pure_alcohol':'순수 알코올', 'continent':'대륙'}, inplace=True)
# df.rename({}, axis=1, inplace=True)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   국가명      193 non-null    object 
 1   맥주 소비량   193 non-null    int64  
 2   증류주 소비량  193 non-null    int64  
 3   와인 소비량   193 non-null    int64  
 4   순수 알코올   193 non-null    float64
 5   대륙       193 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB


## 결측치 확인

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   국가명     193 non-null    object 
 1   맥주      193 non-null    int64  
 2   증류주     193 non-null    int64  
 3   와인      193 non-null    int64  
 4   알코올     193 non-null    float64
 5   대륙      170 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB


In [18]:
np.sum(df.isna())

국가명     0
맥주      0
증류주     0
와인      0
알코올     0
대륙     23
dtype: int64

In [20]:
# 결측치를 가진 컬럼의 고유값 확인
df['대륙'].unique()

array(['AS', 'EU', 'AF', nan, 'SA', 'OC'], dtype=object)

In [81]:
# 결측치를 포함한 레코드 확인
df[df['대륙'].isna()]

KeyError: '대륙'

## 결측치 해결

- 'NA'를 NaN(결측치)로 읽는 것을 방지
    - pd.read_csv(파일이름, na_filter=False) : 결측치를 읽어올지 여부 지정
    - 옵션 확인 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html 


- 결측치를 다른 값으로 채우기 함
    - DataFrame.fillna(값) 또는 Series.fillna(값) : 결측값을 특정 값으로 채우기 
    - 연속형 데이터 : 0으로 채우기, 평균값으로 채우기, 범주별 평균값 채우기 등
    - 범주형 데이터 : 다른 범주로 만들어 채우기 

In [73]:
# df.fillna()  # 데이터 프레임의 모든 결측치를 특정값으로 바꿔버림
df['대륙'] = df['대륙'].fillna('NA')

In [74]:
df.isna().sum()

국가명    0
맥주     0
증류주    0
와인     0
알코올    0
대륙     0
dtype: int64

## 통계값 구하기
- DataFrame.describe() : 컬럼별 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기
- 전세계 맥주, 증류주, 와인, 알코올의 소비에 대한 '평균', '최대값', '최소값' 구하기

In [26]:
# describe()는 기본적으로 연속형(수치형)데이터에 대한 통계를 보여준다.
df.describe()

Unnamed: 0,맥주,증류주,와인,알코올
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [27]:
# 명목형 데이터에 대한 통계치 확인 
df.describe(include='object')

Unnamed: 0,국가명,대륙
count,193,193
unique,193,6
top,Afghanistan,AF
freq,1,53


In [75]:
# 모든 유형이 데이터에 대한 통계치 확인
df.describe(include='all')

Unnamed: 0,국가명,맥주,증류주,와인,알코올,대륙
count,193,193.0,193.0,193.0,193.0,193
unique,193,,,,,6
top,Afghanistan,,,,,AF
freq,1,,,,,53
mean,,106.160622,80.994819,49.450777,4.717098,
std,,101.143103,88.284312,79.697598,3.773298,
min,,0.0,0.0,0.0,0.0,
25%,,20.0,4.0,1.0,1.3,
50%,,76.0,56.0,8.0,4.2,
75%,,188.0,128.0,59.0,7.2,


In [5]:
df[['맥주 소비량', '증류주 소비량', '와인 소비량','순수 알코올']].agg(['mean','max','min'])

Unnamed: 0,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올
mean,106.160622,80.994819,49.450777,4.717098
max,376.0,438.0,370.0,14.4
min,0.0,0.0,0.0,0.0


## 주류 소비량 비교
- 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
- 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
- 전체 평균보다 많은 알코올을 섭취하는 대륙과 알코올 평균 소비량 검색
- 맥주를 가장 많이 소비하는 국가 확인
- 증류주를 가장 많이 소비하는 국가 확인
- 평균 맥주 소비량이 가장 많은 대륙 확인

In [23]:
# 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬
df[df['와인 소비량'] > (df['맥주 소비량']+df['증류주 소비량'])].sort_values('대륙')

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
55,Equatorial Guinea,92,0,233,5.8,AF
148,Sao Tome & Principe,56,38,140,4.2,AF
92,Laos,62,0,123,6.2,AS
171,Timor-Leste,1,1,4,0.1,AS
61,France,127,151,370,11.8,EU
83,Italy,85,42,237,6.5,EU
136,Portugal,194,67,339,11.0,EU
6,Argentina,193,25,221,8.3,SA
185,Uruguay,115,35,220,6.6,SA


In [30]:
# answer
df[df['와인'] > (df['맥주'] + df['증류주'])].sort_values(by='대륙')

Unnamed: 0,국가명,맥주,증류주,와인,알코올,대륙
55,Equatorial Guinea,92,0,233,5.8,AF
148,Sao Tome & Principe,56,38,140,4.2,AF
92,Laos,62,0,123,6.2,AS
171,Timor-Leste,1,1,4,0.1,AS
61,France,127,151,370,11.8,EU
83,Italy,85,42,237,6.5,EU
136,Portugal,194,67,339,11.0,EU
6,Argentina,193,25,221,8.3,SA
185,Uruguay,115,35,220,6.6,SA


In [25]:
# 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색
df[np.logical_and(df['맥주 소비량'] > 230, df['와인 소비량'] > 230)]

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
3,Andorra,245,138,312,12.4,EU
99,Luxembourg,236,133,271,11.4,EU
156,Slovenia,270,51,276,10.6,EU


In [31]:
# answer
df[np.logical_and(df['맥주'] > 230, df['와인'] > 230)]
# df[ (df['맥주'] > 230) & (df['와인'] > 230) ]

Unnamed: 0,국가명,맥주,증류주,와인,알코올,대륙
3,Andorra,245,138,312,12.4,EU
99,Luxembourg,236,133,271,11.4,EU
156,Slovenia,270,51,276,10.6,EU


In [28]:
# 각 대륙별 순수 알코올 평균이 전체 순수 알코올 평균보다 많은 양을 섭취하는 대륙과 그 대륙의 순수 알코올 평균 소비량 검색
avg_alcohol = df['순수 알코올'].mean()
avg_alcohol

4.717098445595855

In [32]:
continent_alcol = df.groupby('대륙')['순수 알코올'].mean()
continent_alcol

대륙
AF    3.007547
AS    2.170455
EU    8.617778
NA    5.995652
OC    3.381250
SA    6.308333
Name: 순수 알코올, dtype: float64

In [33]:
continent_alcol[continent_alcol > avg_alcohol]

대륙
EU    8.617778
NA    5.995652
SA    6.308333
Name: 순수 알코올, dtype: float64

In [76]:
# answer
total_mean = df['알코올'].mean()
print(f'전체 알코올 섭취 평균: {total_mean:.2f}')
print('-'*40)

conti_mean = df.groupby('대륙')['알코올'].mean()  # Series 객체로 반환
print('대륙별 알코올 섭취 평균')
print(conti_mean)
print('-'*40)

conti_mean_over = conti_mean[conti_mean > total_mean]
print('전체 평균보다 많은 알코올을 섭취하는 대륙')
print(conti_mean_over)

전체 알코올 섭취 평균: 4.72
----------------------------------------
대륙별 알코올 섭취 평균
대륙
AF    3.007547
AS    2.170455
EU    8.617778
NA    5.995652
OC    3.381250
SA    6.308333
Name: 알코올, dtype: float64
----------------------------------------
전체 평균보다 많은 알코올을 섭취하는 대륙
대륙
EU    8.617778
NA    5.995652
SA    6.308333
Name: 알코올, dtype: float64


In [38]:
# 맥주를 가장 많이 소비하는 국가 확인
df[df['맥주 소비량'] == df['맥주 소비량'].max()]

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
117,Namibia,376,3,1,6.8,AF


In [36]:
df[df['맥주'] == df['맥주'].max()][['국가명','맥주']]

Unnamed: 0,국가명,맥주
117,Namibia,376


In [39]:
# 증류주를 가장 많이 소비하는 국가 확인
df[df['증류주 소비량'] == df['증류주 소비량'].max()]

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙
68,Grenada,199,438,28,11.9,


In [37]:
df[df['증류주'] == df['증류주'].max()][['국가명','증류주']]

Unnamed: 0,국가명,증류주
68,Grenada,438


In [42]:
# 평균 맥주 소비량이 가장 많은 대륙 확인
continent_beer = df.groupby('대륙')['맥주 소비량'].mean()
continent_beer[continent_beer == continent_beer.max()]

대륙
EU    193.777778
Name: 맥주 소비량, dtype: float64

In [42]:
beer_avg_conti = df.groupby('대륙')['맥주'].mean()
beer_avg_conti.sort_values(ascending=False)[[0]]  # 내림차순 정렬 후 첫번째 값 가져오기
# [[인덱스값]]: 원래 차원 유지

대륙
EU    193.777778
Name: 맥주, dtype: float64

In [43]:
beer_avg_conti = df.groupby('대륙')['맥주'].mean()
max_id = np.argmax(beer_avg_conti)  # 최대값을 갖는 데이터의 인덱스값 가져오기
print(beer_avg_conti[[max_id]])

대륙
EU    193.777778
Name: 맥주, dtype: float64


## 데이터 프레임 조작
- 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
- 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
   - 알코올비율 = '알코올' / '주류소비량'
    - 알코올비율'이 NaN인 것에 대해 0으로 채우기
- 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
- DataFrame의 index를 ['대륙', '국가'] 로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장
- 전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
        <pre>
               맥주	    증류주	     와인	      알코올	  주류소비량	알코올비율
     국가						
South Korea	140.000000	16.000000	9.000000	9.800000	165.000000	0.059394
World Wide	106.160622	80.994819	49.450777	4.717098	236.606218	0.026115
</pre>
 - pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다.

In [6]:
# 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량') 추가
# df.sum(axis=1, numeric_only=True)
df['주류소비량'] = df[['맥주 소비량', '증류주 소비량', '와인 소비량']].sum(axis=1)
# df[df.columns[1:4]].sum(axis=1)
df

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류소비량
0,Afghanistan,0,0,0,0.0,AS,0
1,Albania,89,132,54,4.9,EU,275
2,Algeria,25,0,14,0.7,AF,39
3,Andorra,245,138,312,12.4,EU,695
4,Angola,217,57,45,5.9,AF,319
...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA,436
189,Vietnam,111,2,1,2.0,AS,114
190,Yemen,6,0,0,0.1,AS,6
191,Zambia,32,19,4,2.5,AF,55


In [77]:
df['주류소비량'] = df['맥주']+df['증류주']+df['와인']
df

Unnamed: 0,국가명,맥주,증류주,와인,알코올,대륙,주류소비량
0,Afghanistan,0,0,0,0.0,AS,0
1,Albania,89,132,54,4.9,EU,275
2,Algeria,25,0,14,0.7,AF,39
3,Andorra,245,138,312,12.4,EU,695
4,Angola,217,57,45,5.9,AF,319
...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA,436
189,Vietnam,111,2,1,2.0,AS,114
190,Yemen,6,0,0,0.1,AS,6
191,Zambia,32,19,4,2.5,AF,55


In [7]:
# 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율') 추가
# 알코올비율 = '알코올' / '주류소비량'
# 알코올비율'이 NaN인 것에 대해 0으로 채우기
df['알코올비율'] = df['순수 알코올']/df['주류소비량']

np.sum(df.isna())
df.fillna(0, inplace=True)
df.head()

Unnamed: 0,국가명,맥주 소비량,증류주 소비량,와인 소비량,순수 알코올,대륙,주류소비량,알코올비율
0,Afghanistan,0,0,0,0.0,AS,0,0.000000
1,Albania,89,132,54,4.9,EU,275,0.017818
2,Algeria,25,0,14,0.7,AF,39,0.017949
3,Andorra,245,138,312,12.4,EU,695,0.017842
4,Angola,217,57,45,5.9,AF,319,0.018495
...,...,...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA,436,0.017661
189,Vietnam,111,2,1,2.0,AS,114,0.017544
190,Yemen,6,0,0,0.1,AS,6,0.016667
191,Zambia,32,19,4,2.5,AF,55,0.045455


In [78]:
df['알코올비율'] = df['알코올']/df['주류소비량']
df['알코올비율'] = df['알코올비율'].fillna(0)
df.head()

Unnamed: 0,국가명,맥주,증류주,와인,알코올,대륙,주류소비량,알코올비율
0,Afghanistan,0,0,0,0.0,AS,0,0.0
1,Albania,89,132,54,4.9,EU,275,0.017818
2,Algeria,25,0,14,0.7,AF,39,0.017949
3,Andorra,245,138,312,12.4,EU,695,0.017842
4,Angola,217,57,45,5.9,AF,319,0.018495


In [51]:
# 알코올비율이 높은 국가(술을 독하게 마시는 국가) TOP5의 ['국가', '주류소비량', '알코올비율'] 정보 조회
top5 = df.sort_values('알코올비율', ascending=False)[['국가명','주류소비량','알코올비율']].head(5)
top5.index = np.arange(1,6)  # index 지정
top5

Unnamed: 0,국가명,주류소비량,알코올비율
1,Gambia,9,0.266667
2,Sierra Leone,30,0.223333
3,Nigeria,49,0.185714
4,Uganda,54,0.153704
5,Rwanda,45,0.151111


# -전세계 평균 소비량과 한국의 소비량을 비교하는 DataFrame 만들기
<pre>
               맥주	    증류주	     와인	      알코올	  주류소비량	알코올비율
     국가						
South Korea	140.000000	16.000000	9.000000	9.800000	165.000000	0.059394
World Wide	106.160622	80.994819	49.450777	4.717098	236.606218	0.026115
</pre>

In [54]:
df.index  # 인덱스의 구조: 각각의 인덱스가 튜플로 되어 있음

MultiIndex([('AF',                  'Algeria'),
            ('AF',                   'Angola'),
            ('AF',                    'Benin'),
            ('AF',                 'Botswana'),
            ('AF',             'Burkina Faso'),
            ('AF',                  'Burundi'),
            ('AF',               'Cabo Verde'),
            ('AF',                 'Cameroon'),
            ('AF', 'Central African Republic'),
            ('AF',                     'Chad'),
            ...
            ('SA',                   'Brazil'),
            ('SA',                    'Chile'),
            ('SA',                 'Colombia'),
            ('SA',                  'Ecuador'),
            ('SA',                   'Guyana'),
            ('SA',                 'Paraguay'),
            ('SA',                     'Peru'),
            ('SA',                 'Suriname'),
            ('SA',                  'Uruguay'),
            ('SA',                'Venezuela')],
           names=['대륙',

In [60]:
korea = df.loc[[('AS', 'South Korea')]] ##[[]] : Series가 아닌 dataframe으로 가져옴
korea.index = ['South Korea']
korea.index.name = '국가'
korea

Unnamed: 0_level_0,맥주,증류주,와인,알코올,주류소비량,알코올비율
국가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
South Korea,140,16,9,9.8,165,0.059394


In [62]:
df.loc['World Wide'] = df.mean(numeric_only=True)
worldwide = df.loc[['World Wide']]
worldwide

Unnamed: 0,맥주,증류주,와인,알코올,주류소비량,알코올비율
World Wide,106.160622,80.994819,49.450777,4.717098,236.606218,0.026115


In [65]:
worldwide = pd.DataFrame(df.mean())
worldwide = worldwide.T
worldwide.index = ['World Wide']
worldwide.index.name = '국가'
worldwide

Unnamed: 0_level_0,맥주,증류주,와인,알코올,주류소비량,알코올비율
국가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
World Wide,106.160622,80.994819,49.450777,4.717098,236.606218,0.026115


In [63]:
df2 = pd.concat([worldwide, korea])  # concat: 여러개 데이터프레임 합치기, 열 단위로도 가능
df2

Unnamed: 0,맥주,증류주,와인,알코올,주류소비량,알코올비율
World Wide,106.160622,80.994819,49.450777,4.717098,236.606218,0.026115
South Korea,140.0,16.0,9.0,9.8,165.0,0.059394


In [80]:
# pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구한다.
pd.pivot_table(df, index='대륙', values=['맥주','와인'], aggfunc=['mean','median','max'])

Unnamed: 0_level_0,mean,mean,median,median,max,max
Unnamed: 0_level_1,맥주,와인,맥주,와인,맥주,와인
대륙,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
AF,61.471698,16.264151,32.0,2.0,376,233
AS,37.045455,9.068182,17.5,1.0,247,123
EU,193.777778,142.222222,219.0,128.0,361,370
,145.434783,24.521739,143.0,11.0,285,100
OC,89.6875,35.625,52.5,8.5,306,212
SA,175.083333,62.416667,162.5,12.0,333,221
