In [3]:
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [33]:
# pandas의 max_rows, max_columns 설정하는 방법
pd.set_option('display.max_rows', 200)
pd.set_option('display.max_columns', 10)
# https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html

In [137]:
# [2-1] drinks.csv 파일을 DataFrame으로 불러오기 합니다.
df= pd.read_csv('./data/drinks.csv',na_filter=False)
df.head()
# 대륙의 종류 : 아시아(AS), 유럽(EU), 아프리카(AF), 북아메리카(NA), 남아메리카(SA), 오세아니아(OC)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


In [7]:
# [2-2] df의 데이터 모습을 확인하기 위해 첫 5개 데이터를 출력합니다
df.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


In [140]:
# [2-3] df의 컬럼명을 한글로 변경합니다.
# ['국가', '맥주', '증류주', '와인', '알코올','대륙']
df.columns = ['국가', '맥주', '증류주', '와인', '알코올','대륙']
df.head() # 컬럼들이 전부 변경됨


Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


In [10]:
# [2-4] df의 row의 개수 및 각 column의 정보 및 메모리 사용량 확인
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   국가      193 non-null    object 
 1   맥주      193 non-null    int64  
 2   증류주     193 non-null    int64  
 3   와인      193 non-null    int64  
 4   알코올     193 non-null    float64
 5   대륙      170 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 29.0 KB


### 결측치 확인 및 해결
1. 결측치 : 값이 없음을 나타냄
   - NaN, NaT, None 등으로 표기되며, NA Value, Missing Value 라고 함

2. 결측치 확인하는 메소드 
   - DataFrame.isna() : 결측치에 대해 True, 아니면 False
   - DataFrame.isnull() : DataFrame.isna()와 동일함
   - DataFrame.notna() : 결측치가 아닌 것에 대해 True, 결측치면 False
   - DataFrame.notnull() : DataFrame.isnull()과 동일함
   - Series에도 결측치 확인을 위한 isna() ~ notnull()의 메서드 있음

3. DataFrame.isna().sum() : 결측치에 대해 컬럼별 개수



In [16]:
# all : 모두가 결측치면 True
# any : 결측치 일부만 있어도 True
# sum : 각 column마다 결측치의 갯수를 구할 수 있음
df.isna().all()
df.isna().any()
df.isna().sum()

country                          0
beer_servings                    0
spirit_servings                  0
wine_servings                    0
total_litres_of_pure_alcohol     0
continent                       23
dtype: int64

In [23]:
# [2-5] 대륙의 종류를 알아봅니다
# unique : 해당 컬럼 값의 종류를 출력
# nunique : 해당 컬럼 값의 갯수를 출력
df['대륙'].unique()
df['대륙'].nunique()

5

In [27]:
# [2-6] isna()를 사용해 대륙에서 결측치로 취급된 데이터만 출력
df[df['대륙'].isna()] 
# 전부 NA(북아메리카)가 NaN으로 표시된 것을 알 수 있음


Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙
5,Antigua & Barbuda,102,128,45,4.9,
11,Bahamas,122,176,51,6.3,
14,Barbados,143,173,36,6.3,
17,Belize,263,114,8,6.8,
32,Canada,240,122,100,8.2,
41,Costa Rica,149,87,11,4.4,
43,Cuba,93,137,5,4.2,
50,Dominica,52,286,26,6.6,
51,Dominican Republic,193,147,9,6.2,
54,El Salvador,52,69,2,2.2,


### 결측치 해결방법
1. fillna : 결측치를 모두 특정 값으로 채운다.
   - 연속형 데이터 : 0으로 채우기, 평균값으로 채우기, 범주별 평균값 채우기
   - 범주형 데이터 : 다른 범주로 만들어 채우기 
2. dropna : 결측치를 포함하는 데이터를 모두 삭제한다(지양)
3. read_csv : na_filter 속성을 False로 한후 위 과정을 반복한다.

In [136]:
# [2-7] 해결방법 1 : 부를 때 na_filter 속성을 False로 한다.
temp=pd.read_csv('./data/drinks.csv',na_filter=False)

In [30]:
# [2-8] 위 결과 isna의 갯수는 0
temp.isna().sum()

country                         0
beer_servings                   0
spirit_servings                 0
wine_servings                   0
total_litres_of_pure_alcohol    0
continent                       0
dtype: int64

In [37]:
# [2-9] 해결방법 2 : fillna 사용
df['대륙'] = df['대륙'].fillna('NA')
df.isna().sum() # 결과가 0나오면 인정

국가     0
맥주     0
증류주    0
와인     0
알코올    0
대륙     0
dtype: int64

In [54]:
# [2-10] 해결방법 3 : dropna 사용
df.shape[0] # 원래 데이터 갯수 : 193개
df.dropna(how='all').isna().sum() # how를 all로하면 해당 열의 값이 모두 null인것만 추출
df.dropna(how='any').shape[0] # how를 any로 하면 하나라도 null인 것 추출 : 157개 남음  


157

### 통계치 구하기
1. DataFrame.describe() : 숫자형 데이터타입을 갖는 컬럼에 대해 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기
2. DataFrame.count() : 개수
3. DataFrame.sum() : 합계
4. DataFrame.mean() : 평균
5. DataFrame.std() : 표준편차
6. DataFrame.var() : 분산
7. DataFrame.quantile() : 분위수
8. DataFrame.함수(axis=1)을 사용하여 행별 통계값을 구할 수 있음
   - axis=0 : 기본값이며, 행을 이동하며, 행과 행의 연산을 수행함
   - axis=1 : 컬럼을 이동하며 컬럼과 컬럼의 연산을 수행함
9. DateFrame.apply('통계값') : 문자열 형태로 통계값 넣으면 한꺼번에 계산해줌
   - 여러 개일 때에는 리스트 형태로 넣어줌

In [30]:
# [2-11] 맥주부터 알코올까지 str아닌 경우만 모아서 df_sub 만들어서 통계값 산출
df_sub = df.loc[:,'맥주':'알코올']
평균   = df_sub.mean()
중앙값 = df_sub.median()
최댓값 = df_sub.max()
최솟값 = df_sub.min()
분산 = df_sub.var()
표준편차 = df_sub.std()

pd.concat([평균,중앙값,최댓값,최솟값,분산,표준편차],axis=1)


Unnamed: 0,0,1,2,3,4,5
맥주,106.160622,76.0,376.0,0.0,10229.927191,101.143103
증류주,80.994819,56.0,438.0,0.0,7794.119765,88.284312
와인,49.450777,8.0,370.0,0.0,6351.7072,79.697598
알코올,4.717098,4.2,14.4,0.0,14.237779,3.773298


In [28]:
# [2-12] 분위수 quantile 사용
df_sub = df_sub.quantile([0.25,0.5,0.75])
df_sub.index = ['Q1','Q2','Q3']
df_sub

Unnamed: 0,맥주,증류주,와인,알코올
Q1,48.0,30.0,4.5,2.75
Q2,76.0,56.0,8.0,4.2
Q3,132.0,92.0,33.5,5.7


In [32]:
df_sub.apply(['mean','min','max','std','var'])

Unnamed: 0,맥주,증류주,와인,알코올
mean,106.160622,80.994819,49.450777,4.717098
min,0.0,0.0,0.0,0.0
max,376.0,438.0,370.0,14.4
std,101.143103,88.284312,79.697598,3.773298
var,10229.927191,7794.119765,6351.7072,14.237779


In [34]:
# [2-13] 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬해 보자
df[df['와인']>(df['맥주']+df['증류주'])].sort_values('대륙')
# Series끼리 산술연산(+,-,*,/) 및 비교연산(>,<,=,<=,>=,==,!=)이 가능

Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙
55,Equatorial Guinea,92,0,233,5.8,AF
148,Sao Tome & Principe,56,38,140,4.2,AF
92,Laos,62,0,123,6.2,AS
171,Timor-Leste,1,1,4,0.1,AS
61,France,127,151,370,11.8,EU
83,Italy,85,42,237,6.5,EU
136,Portugal,194,67,339,11.0,EU
6,Argentina,193,25,221,8.3,SA
185,Uruguay,115,35,220,6.6,SA


### DataFrame 인덱스, 컬럼 추가 및 제거
1. DataFrame의 새로운 컬럼 추가 
- DataFrame[컬럼명] = 데이터목록
- 컬럼명은 기존 DataFrame에 존재하지 않는 이름이어야 함
- 데이터목록은 DataFrame의 다른 컬럼들과 같은 개수이어야 하며 list, Series 등의 형태일 수 있음

2. DataFrame의 기존 컬럼 제거 
- del DataFrame[컬럼명]
- DataFrame.drop(컬럼명, axis=1), DataFrame.drop([컬럼명1, 컬럼명2, ...], axis=1)
- DataFrame.drop(columns=[컬럼명...])

3. DataFrame의 행 제거
- axis=0 이 기본값이므로 생략하여도 됨
- DataFrame.drop(행이름), DataFrame.drop([행이름1, 행이름2, ...])
- DataFrame.drop(rows=[행이름1, 행이름2 ...])

In [35]:
# [2-14] 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량')를 추가합니다
# 주류소비량 = '맥주' + '증류주' + '와인'
df['주류소비량']=df['맥주']+df['증류주']+df['와인']
df.head()

Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙,주류소비량
0,Afghanistan,0,0,0,0.0,AS,0
1,Albania,89,132,54,4.9,EU,275
2,Algeria,25,0,14,0.7,AF,39
3,Andorra,245,138,312,12.4,EU,695
4,Angola,217,57,45,5.9,AF,319


In [36]:
# [2-15] 주류소비량2 = ['맥주', '증류주', '와인']에 대해 DataFrame.sum(axis=1) 함수 사용
df['주류소비량2']=df[['맥주','증류주','와인']].sum(axis=1) # column간 합계구함
df.head()
# 주류소비량과 주류소비량2 열의 데이터 값이 전부 동일함을 알 수 있음

Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙,주류소비량,주류소비량2
0,Afghanistan,0,0,0,0.0,AS,0,0
1,Albania,89,132,54,4.9,EU,275,275
2,Algeria,25,0,14,0.7,AF,39,39
3,Andorra,245,138,312,12.4,EU,695,695
4,Angola,217,57,45,5.9,AF,319,319


In [39]:
# [2-16] 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율')을 추가합니다.
# 알코올비율 = '알코올' / '주류소비량'
df['알코올비율']=df['알코올']/df['주류소비량']
df.head()

Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙,주류소비량,주류소비량2,알코올비율
1,Albania,89,132,54,4.9,EU,275,275,0.017818
2,Algeria,25,0,14,0.7,AF,39,39,0.017949
3,Andorra,245,138,312,12.4,EU,695,695,0.017842
4,Angola,217,57,45,5.9,AF,319,319,0.018495
6,Argentina,193,25,221,8.3,SA,439,439,0.018907
7,Armenia,21,179,11,3.8,EU,211,211,0.018009
8,Australia,261,72,212,10.4,OC,545,545,0.019083
9,Austria,279,75,191,9.7,EU,545,545,0.017798
10,Azerbaijan,21,46,5,1.3,EU,72,72,0.018056
12,Bahrain,42,63,7,2.0,AS,112,112,0.017857


In [None]:
# [2-17] 알코올비율이 높은 국가 TOP5의 ['국가', '주류소비량', '알코올비율'] 정보를 구해 봅니다.
# HINT) sort_values, indexing 사용
df[['국가', '주류소비량', '알코올비율']].sort_values('알코올비율',ascending=False).head()

In [57]:
# [2-18] 컬럼제거
del df['주류소비량2']
df.head()


Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙,알코올비율
0,Afghanistan,0,0,0,0.0,AS,
1,Albania,89,132,54,4.9,EU,0.017818
2,Algeria,25,0,14,0.7,AF,0.017949
3,Andorra,245,138,312,12.4,EU,0.017842
4,Angola,217,57,45,5.9,AF,0.018495


In [58]:
# [2-19] '알코올비율'이 NaN인 것에 대해 0으로 채우기 합니다.
df['알코올비율']=df['알코올비율'].fillna(0)
df.head()

Unnamed: 0,국가,맥주,증류주,와인,알코올,대륙,알코올비율
0,Afghanistan,0,0,0,0.0,AS,0.0
1,Albania,89,132,54,4.9,EU,0.017818
2,Algeria,25,0,14,0.7,AF,0.017949
3,Andorra,245,138,312,12.4,EU,0.017842
4,Angola,217,57,45,5.9,AF,0.018495


In [63]:
# [2-20] 국가별 주류 소비량 합계(맥주, 증류주, 와인의 합)를 구해 봅니다.
df.set_index('국가')[['맥주','증류주','와인']].sum(axis=1).head()


국가
Afghanistan      0
Albania        275
Algeria         39
Andorra        695
Angola         319
dtype: int64

In [65]:
# [2-21] df를 ['대륙', '국가']를 index로 지정하고, 대륙별, 국가명으로  정렬하여 df로 저장합니다.
df = df.set_index(['대륙','국가']).sort_index()

In [68]:
# [2-22] df의 index를 모두 columns로 이동합니다.(set_index와 반대)
df = df.reset_index()
df.head()

Unnamed: 0,index,대륙,국가,맥주,증류주,와인,알코올,알코올비율
0,0,AF,Algeria,25,0,14,0.7,0.017949
1,1,AF,Angola,217,57,45,5.9,0.018495
2,2,AF,Benin,34,4,13,1.1,0.021569
3,3,AF,Botswana,173,35,35,5.4,0.022222
4,4,AF,Burkina Faso,25,7,7,4.3,0.110256


In [110]:
# [2-23] 전세계 평균 소비량과 한국('South Korea')의 소비량을 비교
korea = df[df['국가']=='South Korea']
japan = df[df['국가']=='Japan']
asia = df[df['국가'].isin(['South Korea','Japan','China'])]
# df.describe()
asia

Unnamed: 0,index,대륙,국가,맥주,증류주,와인,알코올,알코올비율
59,59,AS,China,79,192,8,5.0,0.017921
65,65,AS,Japan,77,202,16,7.0,0.023729
85,85,AS,South Korea,140,16,9,9.8,0.059394


### DataFrame에서 특정 행, 열 제거
1. DataFrame.drop(행, axis=0) : 특정 행만 제거
2. DataFrame.drop([행1, 행2, ...], axis=0) : 특정 행들만 제거
3. DataFrame.drop(열, axis=1) : 특정 열만 제거
4. DataFrame.drop([열1, 열2, ...], axis=1) : 특정 열들만 제거
5. indexing을 사용하여, 제거할 정보가 아닌 필요한 정보를 가져오기 하여 특정 행/열 제거

In [111]:
# [2-24] korea 정보 중에서 index 정보를 제거합니다.
asia.drop('index',axis=1) # index 열만 없어진 것을 확인가능

Unnamed: 0,대륙,국가,맥주,증류주,와인,알코올,알코올비율
59,AS,China,79,192,8,5.0,0.017921
65,AS,Japan,77,202,16,7.0,0.023729
85,AS,South Korea,140,16,9,9.8,0.059394


In [112]:
# [2-25] 세계의 각 컬럼별 평균을 구하여 DataFrame으로 만들고,
# worldwide라는 이름을 지정합니다
# 세계의 각 컬럼별 평균은 DataFrame.mean()을 사용합니다.
worldwide = pd.DataFrame(df.iloc[:,2:].set_index('국가').mean())
worldwide

Unnamed: 0,0
맥주,106.160622
증류주,80.994819
와인,49.450777
알코올,4.717098
알코올비율,0.026115


In [113]:
# [2-26] worldwide의 행과 열을 전환해 wwT로 저장합니다.
wwT = worldwide.T
wwT

Unnamed: 0,맥주,증류주,와인,알코올,알코올비율
0,106.160622,80.994819,49.450777,4.717098,0.026115


### DataFrame의 임의 위치 열 삽입
- DataFrame.insert(위치, 컬럼, 값) : inplace 동작됨 (새로운 return 없으며, 따로 저장안해줘도 됨)

In [114]:
# [2-27] wwT의 맨 앞에 '국가' 컬럼을 'World Wide' 값으로 추가합니다.
# 여러 번 추가하면 안됨
wwT.insert(0,'국가','World Wide') # append는 이제 안됨(2.0.0 버전 이후 업데이트 됨)
wwT

Unnamed: 0,국가,맥주,증류주,와인,알코올,알코올비율
0,World Wide,106.160622,80.994819,49.450777,4.717098,0.026115


In [103]:
# [2-28] wwT에 추가했던 '국가' 컬럼을 다시 drop으로 제거합니다.
wwT=wwT.drop(['국가'],axis=1)
wwT

Unnamed: 0,맥주,증류주,와인,알코올,알코올비율
0,106.160622,80.994819,49.450777,4.717098,0.026115


In [115]:
asia.drop('index',axis=1) #axis = 0이 디폴트 값인가 봄. 1로하면 열에서 제거가능

Unnamed: 0,대륙,국가,맥주,증류주,와인,알코올,알코올비율
59,AS,China,79,192,8,5.0,0.017921
65,AS,Japan,77,202,16,7.0,0.023729
85,AS,South Korea,140,16,9,9.8,0.059394


In [105]:
# [2-29] append가 안된다는 것을 보여주기 위함
compT = asia.append(wwT)
compT

AttributeError: 'DataFrame' object has no attribute 'append'

In [116]:
# [2-30] wwT와 asia 를 합쳐 하나의 DataFrame을 생성하여 df2로 저장합니다.
df2 = pd.concat([asia,wwT])
df2

Unnamed: 0,index,대륙,국가,맥주,증류주,와인,알코올,알코올비율
59,59.0,AS,China,79.0,192.0,8.0,5.0,0.017921
65,65.0,AS,Japan,77.0,202.0,16.0,7.0,0.023729
85,85.0,AS,South Korea,140.0,16.0,9.0,9.8,0.059394
0,,,World Wide,106.160622,80.994819,49.450777,4.717098,0.026115


In [118]:
# [2-31] wwT와 asia의 인덱스를 국가로 정의하여 df3로 저장합니다.
df3 = df2.set_index('국가')
df3.drop('index',axis=1)
# 맥주소비량은 세계에 비해 많지만 증류주, 와인 소비량은 현저히 적음을 알 수 있음

Unnamed: 0_level_0,대륙,맥주,증류주,와인,알코올,알코올비율
국가,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
China,AS,79.0,192.0,8.0,5.0,0.017921
Japan,AS,77.0,202.0,16.0,7.0,0.023729
South Korea,AS,140.0,16.0,9.0,9.8,0.059394
World Wide,,106.160622,80.994819,49.450777,4.717098,0.026115


In [122]:
# [2-32] 주류를 소비하면서, 맥주를 소비하지 않는 나라의 모든정보를 갖고 옵니다.
df.loc[(df['알코올비율']>0)&(df['맥주']==0),'대륙':'알코올비율']

Unnamed: 0,대륙,국가,맥주,증류주,와인,알코올,알코올비율
83,AS,Saudi Arabia,0,5,0,0.1,0.02
143,OC,Cook Islands,0,254,74,5.9,0.017988


In [128]:
# [2-33] 알코올비율이 0.05 미만인 국가명 목록을 갖고 옵니다.
df.loc[(df.알코올비율 <0.05)]['알코올비율'].to_numpy()
# Series는 to_list(), to_frame,to_numpy 가능

array([0.01794872, 0.0184953 , 0.02156863, 0.02222222, 0.01851852,
       0.03815789, 0.02352941, 0.02      , 0.01976744, 0.01774194,
       0.01818182, 0.01784615, 0.02777778, 0.03043478, 0.01765873,
       0.04090909, 0.01818182, 0.03125   , 0.02195122, 0.02522523,
       0.01791908, 0.        , 0.01777778, 0.        , 0.01768707,
       0.01785714, 0.01857143, 0.01789474, 0.01666667, 0.01794872,
       0.01764706, 0.01759657, 0.        , 0.02146597, 0.02280702,
       0.01756757, 0.04545455, 0.        , 0.01785714, 0.        ,
       0.0173913 , 0.01764706, 0.01788618, 0.01792115, 0.01788618,
       0.01666667, 0.        , 0.01666667, 0.0177305 , 0.02372881,
       0.01785714, 0.01780105, 0.        , 0.01791045, 0.03351351,
       0.01792453, 0.01764706, 0.        , 0.01788321, 0.01666667,
       0.01818182, 0.        , 0.01794872, 0.        , 0.01782946,
       0.018     , 0.01780186, 0.02      , 0.01807229, 0.01833333,
       0.01785714, 0.01764706, 0.01787709, 0.01666667, 0.0175 

In [145]:
# [2-34] 대륙별 주류 소비량 평균을 계산해 봅니다.
df.groupby('대륙')[['맥주','증류주','와인','알코올']].mean()

Unnamed: 0_level_0,맥주,증류주,와인,알코올
대륙,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AF,61.471698,16.339623,16.264151,3.007547
AS,37.045455,60.840909,9.068182,2.170455
EU,193.777778,132.555556,142.222222,8.617778
,145.434783,165.73913,24.521739,5.995652
OC,89.6875,58.4375,35.625,3.38125
SA,175.083333,114.75,62.416667,6.308333


In [146]:
# [2-35] 대륙별 맥주와 와인 소비량의 평균, 중앙값, 최대값은?
df.groupby('대륙')[['맥주','와인']].agg(['mean','median','max'])

Unnamed: 0_level_0,맥주,맥주,맥주,와인,와인,와인
Unnamed: 0_level_1,mean,median,max,mean,median,max
대륙,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
AF,61.471698,32.0,376,16.264151,2.0,233
AS,37.045455,17.5,247,9.068182,1.0,123
EU,193.777778,219.0,361,142.222222,128.0,370
,145.434783,143.0,285,24.521739,11.0,100
OC,89.6875,52.5,306,35.625,8.5,212
SA,175.083333,162.5,333,62.416667,12.0,221


### 행, 열에 모두 group을 지정하여 통계값 구하기
- DataFrame.pivot_table(index=행방향컬럼, columns=열방향컬럼, values=집계대상컬럼, aggfunc=구할 통계값)
- 각각에 대해 단독 또는 목록을 사용할 수 있음
- index, columns는 범주형, values는 연속형 사용

In [147]:
# [2-36] pivot_table을 사용하여 대륙별(index), '맥주'와 '와인'의 mean, median, max 값을 구합니다.
df.pivot_table(index='대륙',values=['맥주','와인'],aggfunc=['mean','median','max'])

Unnamed: 0_level_0,mean,mean,median,median,max,max
Unnamed: 0_level_1,맥주,와인,맥주,와인,맥주,와인
대륙,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
AF,61.471698,16.264151,32.0,2.0,376,233
AS,37.045455,9.068182,17.5,1.0,247,123
EU,193.777778,142.222222,219.0,128.0,361,370
,145.434783,24.521739,143.0,11.0,285,100
OC,89.6875,35.625,52.5,8.5,306,212
SA,175.083333,62.416667,162.5,12.0,333,221


In [149]:
# [2-37] pivot_table을 사용하여 대륙별(columns), '맥주'와 '와인'의 mean, median값을 구합니다.
df.pivot_table(columns='대륙',values=['맥주','와인'],aggfunc=['mean','median'])

Unnamed: 0_level_0,mean,mean,mean,mean,mean,...,median,median,median,median,median
대륙,AF,AS,EU,NA,OC,...,AS,EU,NA,OC,SA
맥주,61.471698,37.045455,193.777778,145.434783,89.6875,...,17.5,219.0,143.0,52.5,162.5
와인,16.264151,9.068182,142.222222,24.521739,35.625,...,1.0,128.0,11.0,8.5,12.0
