## Pandas

* 파이썬 라이브러리
* 구조화된 데이터를 효과적으로 처리하고 저장
* Array 계산에 특화된 Numpy를 기반으로 설계

### Series

- Numpy의 array가 보강된 형태
- Data와 Index를 가지고 있음

In [23]:
import pandas as pd

data = pd.Series([1, 2, 3, 4])
print(data)

0    1
1    2
2    3
3    4
dtype: int64


In [24]:
# Series는 값(values)을 ndarray 형태로 가지고 있음.
print(type(data))

print(data.values)
print(type(data.values))

<class 'pandas.core.series.Series'>
[1 2 3 4]
<class 'numpy.ndarray'>


In [25]:
# dtype 인자로 데이터 타입을 지정할 수 있음
data = pd.Series([1, 2, 3, 4], dtype = 'float')
print(data.dtype)
print(data)

float64
0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64


In [26]:
# 인덱스를 지정할 수 있고, 인덱스로 접근 가능
data = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
print(data)
data['c'] = 5 # c값을 3에서 5로 변경
print(data)

a    1
b    2
c    3
d    4
dtype: int64
a    1
b    2
c    5
d    4
dtype: int64


In [27]:
# Dictionary를 활용하여 Series 생성가능
population_dict = {'china':141500, 'japan':12718, 'korea':5180, 'usa':32676}
population = pd.Series(population_dict)
print(population)

china    141500
japan     12718
korea      5180
usa       32676
dtype: int64


### DataFrame

* 여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [28]:
gdp_dict= {'china': 1409250000,'japan': 516700000,'korea': 169320000,'usa': 2041280000,}
gdp= pd.Series(gdp_dict)

country = pd.DataFrame({'gdp':gdp, 'population':population})
display(country)

Unnamed: 0,gdp,population
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [36]:
# Dictionary를 활용하여 DataFrame 생성 가능
data = {'country': ['china','japan','korea','usa'],
        'gdp': [1409250000,516700000, 169320000, 2041280000],
        'population': [141500,12718, 5180, 32676]}

country = pd.DataFrame(data)
country = country.set_index('country')
display(country)

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [37]:
# DataFrame 속성 확인
print(country.shape)
print(country.size)
print(country.ndim)
print(country.values)

(4, 2)
8
2
[[1409250000     141500]
 [ 516700000      12718]
 [ 169320000       5180]
 [2041280000      32676]]


In [38]:
# DataFrame의 index와 column에 이름 지정
country.index.name = 'Country'
country.columns.name = 'Info'

print(country.index)
print(country.columns)

Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='Country')
Index(['gdp', 'population'], dtype='object', name='Info')


In [39]:
# 데이터 프레임 저장 및 불러오기 가능
country.to_csv('./country.csv')
country.to_excel('country.xlsx')

country = pd.read_csv('./country.csv')

# country = pd.read_excel('country.xlsx')

print(country)

  Country         gdp  population
0   china  1409250000      141500
1   japan   516700000       12718
2   korea   169320000        5180
3     usa  2041280000       32676


#### .loc : 명시적인 인덱스를 참조하는 인덱싱/슬라이싱

In [42]:
data = {'country': ['china','japan','korea','usa'],
        'gdp': [1409250000,516700000, 169320000, 2041280000],
        'population': [141500,12718, 5180, 32676]}

country = pd.DataFrame(data)
country = country.set_index('country')

idx = country.loc['china'] # 인덱싱
display(idx)

sl = country.loc['japan':'korea', :'population'] # 슬라이싱
display(sl)

gdp           1409250000
population        141500
Name: china, dtype: int64

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
japan,516700000,12718
korea,169320000,5180


#### .iloc : 파이썬 스타일의 정수 인덱스 인덱싱/슬라이싱

In [47]:
idx = country.iloc[0] # 인덱싱
display(idx)

sl = country.iloc[1:3, :2] # 슬라이싱
display(sl)

gdp           1409250000
population        141500
Name: china, dtype: int64

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
japan,516700000,12718
korea,169320000,5180


In [48]:
# 컬럼명 활용하여 DataFrame에서 데이터 선택 가능
country

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [49]:
print(country['gdp'])
print(country[['gdp']])

country
china    1409250000
japan     516700000
korea     169320000
usa      2041280000
Name: gdp, dtype: int64
                gdp
country            
china    1409250000
japan     516700000
korea     169320000
usa      2041280000


In [50]:
# Masking 연산이나 query 함수를 활용하여 조건에 맞는 DataFrame 행 추출 가능
country[country['population'] < 10000] # masking 연산 활용

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
korea,169320000,5180


In [51]:
country.query("population > 100000") # query 함수 활용

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500


In [53]:
# Series도 numpy array처럼 연산자 활용 가능
gdp_per_capita = country['gdp'] / country['population']
country['gdp per capita']  = gdp_per_capita
country

Unnamed: 0_level_0,gdp,population,gdp per capita
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
china,1409250000,141500,9959.363958
japan,516700000,12718,40627.457147
korea,169320000,5180,32687.258687
usa,2041280000,32676,62470.314604


In [58]:
# list로 추가 or Dictionary로 추가

df = pd.DataFrame(columns=['이름','나이','주소']) # DataFrame 생성
df.loc[0] = ['길동', '26', '서울'] # list로 데이터 추가
display(df)

df.loc[1] = {'이름':'철수', '나이':'25', '주소':'인천'} # Dictionary로 데이터 추가
display(df)

df.loc[1, '이름'] = '영희'# 명시적 인덱스 활용하여 데이터수정
display(df)
3

Unnamed: 0,이름,나이,주소
0,길동,26,서울


Unnamed: 0,이름,나이,주소
0,길동,26,서울
1,철수,25,인천


Unnamed: 0,이름,나이,주소
0,길동,26,서울
1,영희,25,인천


In [62]:
import numpy as np
# NaN(= Not a Number)값으로 초기화 한 새로운 컬럼 추가

df['전화번호'] = np.nan # 새로운 컬럼 추가 후 NaN으로 초기화
display(df)

df.loc[0, '전화번호'] = '01012341234' # 명시적 인덱스 활용하여 데이터 수정
display(df)

Unnamed: 0,이름,나이,주소,전화번호
0,길동,26,서울,
1,영희,25,인천,


Unnamed: 0,이름,나이,주소,전화번호
0,길동,26,서울,1012341234.0
1,영희,25,인천,


In [63]:
# DataFrame에서 컬럼 삭제 후 원본 변경

df.drop('전화번호', axis = 1, inplace = True) # 컬럼 삭제
#axis = 1 : 열방향/axis = 0 : 행방향
#inplace= True : 원본변경/inplace=False : 원본변경X

In [64]:
df

Unnamed: 0,이름,나이,주소
0,길동,26,서울
1,영희,25,인천


### 실습 1

In [65]:
import numpy as np
import pandas as pd

# 예시) 시리즈 데이터를 만드는 방법.
series = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'], name="Title")
print(series, "\n")


# 국가별 인구 수 시리즈 데이터를 딕셔너리를 사용하여 만들어보세요.
dict = {'korea' : 5180, 'japan': 12718, 'china' : 141500, 'usa' : 32676}
country = pd.Series(dict)
print(country)

a    1
b    2
c    3
d    4
Name: Title, dtype: int64 

korea      5180
japan     12718
china    141500
usa       32676
dtype: int64


### 실습 2

In [66]:
import numpy as np
import pandas as pd

# 두 개의 시리즈 데이터가 있습니다.
print("Population series data:")
population_dict = {
    'korea': 5180,
    'japan': 12718,
    'china': 141500,
    'usa': 32676
}
population = pd.Series(population_dict)
print(population, "\n")

print("GDP series data:")
gdp_dict = {
    'korea': 169320000,
    'japan': 516700000,
    'china': 1409250000,
    'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
print(gdp, "\n")


# 이곳에서 2개의 시리즈 값이 들어간 데이터프레임을 생성합니다.
print("Country DataFrame")
country = pd.DataFrame({'population':population,'gdp':gdp})
print(country)


Population series data:
korea      5180
japan     12718
china    141500
usa       32676
dtype: int64 

GDP series data:
korea     169320000
japan     516700000
china    1409250000
usa      2041280000
dtype: int64 

Country DataFrame
       population         gdp
korea        5180   169320000
japan       12718   516700000
china      141500  1409250000
usa         32676  2041280000


### 실습 3

In [67]:
import numpy as np
import pandas as pd

print("Masking & query")
df = pd.DataFrame(np.random.rand(5, 2), columns=["A", "B"])
print(df, "\n")

# 데이터 프레임에서 A컬럼값이 0.5보다 작고 B컬럼 값이 0.3보다 큰값들을 구해봅시다.
# 마스킹 연산을 활용하여 출력해보세요!
print(df[(df['A']<0.5) & (df['B']>0.3)])

# query 함수를 활용하여 출력해보세요!

print(df.query("A < 0.5 and B>0.3"))

Masking & query
          A         B
0  0.871126  0.772657
1  0.458188  0.796000
2  0.585945  0.621700
3  0.435743  0.585024
4  0.020204  0.454780 

          A         B
1  0.458188  0.796000
3  0.435743  0.585024
4  0.020204  0.454780
          A         B
1  0.458188  0.796000
3  0.435743  0.585024
4  0.020204  0.454780


### 실습 4

In [68]:
import numpy as np
import pandas as pd

# GDP와 인구수 시리즈 값이 들어간 데이터프레임을 생성합니다.
population = pd.Series({'korea': 5180,'japan': 12718,'china': 141500,'usa': 32676})
gdp = pd.Series({'korea': 169320000,'japan': 516700000,'china': 1409250000,'usa': 2041280000})
print("Country DataFrame")
country = pd.DataFrame({"population" : population,"gdp" : gdp})
print(country)


# 데이터프레임에 gdp per capita 칼럼을 추가하고 출력합니다.
gdp_per_capita = country['gdp'] / country['population']
print(gdp_per_capita)
country['gdp per capita'] = gdp_per_capita
print(country)

Country DataFrame
       population         gdp
korea        5180   169320000
japan       12718   516700000
china      141500  1409250000
usa         32676  2041280000
korea    32687.258687
japan    40627.457147
china     9959.363958
usa      62470.314604
dtype: float64
       population         gdp  gdp per capita
korea        5180   169320000    32687.258687
japan       12718   516700000    40627.457147
china      141500  1409250000     9959.363958
usa         32676  2041280000    62470.314604


In [92]:
df = pd.DataFrame({'col1':[1, 2, 9, 7, 8, 4],
                  'col2':['A','A','B','D','NaN','C'],
                  'col3':[1, 0, 9, 2, 4, 3]}, index = [1, 0, 2, 4, 3, 5])
display(df)

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
4,7,D,2
3,8,,4
5,4,C,3


In [93]:
# axis = 0 : 행 인덱스 기준 정렬(Default 오름차순)
df = df.sort_index(axis = 0)
df

Unnamed: 0,col1,col2,col3
0,2,A,0
1,1,A,1
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3


In [94]:
# axis = 1 : 열 인덱스 기준 정렬, 내림차순 정렬
df = pd.DataFrame({'col1':[1, 2, 9, 7, 8, 4],
                  'col2':['A','A','B','D','NaN','C'],
                  'col3':[1, 0, 9, 2, 4, 3]}, index = [1, 0, 2, 4, 3, 5])
display(df)

df = df.sort_index(axis = 1, ascending = False)
display(df)

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
4,7,D,2
3,8,,4
5,4,C,3


Unnamed: 0,col3,col2,col1
1,1,A,1
0,0,A,2
2,9,B,9
4,2,D,7
3,4,,8
5,3,C,4


In [95]:
# col1 컬럼 기준 정렬(Default 오름차순)
df = pd.DataFrame({'col1':[1, 2, 9, 7, 8, 4],
                  'col2':['A','A','B','D','NaN','C'],
                  'col3':[1, 0, 9, 2, 4, 3]}, index = [1, 0, 2, 4, 3, 5])
display(df)

df.sort_values('col1', ascending = True)

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
4,7,D,2
3,8,,4
5,4,C,3


Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
5,4,C,3
4,7,D,2
3,8,,4
2,9,B,9


In [96]:
# col1 컬럼 기준 정렬, 내림차순 정렬
df = pd.DataFrame({'col1':[1, 2, 9, 7, 8, 4],
                  'col2':['A','A','B','D','NaN','C'],
                  'col3':[1, 0, 9, 2, 4, 3]}, index = [1, 0, 2, 4, 3, 5])
display(df)

df.sort_values('col1', ascending = False)

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
4,7,D,2
3,8,,4
5,4,C,3


Unnamed: 0,col1,col2,col3
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3
0,2,A,0
1,1,A,1


In [99]:
# col2 컬럼 기준 오름차순 정렬 후 col1 컬럼 기준 내림차순 정렬
df = pd.DataFrame({'col1':[1, 2, 9, 7, 8, 4],
                  'col2':['A','A','B','D','NaN','C'],
                  'col3':[1, 0, 9, 2, 4, 3]}, index = [1, 0, 2, 4, 3, 5])
display(df)

df.sort_values(['col2', 'col1'], ascending = [True, False])

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
4,7,D,2
3,8,,4
5,4,C,3


Unnamed: 0,col1,col2,col3
0,2,A,0
1,1,A,1
2,9,B,9
5,4,C,3
4,7,D,2
3,8,,4


### 데이터프레임 분석용 함수

#### 집계함수 count : 데이터 개수 확인 가능(Default : NaN 값 제외)

In [103]:
data = {'korean':[50, 60, 70],
       'math':[10, np.nan, 40]}

df = pd.DataFrame(data, index = ['a', 'b', 'c'])
display(df)

c = df.count(axis = 0) # 열 기준
display(c)

r = df.count(axis = 1) # 행 기준
display(r)

Unnamed: 0,korean,math
a,50,10.0
b,60,
c,70,40.0


korean    3
math      2
dtype: int64

a    2
b    1
c    2
dtype: int64

#### 집계함수 max, min : 최대, 최소값 확인 가능(Default: 열기준, NaN 값 제외)

In [104]:
data = {'korean':[50, 60, 70],
       'math':[10, np.nan, 40]}

df = pd.DataFrame(data, index = ['a', 'b', 'c'])
display(df)

max_df = df.max() # 최댓값 
display(max_df)

min_df = df.min() # 최솟값
display(min_df)

Unnamed: 0,korean,math
a,50,10.0
b,60,
c,70,40.0


korean    70.0
math      40.0
dtype: float64

korean    50.0
math      10.0
dtype: float64

#### 집계함수 sum, mean : 합계 및 평균 계산(Default: 열기준, NaN 값 제외)

In [105]:
data = {'korean':[50, 60, 70],
       'math':[10, np.nan, 40]}

df = pd.DataFrame(data, index = ['a', 'b', 'c'])
display(df)

sum_df = df.sum() # 합계
display(sum_df)

mean_df = df.mean() # 평균
display(mean_df)

Unnamed: 0,korean,math
a,50,10.0
b,60,
c,70,40.0


korean    180.0
math       50.0
dtype: float64

korean    60.0
math      25.0
dtype: float64

In [106]:
# axis, skipna 인자 활용하여 합계 및 평균 계산(행 기준, NaN값 포함시)
sum1_df = df.sum(axis=1)
display(sum1_df)

mean1_df = df.mean(axis=1, skipna=False)
display(mean1_df)

a     60.0
b     60.0
c    110.0
dtype: float64

a    30.0
b     NaN
c    55.0
dtype: float64

In [108]:
# NaN값이 존재하는 column의 평균 구하여 NaN값 대체
B_avg = df['math'].mean()
print(B_avg)

# NaN값 대체
df['math'] = df['math'].fillna(B_avg)
display(df)

# 평균
df.mean(axis=1, skipna=False)

25.0


Unnamed: 0,korean,math
a,50,10.0
b,60,25.0
c,70,40.0


a    30.0
b    42.5
c    55.0
dtype: float64

### 그룹으로 묶기

* 간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우

In [109]:
df = pd.DataFrame({'data1':range(6),
                  'data2': [4, 4, 6, 0, 6, 1],
                  'key': ['A','B','C','A','B','C']})
df

Unnamed: 0,data1,data2,key
0,0,4,A
1,1,4,B
2,2,6,C
3,3,0,A
4,4,6,B
5,5,1,C


In [110]:
df.groupby('key').sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,4
B,5,10
C,7,7


In [111]:
df.groupby(['key','data1']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data2
key,data1,Unnamed: 2_level_1
A,0,4
A,3,0
B,1,4
B,4,6
C,2,6
C,5,1


In [112]:
# groupby를 통해서 집계를 한 번에 계산하는 방법
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,0,2.0,4
B,1,2.5,4,4,5.0,6
C,2,3.5,5,1,3.5,6


In [113]:
df.groupby('key').aggregate({'data1':'min','data2':np.sum})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
B,1,10
C,2,7


In [114]:
# groupby를 통해서 그룹 속성을 기준으로 데이터 필터링
def filter_by_mean(x):
    return x['data2'].mean() > 3

df.groupby('key').mean()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1.5,2.0
B,2.5,5.0
C,3.5,3.5


In [115]:
df.groupby('key').filter(filter_by_mean)

Unnamed: 0,data1,data2,key
1,1,4,B
2,2,6,C
4,4,6,B
5,5,1,C


In [116]:
# groupby를 통해서 묶인 데이터에 함수 적용
df.groupby('key').apply(lambda x:x.max() - x.min())

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3,4
B,3,2
C,3,5


* groupby로 묶인 데이터에서 key값으로 데이터를 가져올 땐
  - df.groupby(컬럼명).get_group(key값)

### 실습 1

In [117]:
import numpy as np
import pandas as pd

print("DataFrame: ")
df = pd.DataFrame({
    'col1' : [2, 1, 9, 8, 7, 4],
    'col2' : ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col3': [0, 1, 9, 4, 2, 3],
})
print(df, "\n")


# 정렬 코드 입력해보기    
# 1. col1을 기준으로 오름차순으로 정렬하기.
sorted_df1 = df.sort_values('col1')


# 2. col2를 기준으로 내림차순으로 정렬하기.
sorted_df2 = df.sort_values('col2', ascending = False)


# 3. col2를 기준으로 오름차순으로, col1를 기준으로 내림차순으로 정렬하기.
sorted_df3 = df.sort_values(['col2','col1'], ascending = [True, False])

print(sorted_df1)
print(sorted_df2)
print(sorted_df3)

DataFrame: 
   col1 col2  col3
0     2    A     0
1     1    A     1
2     9    B     9
3     8  NaN     4
4     7    D     2
5     4    C     3 

   col1 col2  col3
1     1    A     1
0     2    A     0
5     4    C     3
4     7    D     2
3     8  NaN     4
2     9    B     9
   col1 col2  col3
4     7    D     2
5     4    C     3
2     9    B     9
0     2    A     0
1     1    A     1
3     8  NaN     4
   col1 col2  col3
0     2    A     0
1     1    A     1
2     9    B     9
5     4    C     3
4     7    D     2
3     8  NaN     4


### 실습 2

In [118]:
import numpy as np
import pandas as pd

data = {
    'korean' : [50, 60, 70],
    'math' : [10, np.nan, 40]
}
df = pd.DataFrame(data, index = ['a','b','c'])
print(df, "\n")

# 각 컬럼별 데이터 개수
col_num = df.count(axis = 0)
print(col_num, "\n")

# 각 행별 데이터 개수
row_num = df.count(axis =1)
print(row_num, "\n")

# 각 컬럼별 최댓값
col_max = df.max(axis = 0)
print(col_max, "\n")

# 각 컬럼별 최솟값
col_min = df.min(axis = 0)
print(col_min, "\n")

# 각 컬럼별 합계
col_sum = df.sum(axis = 0)
print(col_sum, "\n")

# 컬럼의 최솟값으로 NaN값 대체
math_min = df['math'].min()
df['math'] = df['math'].fillna(math_min)
print(df, "\n")

# 각 컬럼별 평균
col_avg = df.mean(axis = 0)
print(col_avg, "\n")

   korean  math
a      50  10.0
b      60   NaN
c      70  40.0 

korean    3
math      2
dtype: int64 

a    2
b    1
c    2
dtype: int64 

korean    70.0
math      40.0
dtype: float64 

korean    50.0
math      10.0
dtype: float64 

korean    180.0
math       50.0
dtype: float64 

   korean  math
a      50  10.0
b      60  10.0
c      70  40.0 

korean    60.0
math      20.0
dtype: float64 



### 실습 3

In [119]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [1, 2, 3, 1, 2, 3],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# groupby 함수를 이용해봅시다.
# key를 기준으로 묶어 합계를 구해 출력해보세요.
print(df.groupby('key').sum())

# key와 data1을 기준으로 묶어 합계를 구해 출력해보세요.
print(df.groupby(['key','data1']).sum())

DataFrame:
  key  data1  data2
0   A      1      4
1   B      2      4
2   C      3      6
3   A      1      0
4   B      2      6
5   C      3      1 

     data1  data2
key              
A        2      4
B        4     10
C        6      7
           data2
key data1       
A   1          4
B   2         10
C   3          7


### 실습 4

In [120]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [0, 1, 2, 3, 4, 5],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# aggregate를 이용하여 요약 통계량을 산출해봅시다.
# 데이터 프레임을 'key' 칼럼으로 묶고, data1과 data2 각각의 최솟값, 중앙값, 최댓값을 출력하세요.
print(df.groupby('key').aggregate([min, np.median, max]))


# 데이터 프레임을 'key' 칼럼으로 묶고, data1의 최솟값, data2의 합계를 출력하세요.
print(df.groupby('key').aggregate({'data1':min, 'data2':np.sum}))

DataFrame:
  key  data1  data2
0   A      0      4
1   B      1      4
2   C      2      6
3   A      3      0
4   B      4      6
5   C      5      1 

    data1            data2           
      min median max   min median max
key                                  
A       0    1.5   3     0    2.0   4
B       1    2.5   4     4    5.0   6
C       2    3.5   5     1    3.5   6
     data1  data2
key              
A        0      4
B        1     10
C        2      7
