In [2]:
import numpy as np
import pandas as pd

### 집계함수
- numpy의 집계함수들과 같다
- pandas에서 기본적으로 자주 사용하는 집계함수들을 지원한다
- DataFrame의 형태에서는 axis 지정해주어야한다
- count, first, last, mean, median , min, max, std, var, sum 등등등 지원

In [25]:
np.random.seed(100)
temp_frm = pd.DataFrame(np.random.randint(0, 10, (6,4)))

temp_frm.columns = ['A', 'B', 'C', 'D']
temp_frm.index   = pd.date_range('20210902'  , periods=6)
temp_frm

Unnamed: 0,A,B,C,D
2021-09-02,8,8,3,7
2021-09-03,7,0,4,2
2021-09-04,5,2,2,2
2021-09-05,1,0,8,4
2021-09-06,0,9,6,2
2021-09-07,4,1,5,3


In [30]:
print('열의 평균')
print(temp_frm.mean(axis=0))
print('*'*20)
print('행의 평균')
print(temp_frm.mean(axis=1))
print('*'*20)

열의 평균
A    4.166667
B    3.333333
C    4.666667
D    3.333333
dtype: float64
********************
행의 평균
2021-09-02    6.50
2021-09-03    3.25
2021-09-04    2.75
2021-09-05    3.25
2021-09-06    4.25
2021-09-07    3.25
Freq: D, dtype: float64
********************


In [32]:
print('열의 길이')
print(temp_frm.count(axis=0))
print('*'*20)
print('행의 길이')
print(temp_frm.count(axis=1))
print('*'*20)

열의 길이
A    6
B    6
C    6
D    6
dtype: int64
********************
행의 길이
2021-09-02    4
2021-09-03    4
2021-09-04    4
2021-09-05    4
2021-09-06    4
2021-09-07    4
Freq: D, dtype: int64
********************


In [34]:
print('각 행의 최대')
print(temp_frm.max(axis=1))
print('*'*20)

각 행의 최대
2021-09-02    8
2021-09-03    7
2021-09-04    5
2021-09-05    8
2021-09-06    9
2021-09-07    5
Freq: D, dtype: int64
********************


### apply
- Series에 적용할때는 axis 설정 필요없다 => 모든 element에 함수가 적용된다
- DataFrame에 적용될때는 axis 설정 필요
    - axis=0 일때는 행을 따라서 함수를 적용
    - axis=1 일때는 열을 따라서 함수를 적용
- 주로 람다식 혹은 유저가 정의한 함수와 함께 사용

In [4]:
# series 일때
pd.Series(np.random.randn(10)).apply(lambda x:print(x))

0.04988433335603144
-0.9759809366886237
0.8567473611318734
1.2601910890921635
-1.1576850722088157
-1.2978197284876052
1.3417349780210341
0.7940639770344269
2.386793444612033
0.6291152854709319


0    None
1    None
2    None
3    None
4    None
5    None
6    None
7    None
8    None
9    None
dtype: object

In [6]:
np.random.seed(100)
temp_frm = pd.DataFrame(np.random.randint(0, 10, (6,4)))

temp_frm.columns = ['A', 'B', 'C', 'D']
temp_frm.index   = pd.date_range('20210902'  , periods=6)
temp_frm

Unnamed: 0,A,B,C,D
2021-09-02,8,8,3,7
2021-09-03,7,0,4,2
2021-09-04,5,2,2,2
2021-09-05,1,0,8,4
2021-09-06,0,9,6,2
2021-09-07,4,1,5,3


In [7]:
# DataFrame이고 axis=0일때
temp_frm.apply(lambda x:print(x),axis=0)

2021-09-02    8
2021-09-03    7
2021-09-04    5
2021-09-05    1
2021-09-06    0
2021-09-07    4
Freq: D, Name: A, dtype: int64
2021-09-02    8
2021-09-03    0
2021-09-04    2
2021-09-05    0
2021-09-06    9
2021-09-07    1
Freq: D, Name: B, dtype: int64
2021-09-02    3
2021-09-03    4
2021-09-04    2
2021-09-05    8
2021-09-06    6
2021-09-07    5
Freq: D, Name: C, dtype: int64
2021-09-02    7
2021-09-03    2
2021-09-04    2
2021-09-05    4
2021-09-06    2
2021-09-07    3
Freq: D, Name: D, dtype: int64


A    None
B    None
C    None
D    None
dtype: object

In [8]:
# DataFrame이고 axis=1일때
temp_frm.apply(lambda x:print(x),axis=1)

A    8
B    8
C    3
D    7
Name: 2021-09-02 00:00:00, dtype: int64
A    7
B    0
C    4
D    2
Name: 2021-09-03 00:00:00, dtype: int64
A    5
B    2
C    2
D    2
Name: 2021-09-04 00:00:00, dtype: int64
A    1
B    0
C    8
D    4
Name: 2021-09-05 00:00:00, dtype: int64
A    0
B    9
C    6
D    2
Name: 2021-09-06 00:00:00, dtype: int64
A    4
B    1
C    5
D    3
Name: 2021-09-07 00:00:00, dtype: int64


2021-09-02    None
2021-09-03    None
2021-09-04    None
2021-09-05    None
2021-09-06    None
2021-09-07    None
Freq: D, dtype: object

In [9]:
print('각 행에 대해서 최대값 - 최소값을 구해서 새로운 열을 추가한다면? - ')
print(temp_frm.apply(lambda frm : frm.max() - frm.min() , axis = 1))
print(temp_frm.apply(lambda frm : max(frm) - min(frm) , axis = 1))

각 행에 대해서 최대값 - 최소값을 구해서 새로운 열을 추가한다면? - 
2021-09-02    5
2021-09-03    7
2021-09-04    3
2021-09-05    8
2021-09-06    9
2021-09-07    4
Freq: D, dtype: int64
2021-09-02    5
2021-09-03    7
2021-09-04    3
2021-09-05    8
2021-09-06    9
2021-09-07    4
Freq: D, dtype: int64


In [15]:
# 연습
# 각열에대해 최댓값
np.random.seed(100)
temp_frm = pd.DataFrame(np.random.randint(0, 10, (6,4)))

temp_frm.columns = ['A', 'B', 'C', 'D']
temp_frm.index   = pd.date_range('20210902'  , periods=6)
display(temp_frm)
temp_frm.apply('max',axis=0)

Unnamed: 0,A,B,C,D
2021-09-02,8,8,3,7
2021-09-03,7,0,4,2
2021-09-04,5,2,2,2
2021-09-05,1,0,8,4
2021-09-06,0,9,6,2
2021-09-07,4,1,5,3


A    8
B    9
C    8
D    7
dtype: int64

#### 왜 np.max가 아닌 그냥 max를 썻는데 에러가 발생하지 않을까?
- pandas에서 지원하는 함수들은 ''를 써도 지원한다

In [41]:
display(temp_frm.max(axis=0))
display(temp_frm.apply('max',axis=0))
display(temp_frm.apply(np.max ,axis=0))

A    8
B    9
C    8
D    7
dtype: int64

A    8
B    9
C    8
D    7
dtype: int64

A    8
B    9
C    8
D    7
dtype: int64

In [11]:
# 연습
# 각행에대해 최댓값-최솟값을 구해보자
np.random.seed(100)
temp_frm = pd.DataFrame(np.random.randint(0, 10, (6,4)))

temp_frm.columns = ['A', 'B', 'C', 'D']
temp_frm.index   = pd.date_range('20210902'  , periods=6)
display(temp_frm)
temp_frm.apply(lambda x : x.max()-x.min(),axis=1)

Unnamed: 0,A,B,C,D
2021-09-02,8,8,3,7
2021-09-03,7,0,4,2
2021-09-04,5,2,2,2
2021-09-05,1,0,8,4
2021-09-06,0,9,6,2
2021-09-07,4,1,5,3


2021-09-02    5
2021-09-03    7
2021-09-04    3
2021-09-05    8
2021-09-06    9
2021-09-07    4
Freq: D, dtype: int64

In [14]:
# age를 기준으로 성인과 미성년자 구분
import seaborn as sns
datasets = sns.load_dataset('titanic')
datasets['adult/child']=datasets.apply(lambda x: '성인' if x['age']>=19 else '미성년자',axis=1)
display(datasets)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,성인
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,성인
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,성인
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,성인
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,성인
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,성인
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,성인
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,미성년자
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,성인


In [153]:
datasets['sex'].replace({'male':'남','female':'여'})

0      남
1      여
2      여
3      여
4      남
      ..
886    남
887    여
888    여
889    남
890    남
Name: sex, Length: 891, dtype: object

In [156]:
datasets['sex'].apply(lambda x:{'male':'남','female':'여'}.get(x))

0      남
1      여
2      여
3      여
4      남
      ..
886    남
887    여
888    여
889    남
890    남
Name: sex, Length: 891, dtype: object

In [155]:
datasets['sex'].map(lambda x:{'male':'남','female':'여'}.get(x))

0      남
1      여
2      여
3      여
4      남
      ..
886    남
887    여
888    여
889    남
890    남
Name: sex, Length: 891, dtype: object

#### 인자를 사용하는 함수는?

In [16]:
np.random.seed(100)
temp_frm = pd.DataFrame(np.random.randint(0, 10, (6,4)))

temp_frm.columns = ['A', 'B', 'C', 'D']
temp_frm.index   = pd.date_range('20210902'  , periods=6)
display(temp_frm)

Unnamed: 0,A,B,C,D
2021-09-02,8,8,3,7
2021-09-03,7,0,4,2
2021-09-04,5,2,2,2
2021-09-05,1,0,8,4
2021-09-06,0,9,6,2
2021-09-07,4,1,5,3


In [24]:
def my_max(x,a,b):
    return x.max()+a*100+b*1000

print(temp_frm.apply(my_max,a=4,b=5))

print(temp_frm.apply(lambda x:my_max(x,4,5)))

print(temp_frm.apply(my_max,**{'a':4,'b':5}))

# print(temp_frm.apply(my_max,**[4,5])) => 이건 mapping 에러난다

A    5408
B    5409
C    5408
D    5407
dtype: int64
A    5408
B    5409
C    5408
D    5407
dtype: int64
A    5408
B    5409
C    5408
D    5407
dtype: int64


### groupby
- series와 DataFrame 모두 그룹 가능하다
- Series는 라벨로 그룹화 가능 DataFrame은 라벨또는 열의 이름으로 가능하다

#### 순환 원리
- SereisGroupby일 경우에는 그룹에 따라 쪼개진 Series를 순환뒤 합친다
- DataFrameGroupby일 경우에는 그룹에 따라 쪼개진 DataFrame을 순환뒤 합친다

In [42]:
group_frm = pd.DataFrame({
    '학과' : ['인공지능' , '데이터분석', '인공지능', '데이터분석', '데이터분석'] , 
    '학년' : [1,2,3,4,2] , 
    '이름' : ['섭섭해' , '최강희' , '김희선' , '홍길동' , '신사임당'] , 
    '학점' : [2.7, 3.5, 4.5, 3.8, 4.3]
})
group_frm

Unnamed: 0,학과,학년,이름,학점
0,인공지능,1,섭섭해,2.7
1,데이터분석,2,최강희,3.5
2,인공지능,3,김희선,4.5
3,데이터분석,4,홍길동,3.8
4,데이터분석,2,신사임당,4.3


#### SeriesGroupBy

In [55]:
groupby_series = group_frm['학과'].groupby(group_frm['학과'])
groupby_series

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fd0fb264e80>

In [57]:
groupby_series.groups

{'데이터분석': [1, 3, 4], '인공지능': [0, 2]}

In [58]:
groupby_series.get_group('인공지능')

0    인공지능
2    인공지능
Name: 학과, dtype: object

In [59]:
groupby_series.get_group('데이터분석')

1    데이터분석
3    데이터분석
4    데이터분석
Name: 학과, dtype: object

In [69]:
# label로도 가능하다
group_frm['학과'].groupby(['AI','BA','AI','BA','BA']).groups

{'AI': [0, 2], 'BA': [1, 3, 4]}

In [97]:
# 순환
groupby_series.apply(lambda x : print(x))

1    데이터분석
3    데이터분석
4    데이터분석
Name: 데이터분석, dtype: object
0    인공지능
2    인공지능
Name: 인공지능, dtype: object


학과
데이터분석    None
인공지능     None
Name: 학과, dtype: object

In [100]:
groupby_series.apply(lambda x : pd.Series.count(x))

학과
데이터분석    3
인공지능     2
Name: 학과, dtype: int64

In [101]:
groupby_series.count()

학과
데이터분석    3
인공지능     2
Name: 학과, dtype: int64

#### DataFrmaeGroupBy

In [70]:
groupby_df = group_frm.groupby('학과')
groupby_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd0dbaf2310>

In [71]:
groupby_df.groups

{'데이터분석': [1, 3, 4], '인공지능': [0, 2]}

In [79]:
# 데이터 분석에 해당하는 df를 가져온다
groupby_df.get_group('데이터분석')

Unnamed: 0,학과,학년,이름,학점
1,데이터분석,2,최강희,3.5
3,데이터분석,4,홍길동,3.8
4,데이터분석,2,신사임당,4.3


In [108]:
# 순환
groupby_df.apply(lambda x: print(x))

      학과  학년    이름   학점
1  데이터분석   2   최강희  3.5
3  데이터분석   4   홍길동  3.8
4  데이터분석   2  신사임당  4.3
     학과  학년   이름   학점
0  인공지능   1  섭섭해  2.7
2  인공지능   3  김희선  4.5


In [107]:
groupby_df.apply(lambda x: np.mean(x))

  return mean(axis=axis, dtype=dtype, out=out, **kwargs)


Unnamed: 0_level_0,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
데이터분석,2.666667,3.866667
인공지능,2.0,3.6


In [106]:
groupby_df.mean()

Unnamed: 0_level_0,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
데이터분석,2.666667,3.866667
인공지능,2.0,3.6


In [81]:
# 이중 학년에 해당하는 값만도 가져올우 있다
groupby_df['학년'].get_group('데이터분석')

1    2
3    4
4    2
Name: 학년, dtype: int64

In [83]:
# 잘보면 SeriesGroupBy인걸 알수 있다
groupby_df['학년']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fd0fab176d0>

In [110]:
# 잘보면 DataFrameGroupBy인걸 알수 있다
groupby_df[['학년']]

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd0fad084f0>

In [86]:
# 좀더 구체적으로 학과에 따른 학점의 평균만을 구해보자
groupby_df['학점'].mean()

학과
데이터분석    3.866667
인공지능     3.600000
Name: 학점, dtype: float64

In [88]:
# # 좀더 구체적으로 학과에 따른 학점의 평균만을 구해보자 반환을 dataframe으로
groupby_df[['학점']].mean()

Unnamed: 0_level_0,학점
학과,Unnamed: 1_level_1
데이터분석,3.866667
인공지능,3.6


### GroupBy 심화
- apply transform filter aggregate 함수들을 함께 사용해 보다 효율적인 계산 가능

In [89]:
import seaborn as sns

titanic_datasets = sns.load_dataset('titanic')
iris_datasets    = sns.load_dataset('iris')

#### apply 

In [111]:
print('[문제] iris 종별(species) 가장 큰 값과 가장 작은 값의 비율을 구한다면? - ')
iris_datasets.groupby('species').apply(lambda x : x.max()-x.min())

[문제] iris 종별(species) 가장 큰 값과 가장 작은 값의 비율을 구한다면? - 


Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.5,2.1,0.9,0.5
versicolor,2.1,1.4,2.1,0.8
virginica,3.0,1.6,2.4,1.1


In [119]:
print('[문제] iris 종별(species) 가장 큰 petal_length 3개를 구한다면? - ')
iris_datasets.sort_values('petal_length').groupby('species')[['petal_length']].apply(lambda x: x[0:3])

[문제] iris 종별(species) 가장 큰 petal_length 3개를 구한다면? - 


Unnamed: 0_level_0,Unnamed: 1_level_0,petal_length
species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,22,1.0
setosa,13,1.1
setosa,14,1.2
versicolor,98,3.0
versicolor,93,3.3
versicolor,57,3.3
virginica,106,4.5
virginica,138,4.8
virginica,126,4.8


#### transform
- 집계는 일반적으로 데이터의 축소 버전을 반환하지만
- 변환은 재결합을 위해 전체 데이터의 변환된 버전을 반환

In [149]:
iris_datasets.groupby('species').transform(lambda x : x.max()-x.min())

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,1.5,2.1,0.9,0.5
1,1.5,2.1,0.9,0.5
2,1.5,2.1,0.9,0.5
3,1.5,2.1,0.9,0.5
4,1.5,2.1,0.9,0.5
...,...,...,...,...
145,3.0,1.6,2.4,1.1
146,3.0,1.6,2.4,1.1
147,3.0,1.6,2.4,1.1
148,3.0,1.6,2.4,1.1


#### agg

In [123]:
titanic_subset_frm = titanic_datasets.loc[ : , ['age', 'sex', 'class', 'fare', 'survived']]
class_grp = titanic_subset_frm.groupby(['class'])

In [125]:
display(class_grp.mean(),class_grp.max()) 

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


Unnamed: 0_level_0,age,sex,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,80.0,male,512.3292,1
Second,70.0,male,73.5,1
Third,74.0,male,69.55,1


In [127]:
class_grp.agg([np.mean,np.sum])

Unnamed: 0_level_0,age,age,fare,fare,survived,survived
Unnamed: 0_level_1,mean,sum,mean,sum,mean,sum
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
First,38.233441,7111.42,84.154687,18177.4125,0.62963,136
Second,29.87763,5168.83,20.662183,3801.8417,0.472826,87
Third,25.14062,8924.92,13.67555,6714.6951,0.242363,119


In [134]:
# 해당 열에 각기 다른 연산 적용 가능
class_grp.agg({'age':np.sum,'survived':np.mean})

Unnamed: 0_level_0,age,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,7111.42,0.62963
Second,5168.83,0.472826
Third,8924.92,0.242363


#### filter()
- 그룹에 대해 조건을 주는거다
- 반환값은 조건을 충족시키지 못한 그룹을 제외한 original dataframe이다

In [146]:
# 생존율이 0.5보다 큰 그룹만 남겨라
class_grp.filter(lambda x: x['survived'].mean()>0.5)

Unnamed: 0,age,sex,class,fare,survived
1,38.0,female,First,71.2833,1
3,35.0,female,First,53.1000,1
6,54.0,male,First,51.8625,0
11,58.0,female,First,26.5500,1
23,28.0,male,First,35.5000,1
...,...,...,...,...,...
871,47.0,female,First,52.5542,1
872,33.0,male,First,5.0000,0
879,56.0,female,First,83.1583,1
887,19.0,female,First,30.0000,1
