In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
planets = sns.load_dataset('planets')   # 행성데이터
planets.shape

(1035, 6)

In [2]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [77]:
#Pandas Series에 대해 집계 연산들은 하나의 값을 반환한다
rng = np.random.RandomState(42) # seed값 : 랜덤 값이 일치하게 나오게 한다.
ser = pd.Series(rng.rand(5))
ser

0    0.374540
1    0.950714
2    0.731994
3    0.598658
4    0.156019
dtype: float64

In [28]:
ser.sum()

2.811925491708157

In [29]:
ser.mean()

0.5623850983416314

In [90]:
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})
df

Unnamed: 0,A,B
0,0.427108,0.417411
1,0.818015,0.222108
2,0.860731,0.119865
3,0.006952,0.337615
4,0.510747,0.94291


In [12]:
df.mean()

A    0.477888
B    0.443420
dtype: float64

In [13]:
# 각 열에 대한 여러 일반적인 집계를 계산하고 그 결과를 반환하는 편리한 describe()메소드가 있다. 
# 행성 데이터에 이 메서드를 사용해 누락된 값이 있는 행을 삭제한다
planets.dropna().describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


In [91]:
# Split(분할), apply(적용), combine(결합)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data': range(6)}, columns=['key', 'data'])
df

Unnamed: 0,key,data
0,A,0
1,B,1
2,C,2
3,A,3
4,B,4
5,C,5


In [15]:
# DataFrame의 groupby() 메서드에 원하는 키 열의 이름을 전달해 가장 기본적인 분할 – 적용 - 결합 연산을 계산할 수 있다
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x10626eb90>

In [16]:
# 집계 연산을 이 DataFrameGroupBy객체에 적용하면 적절한 적용/결합 단계를 수행해 예상한 결과를 만들어낼 것이다
df.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,3
B,5
C,7


In [18]:
# GroupBy객체는 DataFrame과 동일한 방식으로 열 인덱싱을 지원하며 수정된 GroupBy객체를 반환한다
planets.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11c9aeb10>

In [19]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x11c9360d0>

In [20]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [102]:
# GroupBy 객체는 그룹을 직접 순회할 수 있도록 지원하며, 각 그룹을 Series나 DataFrame으로 반환한다.
# DataFrame의 describe()메서드를 데이터의 각 그룹을 설명하는 일련의 집계 연산을 수행할 수 있다.
planets.groupby('method')['year'].describe()
#디스패치 메서드는 각 개별 그룹에 적용되고 그 결과는 GroupBy 내에서 결합돼 반환된다는 사실을 알아두자

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


In [103]:
planets.groupby('method')['year'].describe().unstack()

       method                       
count  Astrometry                          2.0
       Eclipse Timing Variations           9.0
       Imaging                            38.0
       Microlensing                       23.0
       Orbital Brightness Modulation       3.0
                                         ...  
max    Pulsar Timing                    2011.0
       Pulsation Timing Variations      2007.0
       Radial Velocity                  2014.0
       Transit                          2014.0
       Transit Timing Variations        2014.0
Length: 80, dtype: float64

In [112]:
# Aggregate(집계), filter(필터), transform(변환), apply(적용)
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
         	       'data1': range(6),
                  'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [23]:
# sum(), median()등을 사용하는 GroupBy집계 연산에 익숙해졌지만 aggregate()메서드가 훨씬 더 많은 유연성을 제공한다
df.groupby('key').aggregate(['min', np.median, max])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,1.5,3,3,4.0,5
B,1,2.5,4,0,3.5,7
C,2,3.5,5,3,6.0,9


In [24]:
df.groupby('key').aggregate({'data1': 'min','data2': 'max'})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,5
B,1,7
C,2,9


In [118]:
# 필터링 연산을 사용하려면 그룹 속성을 기준으로 데이터를 걸러낼 수 있다. 
# 예를  들어, 표준 편차가 어떤 임계 값보다 큰 그룹을 모두 유지할 수 있다
def filter_func(x):
    return x['data2'].std() > 4
print(df); print(df.groupby('key').std()); print(df.groupby('key').filter(filter_func))
# Filter()함수는 그룹이 필터링을 통과하는지 아닌지를 지정하는 부울 값을 변환한다. 
# 여기서는 그룹A의 표준편차가 4보다 작으므로 결과에서 그 그룹이 제거된다

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
       data1     data2
key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641
  key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9


In [7]:
# Transformation(변환)
#집계는 데이터의 축소 버전을 반환해야 하지만, 재결합을 위해 데이터의 변환된 버전을 반환할 수 있다
# 데이터에서 그룹별 평균을 빼서 데이터를 중앙에 정렬하는 것을 들 수 있다
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,data1,data2
0,-1.5,1.0
1,-1.5,-3.5
2,-1.5,-3.0
3,1.5,-1.0
4,1.5,3.5
5,1.5,3.0


In [9]:
#apply() 메서드는 임의의 함수를 그룹 결과에 적용할 때 사용한다. 
#이 함수는 DataFrame을 취해 Pandas객체(즉, DataFrame, Series)나 스칼라를 반환한다. 
# 결합 연산은 반환된 출력값 유형에 따라 조정된다. 
# 다음 예제에서 사용한 apply()는 첫번째 열을 두번째 열의 합계로 정규화한다.:
def norm_by_data2(x):
    # x는 그룹 값을 가지는 DataFrame
    x['data1'] /= x['data2'].sum()
    return x
print(df)
print(df.groupby('key').apply(norm_by_data2))
# GroupBy 내에서 apply()는 상당히 유연하다. 
# 함수가 DataFrame을 취하고 Pandas객체나  스칼라를 반환한다는 것이 유일한 규칙이다. 
# 그 중간에 무엇을 하든지 상관없다.

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
  key     data1  data2
0   A  0.000000      5
1   B  0.142857      0
2   C  0.166667      3
3   A  0.375000      3
4   B  0.571429      7
5   C  0.416667      9


In [10]:
# 분할 키를 제공하는 리스트, 배열, 시리즈, 인덱스 키
# DataFrame의 길이와 일치하는 길이의 시리즈나 리스트일 수 있다.
L = [0, 1, 0, 1, 2, 0]
print(df); print(df.groupby(L).sum())

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
   data1  data2
0      7     17
1      4      3
2      4      7


In [13]:
# df.groupby(‘key’)를 구현하는 더 자세한 방법이 있다.
print(df); print(df.groupby(df['key']).sum())

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
     data1  data2
key              
A        3      8
B        5      7
C        7     12


In [16]:
# 인덱스를 그룹에 매핑한 딕셔너리나 시리즈
# 딕셔너리나 시리즈 또 다른 방법은 인덱스 값을 그룸 키에 매핑하는 딕셔너리를 제공하는 것이다.
df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
print(df2);print(df2.groupby(mapping).sum())

     data1  data2
key              
A        0      5
B        1      0
C        2      3
A        3      3
B        4      7
C        5      9
           data1  data2
consonant     12     19
vowel          3      8


In [18]:
#분류(Grouping) 예제
#이에 대한 예제로 , 파이썬 코드 몇 줄에 이 모든 것을 집어 넣어 방법 및 연대별로 발견된 행성의 개수를 셀 수 있다.
decade = 10 * (planets['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0
