# Group Data
## groupby 활용하여 다양한 데이터 집계를 활용하기
- 같은 카테고리의 데이터를 모아 그 데이터끼리 연산한다.
- 최소값, 최대값, 평균값과같은 것을 `df.groupby()`하여 구할 수 있다. 

In [2]:
import pandas as pd
import seaborn as sns

In [5]:
df = sns.load_dataset("mpg")
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [6]:
# "origin"이라는 컬럼을 그룹화해보자
df.groupby(by = "origin")

# 이대로는 뭐가 안보인다. 그러니 뒤에 .size()를 붙여줘보자

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x1a193f7908>

In [7]:
df.groupby(by = "origin").size()

origin
europe     70
japan      79
usa       249
dtype: int64

### 이렇게 size()를 사용하여 각 그룹의 크기를 측정가능하다.
그런데 origin의 size를 측정하는 것은 굳이 그룹화하지 않더라도 
```python
df["origin"].value_counts()
```
를 통해서도 가능하다

In [8]:
df["origin"].value_counts()

usa       249
japan      79
europe     70
Name: origin, dtype: int64

### df.groupby()를 통해서 다양한 aggregation이 가능하다.
- 최소값을 구하거나 min : origin의 최소값은 없으니 각각 컬럼의 최소값이 나온다.
- 최대값을 구하거나 max
- 평균값을 구하거나 mean
- 중간값을 구하거나 median

In [9]:
df.groupby(by = "origin").min()

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,name
origin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
europe,16.2,4,68.0,46.0,1825,12.2,70,audi 100 ls
japan,18.0,3,70.0,52.0,1613,11.4,70,datsun 1200
usa,9.0,4,85.0,52.0,1800,8.0,70,amc ambassador brougham


In [10]:
df.groupby(by = "origin").max()

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,name
origin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
europe,44.3,6,183.0,133.0,3820,24.8,82,vw rabbit custom
japan,46.6,6,168.0,132.0,2930,21.0,82,toyouta corona mark ii (sw)
usa,39.0,8,455.0,230.0,5140,22.2,82,pontiac ventura sj


In [11]:
df.groupby(by = "origin").mean()

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year
origin,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
europe,27.891429,4.157143,109.142857,80.558824,2423.3,16.787143,75.814286
japan,30.450633,4.101266,102.708861,79.835443,2221.227848,16.172152,77.443038
usa,20.083534,6.248996,245.901606,119.04898,3361.931727,15.033735,75.610442


In [12]:
# 이때 특정 컬럼의 값만 보고싶다면? 
# 예를 들어 cylinders의 값만 보고싶을때 
df.groupby(by = "origin")['cylinders'].mean()

## 각 국가에서 생산되는 차량의 cylinders의 평균값을 알 수 있다. 

origin
europe    4.157143
japan     4.101266
usa       6.248996
Name: cylinders, dtype: float64

### df.pivot_table()
- Pandas Cheat Sheet에는 나와있지 않음
- df.pivot()과 거의 유사하다보면 된다.

In [13]:
df.pivot_table?

In [14]:
df.groupby?

In [15]:
# 그룹화하여 cylinder의 평균값을 가져왔다.
df.groupby(['model_year', 'origin'])['cylinders'].mean()

model_year  origin
70          europe    4.000000
            japan     4.000000
            usa       7.636364
71          europe    4.000000
            japan     4.000000
            usa       6.200000
72          europe    4.000000
            japan     3.800000
            usa       6.888889
73          europe    4.000000
            japan     4.250000
            usa       7.241379
74          europe    4.000000
            japan     4.000000
            usa       6.266667
75          europe    4.000000
            japan     4.000000
            usa       6.400000
76          europe    4.250000
            japan     4.500000
            usa       6.363636
77          europe    4.000000
            japan     4.166667
            usa       6.222222
78          europe    4.833333
            japan     4.000000
            usa       6.000000
79          europe    4.250000
            japan     4.000000
            usa       6.260870
80          europe    4.111111
            japan   

In [16]:
# 위의 결과값을 다시 pd.DataFrame으로 감싸주면 Dataframe처럼 예쁘게 볼 수 있다.
pd.DataFrame(df.groupby(['model_year', 'origin'])['cylinders'].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,cylinders
model_year,origin,Unnamed: 2_level_1
70,europe,4.0
70,japan,4.0
70,usa,7.636364
71,europe,4.0
71,japan,4.0
71,usa,6.2
72,europe,4.0
72,japan,3.8
72,usa,6.888889
73,europe,4.0


## 그룹화하여 사용 가능한 기능들
```
hift(1)
Copy with values shifted by 1.
rank(method='dense')
Ranks with no gaps.
rank(method='min')
Ranks. Ties get min rank.
rank(pct=True)
Ranks rescaled to interval [0, 1].
rank(method='first')
Ranks. Ties go to first value.
shift(-1)
Copy with values lagged by 1.
cumsum()
Cumulative sum.
cummax()
Cumulative max.
cummin()
Cumulative min.
cumprod()
Cumulative product.
```
를 사용 가능하다

In [17]:
df2 = pd.DataFrame( [[4, 7, 10], 
                    [5, 8, 11],
                    [6, 9, 12]],
                  index=[1, 2, 3],
                  columns=['a', 'b', 'c'])
df2

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


### df['a'].shift(n)
- a컬럼을 n만큼 행으로 움직인다.
- 결측치를 처리할때 유용하다.
- 만약 하나의 컬럼이 비어있다면 그 다음값이나 앞의 값으로 채우고싶을때 새로운 컬럼을 만들고서 shift를 하면 된다. 

In [18]:
# raw가 하나씩 밑으로 shift된다.
df2.shift(1)

Unnamed: 0,a,b,c
1,,,
2,4.0,7.0,10.0
3,5.0,8.0,11.0


In [19]:
# -1을 하면 위로 shift 된다.
df2.shift(-1)

Unnamed: 0,a,b,c
1,5.0,8.0,11.0
2,6.0,9.0,12.0
3,,,


In [22]:
# 특정 컬럼'a'만 움직이고 싶다면?
df2['a'].shift(-1)

1    5.0
2    6.0
3    NaN
Name: a, dtype: float64

### rank(method = 'dense')
- 밀집도로 순위를 보여준다.

In [24]:
df["model_year"].rank(method = 'dense')

0       1.0
1       1.0
2       1.0
3       1.0
4       1.0
5       1.0
6       1.0
7       1.0
8       1.0
9       1.0
10      1.0
11      1.0
12      1.0
13      1.0
14      1.0
15      1.0
16      1.0
17      1.0
18      1.0
19      1.0
20      1.0
21      1.0
22      1.0
23      1.0
24      1.0
25      1.0
26      1.0
27      1.0
28      1.0
29      2.0
       ... 
368    13.0
369    13.0
370    13.0
371    13.0
372    13.0
373    13.0
374    13.0
375    13.0
376    13.0
377    13.0
378    13.0
379    13.0
380    13.0
381    13.0
382    13.0
383    13.0
384    13.0
385    13.0
386    13.0
387    13.0
388    13.0
389    13.0
390    13.0
391    13.0
392    13.0
393    13.0
394    13.0
395    13.0
396    13.0
397    13.0
Name: model_year, Length: 398, dtype: float64

In [25]:
df["model_year"].rank(method = 'dense').value_counts()

4.0     40
9.0     36
7.0     34
13.0    31
6.0     30
12.0    29
11.0    29
10.0    29
1.0     29
8.0     28
3.0     28
2.0     28
5.0     27
Name: model_year, dtype: int64

### rank(pct = True)
- pct는 퍼센트를 의미함.
- 비율이 어느정도인지 보여준다.

In [26]:
df["model_year"].rank(pct = True).head()

0    0.037688
1    0.037688
2    0.037688
3    0.037688
4    0.037688
Name: model_year, dtype: float64

### rank(method = 'first')
- 그 랭크값의 첫번째값만 보여준다.

In [29]:
df["model_year"].rank(method = 'first').head()

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
Name: model_year, dtype: float64

### cumsum()
- cumulative sum

In [33]:
df2

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [32]:
df2.cumsum()

Unnamed: 0,a,b,c
1,4,7,10
2,9,15,21
3,15,24,33


### cummax()
- 최대값을 구해준다.

In [35]:
# df2의 값의 순서를 좀 바꿔줘보자
df2 = pd.DataFrame( [[4, 7, 10], 
                    [5, 11, 8],
                    [6, 9, 12]],
                  index=[1, 2, 3],
                  columns=['a', 'b', 'c'])

df2

Unnamed: 0,a,b,c
1,4,7,10
2,5,11,8
3,6,9,12


In [37]:
df2.cummax()

Unnamed: 0,a,b,c
1,4,7,10
2,5,11,10
3,6,11,12


### cummin()
- 최소값을 구해준다

In [39]:
df2.cummin()

Unnamed: 0,a,b,c
1,4,7,10
2,4,7,8
3,4,7,8


### cumprod()
- 값을 누적해서 곱해준다.

In [40]:
df2.cumprod()

Unnamed: 0,a,b,c
1,4,7,10
2,20,77,80
3,120,693,960
