## Agenda

`Series`와 `DataFrame` 객체를 다루는 다양한 도구를 살펴본다.

* 리인덱싱
* 삭제
* 연산
* 정렬

In [None]:
import pandas as pd
import numpy as np

## 1.2 핵심 기능

### 1.2.1 리인덱싱

#### 시리즈 리인덱싱

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

- 새로운 인덱스가 추가되면 `NaN`이 사용

In [None]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])

In [None]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

- 지정되지 않은 인덱스는 무시

In [None]:
obj2 = obj.reindex(["a", "c", "d", "e"])

In [None]:
obj2

a   -5.3
c    3.6
d    4.5
e    NaN
dtype: float64

#### 결측치 채우기 1: `method` 키워드 인자

- 리인덱싱 과정에서 결측치가 발생할 때 여러 방식으로 채울 수 있다.
- `method='fill'` 키워드 인자는 결측치를 위쪽에 위치한 값으로 채운다.

__주의사항:__ 인덱스가 오름 또는 내림 차순으로 정렬되어 있는 경우에만 가능하다.

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 5])
obj3

0      blue
2    purple
5    yellow
dtype: object

In [None]:
obj3.reindex(range(6))

0      blue
1       NaN
2    purple
3       NaN
4       NaN
5    yellow
dtype: object

In [None]:
obj3.reindex(range(6), method = "ffill")

0      blue
1      blue
2    purple
3    purple
4    purple
5    yellow
dtype: object

In [None]:
obj3.reindex(range(-1, 6), method = "ffill")
# 위쪽에 위치한 값이 없으면 결측치가 된다.

-1       NaN
0       blue
1       blue
2     purple
3     purple
4     purple
5     yellow
dtype: object

- 아랫쪽에 있는 값으로 채울 수도 있다.
- `method='bfill'`

In [None]:
obj3.reindex(range(6), method = "bfill")

0      blue
1    purple
2    purple
3    yellow
4    yellow
5    yellow
dtype: object

- 아니면 가장 가까운 곳에 있는 값으로 채울 수도 있다.

- `method='nearest'`

In [None]:
obj3.reindex(range(6), method = "nearest")
# 가장 가운 거리가 같으면 아랫쪽에서 선택하여 채워진다. 

0      blue
1    purple
2    purple
3    purple
4    yellow
5    yellow
dtype: object

#### 결측치 채우기 2: `fill_value` 키워드 인자

- 리인덱싱 과정에서 발생하는 모든 결측치를 지정된 값으로 대체
- 기본값은 `NaN` 이다.

In [None]:
obj3.reindex(range(6), fill_value="black")

0      blue
1     black
2    purple
3     black
4     black
5    yellow
dtype: object

- 리인덱싱은 항상 새로운 시리즈를 생성한다.
- 따라서 `obj3` 자체는 변하지 않는다.

In [None]:
obj3

0      blue
2    purple
5    yellow
dtype: object

#### 데이터프레임 리인덱싱

- 데이터프레임은 `index`와 `columns` 속성에 대해 리인덱싱이 가능하며 작동법은 Series의 인덱싱과 동일하다.

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


- `reindex()` 메서드는 기본적으로 행의 `index` 에 대해 작동

In [None]:
frame2 = frame.reindex(["a", "b", "c", "d"])

- 열의 `columns`에 대해서는 `columns` 키워드 인자를 활용

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 5.2.2 `drop()` 메서드

- 특정 행 또는 열의 인덱스를 제외한 나머지로 이루어진 시리즈/데이터프레임을 구할 때 사용
- 시리즈의 경우 인덱스를 한 개 또는 여러 개 지정하면 나머지로 이루어진 시리즈를 얻을수 있다. 

In [None]:
obj = pd.Series(np.arange(5), index = ["a", "b", "c", "d", "e"])

In [None]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [None]:
obj.drop("c")

a    0
b    1
d    3
e    4
dtype: int64

In [None]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [None]:
obj.drop(["d", "c"])

a    0
b    1
e    4
dtype: int64

In [None]:
obj2 = obj.drop(["d", "c"])

In [None]:
obj2

a    0
b    1
e    4
dtype: int64

- `inplace=True` 키워드 인자를 이용하여 원본 수정 가능
- 사용시 주의 

In [None]:
obj.drop("c", inplace=True)

In [None]:
obj

a    0
b    1
d    3
e    4
dtype: int64

- 데이터프레임의 경우도 기본적으로 행의 인덱스를 기준으로 작동한다.

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data.drop(["Colorado", "Ohio"]) #행을 기준으로 삭제해 준다. 

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


- 열을 기준으로 작동하게 하려면 `axis=1`로 지정한다.

In [None]:
data.drop("two", axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


- `axis='columns'` 지정

In [None]:
data.drop(["two", "three"], axis = "columns")

Unnamed: 0,one,four
Ohio,0,3
Colorado,4,7
Utah,8,11
New York,12,15


In [None]:
data.drop(["two", "three"], axis = "columns", inplace=True)

In [None]:
data

Unnamed: 0,one,four
Ohio,0,3
Colorado,4,7
Utah,8,11
New York,12,15


### 1.2.3 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

#### 시리즈의 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

시리즈의 경우 1차원 넘파이 어레이와 거의 동일하게 작동한다.
다만 정수 대신에 지정된 인덱스를 사용할 때 조금 차이가 있다.

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
obj["b"]

1.0

In [None]:
obj[1]

1.0

In [None]:
obj[2:5] #슬라이싱까지 가능하다. 

c    2.0
d    3.0
dtype: float64

- 여러 개의 인덱스를 리스트로 지정하여 인덱싱을 진행

In [None]:
obj[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [None]:
obj[[2, 1]]

c    2.0
b    1.0
dtype: float64

- 필터링(부울 인덱싱)은 동일하게 작동

In [None]:
obj[obj < 1]

a    0.0
dtype: float64

In [None]:
obj["b":"d"]

b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
obj["b":"d"] = 5

In [None]:
obj

a    0.0
b    5.0
c    5.0
d    5.0
dtype: float64

- Label 슬라이싱

In [None]:
obj2 = obj.reindex(["b", "d", "c", "a"])

In [None]:
obj2

b    5.0
d    5.0
c    5.0
a    0.0
dtype: float64

In [None]:
obj2[["b", "d"]]

b    5.0
d    5.0
dtype: float64

__주의사항:__ 
- 라벨 슬라이싱은 기본적으로 알파벳 순서를 따르며시리즈에 사용된 순서와 상관 없다.

#### 데이터프레임의 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [None]:
data[["three","two"]]

Unnamed: 0,three,two
Ohio,2,1
Colorado,6,5
Utah,10,9
New York,14,13


In [None]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
mask1 = data["three"] > 5

In [None]:
data[mask1] # three 속성이 5보다 큰 값들만 출력

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# ~mask1 mask1의 반대 연산
data[~mask1] = 0

In [None]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 행 단위 인덱싱/슬라이싱

`loc()` 또는 `iloc()` 메서드를 이용한다.

- `loc()` 메서드: 라벨을 이용할 경우
- `iloc()` 메서드: 정수 인덱스를 이용할 경우

In [None]:
data.loc["Colorado"]

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [None]:
data.iloc[1] #마찬가지로 Colorado 를 불러올수 있다. 

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [None]:
# 기본적으로 행과 열에 대해 동시에 인덱싱과 슬라이싱 가능. 2차원 넘파이 어레이와 비슷하게 동작한다. 

In [None]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
data.iloc[1, ["two", "three"]]

IndexError: ignored

In [None]:
data.iloc[1, [1, 2]]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
data.iloc[1, 1:3]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
data.iloc[1, [3,0,2]]

four     7
one      4
three    6
Name: Colorado, dtype: int64

In [None]:
data.iloc[[1,2], [3,0,2]]

Unnamed: 0,four,one,three
Colorado,7,4,6
Utah,11,8,10


In [None]:
data.loc[:"Colorado", :"three"]

Unnamed: 0,one,two,three
Ohio,0,0,0
Colorado,4,5,6


- 인덱싱 슬라이싱 이후 핑터링적

In [None]:
data.loc[:"Colorado", :"three"][data.three > 5]

  """Entry point for launching an IPython kernel.


Unnamed: 0,one,two,three
Colorado,4,5,6


### 5.2.5 산술 연산

시리즈/데이터프레임의 사칙 연산은 기본적으로 아래 원칙을 따른다.

- 연산에 사용된 모든 인덱스는 포함
- 공통으로 사용되는 인덱스의 항목에 대해서만 연산 적용. 그렇지 않으면 `NaN`으로 처리.

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [None]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [None]:
s1- s2

a    9.4
c   -6.1
d    NaN
e    3.0
f    NaN
g    NaN
dtype: float64

In [None]:
df1 = pd.DataFrame(np.arange(9).reshape((3,3)),
                   columns = list("bcd"),
                   index = ["Ohio", "Texas", "colorado"])

In [None]:
df2 = pd.DataFrame(np.range(12).reshape((4,3)),
                   columns = list("bde"),
                   index = ["Utah", "Ohio", "Texas", "Oreg"])

In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,
colorado,,,,


- 기본적으로 사용되는 산술 연산 기호에 해당하는 메서드가 존재한다.

| 메서드 | 설명 |
| :--- | :--- |
| `add()` | 덧셈(`+`) 계산 메서드 | 
| `sub()` | 뺄셈(`-`) 계산 메서드 | 
| `mul()` | 곱셈(`*`) 계산 메서드 | 
| `div()` | 나눗셈(`/`) 계산 메서드 | 
| `floordiv()` | 몫 (`//`) 계산 메서드 | 
| `pow()` | 거듭제곱(`**`) 메서드 | 

#### 연산 과정에서 결측치 채우기
- 공통 인덱스가 아니거나 결측치가 이미 존재하는 경우 기본적으로 결측치로 처리됨.
- `fill_value` 키워드 인자를 이용하여 지정된 값으로 처리하게 만들 수도 있다.

In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0
colorado,6.0,7.0,8.0,


In [None]:
df2.add(df1, fill_value=0)

Unnamed: 0,b,c,d,e
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0
colorado,6.0,7.0,8.0,


#### 데이터프레임과 시리즈 사이의 연산

넘파이에서 2차원 어레이와 1차원 어레이 사이에
브로드캐스팅이 가능한 경우,
즉, 차원을 맞출 수 있는 경우에 연산이 가능했다.

In [None]:
arr = np.arange(12).reshape((3,4))

In [None]:
arr[0]

array([0, 1, 2, 3])

In [None]:
arr - arr[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [None]:
arr[:,1]

array([1, 5, 9])

In [None]:
# 브로드 캐스팅이 불가능한 shape
arr - arr[:, 1]

ValueError: ignored

In [None]:
df2.shape

(4, 3)

In [None]:
series = df2.iloc[0]

In [None]:
# 인덱스가 공통으로 전재하면 브로드 캐스팅이 적용되어 사칙연산이 가능해 진다. 
# 행단위 연산
df2 - series

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


In [None]:
# 열 단위 연산도 가능하다.
series3 = df2["d"]

In [None]:
# sub 메서드를 이용해 열단위 연산도 가능하다
df2.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


In [None]:
# sub 메서드를 이용해 열단위 연산도 가능하다
df2.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


### 1.2.6 함수 적용

In [None]:
#유니버설 함수는 넘파이의 경우와 동일하게 작동한다. 

#### 유니버설 함수

유니버설 함수는 넘파이의 경우와 동일하게 작동한다.

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.875579,0.927983,-0.473473
Ohio,-0.853188,-1.702896,0.846391
Texas,0.015255,0.566004,0.466881
Oregon,0.221542,1.002955,-2.066099


- 넘파이의 `abs()` 함수를 적용하면 항목별로 이루어진다.

In [None]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.875579,0.927983,0.473473
Ohio,0.853188,1.702896,0.846391
Texas,0.015255,0.566004,0.466881
Oregon,0.221542,1.002955,2.066099


- 시리즈에 대해서도 동일하게 동작

In [None]:
np.abs(frame["b"])

Utah      0.875579
Ohio      0.853188
Texas     0.015255
Oregon    0.221542
Name: b, dtype: float64

In [None]:
np.exp(frame["b"])

Utah      0.416621
Ohio      0.426054
Texas     1.015372
Oregon    1.248000
Name: b, dtype: float64

#### `map()`과 `applymap()` 메서드 

- 유니버설 함수가 아닌 함수를 `Series`의 항목별 적용 하기위해선 `map()`를 사용한다

__예__ 
- 람다(lambda) 함수를 이용해 부동소수점을 소수점 이하 셋째 자리에서 반올림한 값만 보여주도록 한다.

In [None]:
format = lambda x: "%.2f" % float(x)

In [None]:
format(1.1939838)

'1.19'

- 시리즈에 적용

In [None]:
frame["e"].map(format)

Utah      -0.47
Ohio       0.85
Texas      0.47
Oregon    -2.07
Name: e, dtype: object

- 유니버설 함수가 아닌 함수를 `데이터프레임`의 항목별로 적용하려면 `applymap()`를 사용한다.

In [None]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.88,0.93,-0.47
Ohio,-0.85,-1.7,0.85
Texas,0.02,0.57,0.47
Oregon,0.22,1.0,-2.07


In [None]:
frame.applymap(format).info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Utah to Oregon
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   b       4 non-null      object
 1   d       4 non-null      object
 2   e       4 non-null      object
dtypes: object(3)
memory usage: 300.0+ bytes


In [None]:
def func_1(x):
  num = np.round(x, 2)
  return num

In [None]:
func_1(223.223442)

223.22

In [None]:
frame.applymap(func_1).info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Utah to Oregon
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   b       4 non-null      float64
 1   d       4 non-null      float64
 2   e       4 non-null      float64
dtypes: float64(3)
memory usage: 300.0+ bytes


#### `apply()` 메서드

- DataFrame의 행 또는 열 단위로 함수를 적용하려면 `apply()` 메서드를 활용한다.
- 기본은 열 단위로 함수가 적용되며 반환값이 스칼라 값이면 시리즈가 반환

__예__ 
- 최댓값과 최소값의 차이를 반환하는 함수를 적용해 보자

In [None]:
f1 = lambda x : x.max() - x.min()

In [None]:
frame.apply(f1, axis= "columns")

Utah      1.803562
Ohio      2.549287
Texas     0.550749
Oregon    3.069054
dtype: float64

In [None]:
frame.apply(f1, axis= 1)

Utah      1.803562
Ohio      2.549287
Texas     0.550749
Oregon    3.069054
dtype: float64

In [None]:
def func_2(x):
  return x.max() - x.min()

In [None]:
frame.apply(func_2, axis= 1)

Utah      1.803562
Ohio      2.549287
Texas     0.550749
Oregon    3.069054
dtype: float64

- 행 별로 함수 적용
    - `axis=1` 또는 `axis='columls'` 지정

### 1.2.7 정렬

- 행과 열의 인덱스 또는 항목을 대상으로 정렬할 수 있다.

#### `sort_index()` 메서드
- 시리즈의 경우 인덱스를 기준으로 정렬

In [None]:
obj = pd.Series(range(4), index = ["d", "a","b","c"])

In [None]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [None]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

내림차순으로 정렬 : `ascending=False` 키워드 인자 사용

In [None]:
obj.sort_index(ascending=False)

d    0
c    3
b    2
a    1
dtype: int64

데이터프레임의 경우 행 또는 열의 인덱스를 기준으로 정렬
- 기본은 행의 인데스를 기준으로 정렬
- 열의 인덱스를 기준으로 정렬하려면 `axis=1` 또는 `axis='columns'` 키워드 인자를 사용

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                     index = ["three", "one"],
                     columns = ["d","a","b","c"])

In [None]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [None]:
frame.sort_index() # index 를 기준으로 정렬한다.

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [None]:
frame.sort_index(axis = 1) 
# frame.sort_index(axis = "columns") 

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


- 내림차순으로 정렬하려면 `ascending=False` 키워드 인자를 함께 사용한다.

In [None]:
frame.sort_index(axis = 1, ascending=False) 

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


#### `sort_values()` 메서드
- 지정된 열 또는 행에 속한 값들을 기준으로 정렬할 때 사용
- 데이터프레임의 경우 `by` 키워드 인자를 이용하여 열의 label을 지정

In [None]:
obj = pd.Series([4,7,-3,2])

In [None]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [None]:
# 데이터 프레임은 by라는 키워드를 통해 열의 label을 지정해야 한다.  
frame = pd.DataFrame({"b":[4,7,-3,2], "a":[0,1,0,1]})

In [None]:
frame.sort_values(by="a")

Unnamed: 0,b,a
0,4,0
2,-3,0
1,7,1
3,2,1


In [None]:
frame.sort_values(by="b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
# a를 먼저 정렬한 다음, a가 같은 값이면 b열의항목들 순서대로 정렬한다. 
frame.sort_values(by=["a","b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [None]:
frame.sort_values(by=["b","a"])

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


__참고__ 
- `axis=1`을 이용하여 특정 행의 값을 기준으로 정렬 가능

### 1.2.8 Groupby
- 데이터를 특정 기준으로 그룹핑할 때 활용
- groupby()를 사용할 때는 반드시 aggregate 하는 통계함수와 일반적으로 같이 적용
<img src="https://www.w3resource.com/w3r_images/pandas-groupby-split-apply-combine.svg">

In [None]:
df = pd.DataFrame({
    'city': ['busan', 'busan', 'busan', 'busan', 'seoul', 'seoul', 'seoul'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

In [None]:
df

Unnamed: 0,city,fruits,price,quantity
0,busan,apple,100,1
1,busan,orange,200,2
2,busan,banana,250,3
3,busan,banana,300,4
4,seoul,apple,150,5
5,seoul,apple,200,6
6,seoul,banana,400,7


- city를 기준으로 price의 평균과 quantity의 평균

In [None]:
df.groupby(by ="city").sum()

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,850,10
seoul,750,18


In [None]:
df.groupby(by ="city").mean()

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,212.5,2.5
seoul,250.0,6.0


In [None]:
df.groupby(by ="city").count()

Unnamed: 0_level_0,fruits,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
busan,4,4,4
seoul,3,3,3


- `aggregate()`를 이용해 여러 통계함수를 동시에 사용가능

In [None]:
df.groupby(by ="city").aggregate([np.sum, np.mean])

Unnamed: 0_level_0,price,price,quantity,quantity
Unnamed: 0_level_1,sum,mean,sum,mean
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
busan,850,212.5,10,2.5
seoul,750,250.0,18,6.0


- 2개 이상의 컬럼으로 그룹핑

In [None]:
df.groupby(by =["city", "fruits"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
busan,apple,100.0,1.0
busan,banana,275.0,3.5
busan,orange,200.0,2.0
seoul,apple,175.0,5.5
seoul,banana,400.0,7.0
