## Agenda
- 리인덱싱
- 삭제
- 연산
- 정렬

In [2]:
import pandas as pd
import numpy as np

## 1.2 핵심 기능

### 1.2.1 리인덱싱

#### 시리즈 리인덱싱

In [3]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

- 새로운 인덱스가 추가되면 `NaN`이 사용

In [4]:
obj.reindex(["a","b","c","d","e"])

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

- 지정되지 않은 인덱스는 무시

In [5]:
obj.reindex(["a","c","d","e"])

a   -5.3
c    3.6
d    4.5
e    NaN
dtype: float64

#### 결측치 채우기 1: `method` 키워드 인자

- 리인덱싱 과정에서 결측치가 발생할 때 여러 방식으로 채울 수 있다.
- `method='fill'` 키워드 인자는 결측치를 위쪽에 위치한 값으로 채운다.

__주의사항:__ 인덱스가 오름 또는 내림 차순으로 정렬되어 있는 경우에만 가능하다.

In [6]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 5])
obj3

0      blue
2    purple
5    yellow
dtype: object

In [7]:
obj3.reindex(range(6))

0      blue
1       NaN
2    purple
3       NaN
4       NaN
5    yellow
dtype: object

In [8]:
obj3.reindex(range(6), method = "ffill")

0      blue
1      blue
2    purple
3    purple
4    purple
5    yellow
dtype: object

- 아랫쪽에 있는 값으로 채울 수도 있다.
- `method='bfill'`

In [9]:
obj3.reindex(range(6), method = "bfill")

0      blue
1    purple
2    purple
3    yellow
4    yellow
5    yellow
dtype: object

- 아니면 가장 가까운 곳에 있는 값으로 채울 수도 있다.
- `method='nearest'`

In [10]:
obj3.reindex(range(6), method = "nearest")

0      blue
1    purple
2    purple
3    purple
4    yellow
5    yellow
dtype: object

#### 결측치 채우기 2: `fill_value` 키워드 인자

- 리인덱싱 과정에서 발생하는 모든 결측치를 지정된 값으로 대체
- 기본값은 `NaN` 이다.

In [11]:
obj3.reindex(range(-1,6), fill_value="no_color")

-1    no_color
0         blue
1     no_color
2       purple
3     no_color
4     no_color
5       yellow
dtype: object

- 리인덱싱은 항상 새로운 시리즈를 생성한다.
- 따라서 `obj3` 자체는 변하지 않는다.

In [12]:
obj3
#참고 np.nan == np.nan

0      blue
2    purple
5    yellow
dtype: object

#### 데이터프레임 리인덱싱

- 데이터프레임은 `index`와 `columns` 속성에 대해 리인덱싱이 가능하며 작동법은 Series의 인덱싱과 동일하다.

In [13]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


- `reindex()` 메서드는 기본적으로 행의 `index` 에 대해 작동

In [14]:
frame2 = frame.reindex(["a","b","c","d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


- 열의 `columns`에 대해서는 `columns` 키워드 인자를 활용

In [15]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


### 5.2.2 `drop()` 메서드

- 특정 행 또는 열의 인덱스를 제외한 나머지로 이루어진 시리즈/데이터프레임을 구할 때 사용
- 시리즈의 경우 인덱스를 한 개 또는 여러 개 지정하면 나머지로 이루어진 시리즈를 얻을수 있다. 

In [16]:
pd_1 = pd.Series(np.arange(5,), index = ["a","b","c","d","e"])
pd_1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [17]:
pd_1.drop('c')

a    0
b    1
d    3
e    4
dtype: int64

In [18]:
pd_1.drop(['d','c'])

a    0
b    1
e    4
dtype: int64

- `inplace=True` 키워드 인자를 이용하여 원본 수정 가능
- 사용시 주의 

In [19]:
pd_1

a    0
b    1
c    2
d    3
e    4
dtype: int64

- 데이터프레임의 경우도 기본적으로 행의 인덱스를 기준으로 작동한다.

In [20]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [21]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


- 열을 기준으로 작동하게 하려면 `axis=1`로 지정한다.

In [22]:
data.drop(["two"], axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


- `axis='columns'` 지정

In [23]:
data.drop(['two'], axis = "columns") #inplace True 가능

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


### 1.2.3 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

#### 시리즈의 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

시리즈의 경우 1차원 넘파이 어레이와 거의 동일하게 작동한다.
다만 정수 대신에 지정된 인덱스를 사용할 때 조금 차이가 있다.

In [24]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [25]:
obj["b"]

1.0

In [26]:
obj[1]

1.0

- 여러 개의 인덱스를 리스트로 지정하여 인덱싱을 진행

In [27]:
obj[["a","b"]]

a    0.0
b    1.0
dtype: float64

In [28]:
obj[["b","a","d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [29]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

- 필터링(부울 인덱싱)은 동일하게 작동

In [30]:
type(obj<2)

pandas.core.series.Series

In [31]:
obj[obj<2]

a    0.0
b    1.0
dtype: float64

- Label 슬라이싱

In [32]:
obj[["b", "c"]]

b    1.0
c    2.0
dtype: float64

In [33]:
obj["b":"c"]
#문자 슬라이싱은 양끝 구간을 모두 포함한다.

b    1.0
c    2.0
dtype: float64

In [34]:
obj["b":"c"] = 3
obj

a    0.0
b    3.0
c    3.0
d    3.0
dtype: float64

In [35]:
#숫자 슬라이싱은 행을 기준으로 동작한다.

#### 데이터프레임의 인덱싱, 슬라이싱, 필터링(부울 인덱싱)

In [36]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [37]:
mask = data["three"] > 5
data[mask]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [38]:
#필터링을 사용해 특정 조건의 값을 업데이트 할 수 있다.
data[~mask] = 3
data

Unnamed: 0,one,two,three,four
Ohio,3,3,3,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### 행 단위 인덱싱/슬라이싱

`loc()` 또는 `iloc()` 메서드를 이용한다.

- `loc()` 메서드: 라벨을 이용할 경우
- `iloc()` 메서드: 정수 인덱스를 이용할 경우

In [39]:
data.loc["Colorado"]

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [40]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [41]:
#행과 열을 동시에 인덱싱 슬라이싱 하기 위해서는 loc 또는 iloc 메서드를 사용

In [42]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [43]:
data.iloc[2,[0,1,2]]

one       8
two       9
three    10
Name: Utah, dtype: int64

In [44]:
#data.iloc[2,[0:2]]
data

Unnamed: 0,one,two,three,four
Ohio,3,3,3,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 5.2.5 산술 연산

시리즈/데이터프레임의 사칙 연산은 기본적으로 아래 원칙을 따른다.

- 연산에 사용된 모든 인덱스는 포함
- 공통으로 사용되는 인덱스의 항목에 대해서만 연산 적용. 그렇지 않으면 `NaN`으로 처리.

In [45]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [46]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [47]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [48]:
df_1 = pd.DataFrame(np.arange(9).reshape((3, 3)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['two', 'three', 'four'])

df_2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

df_1

Unnamed: 0,two,three,four
Ohio,0,1,2
Colorado,3,4,5
New York,6,7,8


In [49]:
df_1 + df_2

Unnamed: 0,four,one,three,two
Colorado,12.0,,10.0,8.0
New York,23.0,,21.0,19.0
Ohio,5.0,,3.0,1.0
Utah,,,,


- 기본적으로 사용되는 산술 연산 기호에 해당하는 메서드가 존재한다.

| 메서드 | 설명 |
| :--- | :--- |
| `add()` | 덧셈(`+`) 계산 메서드 | 
| `sub()` | 뺄셈(`-`) 계산 메서드 | 
| `mul()` | 곱셈(`*`) 계산 메서드 | 
| `div()` | 나눗셈(`/`) 계산 메서드 | 
| `floordiv()` | 몫 (`//`) 계산 메서드 | 
| `pow()` | 거듭제곱(`**`) 메서드 | 

#### 연산 과정에서 결측치 채우기
- 공통 인덱스가 아니거나 결측치가 이미 존재하는 경우 기본적으로 결측치로 처리됨.
- `fill_value` 키워드 인자를 이용하여 지정된 값으로 처리하게 만들 수도 있다.

In [50]:
df_1.add(df_2, fill_value=10)

Unnamed: 0,four,one,three,two
Colorado,12.0,14.0,10.0,8.0
New York,23.0,22.0,21.0,19.0
Ohio,5.0,10.0,3.0,1.0
Utah,21.0,18.0,20.0,19.0


#### 데이터프레임과 시리즈 사이의 연산

넘파이에서 2차원 어레이와 1차원 어레이 사이에
브로드캐스팅이 가능한 경우,
즉, 차원을 맞출 수 있는 경우에 연산이 가능했다.

In [51]:
arr_1= np.arange(12).reshape((3,4))
arr_1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [52]:
arr_1[0]

array([0, 1, 2, 3])

In [53]:
arr_1 - arr_1[0]

array([[0, 0, 0, 0],
       [4, 4, 4, 4],
       [8, 8, 8, 8]])

In [54]:
arr_1-arr_1[:1][:, np.newaxis]

array([[[0, 0, 0, 0],
        [4, 4, 4, 4],
        [8, 8, 8, 8]]])

In [55]:
np.expand_dims(arr_1[:1], axis=-1)

array([[[0],
        [1],
        [2],
        [3]]])

In [56]:
#브로드캐스팅

df_3 = pd.DataFrame(np.arange(12).reshape((4, 3)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=list('bdc'))
                    
df_3

Unnamed: 0,b,d,c
Ohio,0,1,2
Colorado,3,4,5
Utah,6,7,8
New York,9,10,11


In [57]:
ser_1 = df_3.iloc[0]

In [58]:
# 공통 인덱스가 존재하면 df와 series 사이의 브로드캐스팅이 적용되어 연산된다.
df_3 - ser_1

Unnamed: 0,b,d,c
Ohio,0,0,0
Colorado,3,3,3
Utah,6,6,6
New York,9,9,9


In [59]:
df_3["c"]

Ohio         2
Colorado     5
Utah         8
New York    11
Name: c, dtype: int64

In [60]:
df_3 + df_3["c"]
#nan값 나옴

Unnamed: 0,Colorado,New York,Ohio,Utah,b,c,d
Ohio,,,,,,,
Colorado,,,,,,,
Utah,,,,,,,
New York,,,,,,,


In [61]:
df_3.add(df_3["c"], axis = 0)
#헷갈리지 않기 위해서는 axis 명시할 것 

Unnamed: 0,b,d,c
Ohio,2,3,4
Colorado,8,9,10
Utah,14,15,16
New York,20,21,22


### 1.2.6 함수 적용

#### 유니버설 함수

유니버설 함수는 넘파이의 경우와 동일하게 작동한다.

In [62]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-0.688003,0.30148,2.196321
Ohio,1.336421,0.628729,-0.054986
Texas,-0.797948,-0.25228,1.603795
Oregon,-1.935375,2.11388,1.176083


- 넘파이의 `abs()` 함수를 적용하면 항목별로 이루어진다.

In [63]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.688003,0.30148,2.196321
Ohio,1.336421,0.628729,0.054986
Texas,0.797948,0.25228,1.603795
Oregon,1.935375,2.11388,1.176083


- 시리즈에 대해서도 동일하게 동작

In [64]:
np.abs(frame["b"])

Utah      0.688003
Ohio      1.336421
Texas     0.797948
Oregon    1.935375
Name: b, dtype: float64

#### `map()`과 `applymap()` 메서드 

- 유니버설 함수가 아닌 함수를 `Series`의 항목별 적용 하기위해선 `map()`를 사용한다

__예__ 
- 람다(lambda) 함수를 이용해 부동소수점을 소수점 이하 셋째 자리에서 반올림한 값만 보여주도록 한다.

In [65]:
func_1 = lambda x : float("%.2f" % x)

- 시리즈에 적용

In [66]:
frame["b"].map(func_1)

Utah     -0.69
Ohio      1.34
Texas    -0.80
Oregon   -1.94
Name: b, dtype: float64

- 유니버설 함수가 아닌 함수를 `데이터프레임`의 항목별로 적용하려면 `applymap()`를 사용한다.

In [67]:
frame.applymap(func_1)

Unnamed: 0,b,d,e
Utah,-0.69,0.3,2.2
Ohio,1.34,0.63,-0.05
Texas,-0.8,-0.25,1.6
Oregon,-1.94,2.11,1.18


#### `apply()` 메서드

- DataFrame의 행 또는 열 단위로 함수를 적용하려면 `apply()` 메서드를 활용한다.
- 기본은 열 단위로 함수가 적용되며 반환값이 스칼라 값이면 시리즈가 반환

__예__ 
- 최댓값과 최소값의 차이를 반환하는 함수를 적용해 보자

In [68]:
def func_2(x):
    tmp = x.max() - x.min()
    return tmp


In [69]:
frame.apply(func_2)

b    3.271795
d    2.366160
e    2.251307
dtype: float64

- 행 별로 함수 적용
    - `axis=1` 또는 `axis='columls'` 지정

In [70]:
frame.apply(func_2, axis = 1)

Utah      2.884324
Ohio      1.391407
Texas     2.401742
Oregon    4.049255
dtype: float64

In [71]:
# apply 적용시 함수의 반환값이 시리즈인 apply의 결과는 df 반환
def func_3(x):
    tmp = x.max() - x.min()
    return pd.Series([x.min(),x.max(), tmp], index=["min","max","max-min"])
frame.apply(func_3, axis =1)

Unnamed: 0,min,max,max-min
Utah,-0.688003,2.196321,2.884324
Ohio,-0.054986,1.336421,1.391407
Texas,-0.797948,1.603795,2.401742
Oregon,-1.935375,2.11388,4.049255


### 1.2.7 정렬

- 행과 열의 인덱스 또는 항목을 대상으로 정렬할 수 있다.

#### `sort_index()` 메서드
- 시리즈의 경우 인덱스를 기준으로 정렬

In [72]:
ser_2 = pd.Series(range(5), index=list("dabce"))
ser_2.sort_index()

a    1
b    2
c    3
d    0
e    4
dtype: int64

내림차순으로 정렬 : `ascending=False` 키워드 인자 사용

In [73]:
ser_2.sort_index(ascending=False)

e    4
d    0
c    3
b    2
a    1
dtype: int64

데이터프레임의 경우 행 또는 열의 인덱스를 기준으로 정렬
- 기본은 행의 인데스를 기준으로 정렬
- 열의 인덱스를 기준으로 정렬하려면 `axis=1` 또는 `axis='columns'` 키워드 인자를 사용

In [74]:
df_4 = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index=["three","one"],
                    columns=list("dabc"))
df_4

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [75]:
#행의 인덱스 기준 정렬
df_4.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [76]:
#열의 인덱스 기준 정렬
df_4.sort_index(axis=0)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


- 내림차순으로 정렬하려면 `ascending=False` 키워드 인자를 함께 사용한다.

In [77]:
#행의 인덱스 기준 정렬
df_4.sort_index(axis=0, ascending=False).sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


#### `sort_values()` 메서드
- 지정된 열 또는 행에 속한 값들을 기준으로 정렬할 때 사용
- 데이터프레임의 경우 `by` 키워드 인자를 이용하여 열의 label을 지정

In [78]:
ser_3 = pd.Series([4,56,-7,2])
ser_3.sort_values()

ser_4 = pd.Series([4,56,-7,2, np.nan])
ser_4.sort_values()

2    -7.0
3     2.0
0     4.0
1    56.0
4     NaN
dtype: float64

In [79]:
df_5 = pd.DataFrame({"c":[2,4,1,4,-5], "a":[8,3,6,1,0]})

__참고__ 
- `axis=1`을 이용하여 특정 행의 값을 기준으로 정렬 가능

In [80]:
#여러 열의 값을 정하면 리스트에 먼저 입력된 순으로 나타난다.
df_5.sort_values(by="a","c")

SyntaxError: positional argument follows keyword argument (151096003.py, line 2)

In [81]:
#sort_values는 행의 값을 기준으로 정렬하기 위해 axis=1을 지정
df_5.sort_values(by=3, axis=1)

Unnamed: 0,a,c
0,8,2
1,3,4
2,6,1
3,1,4
4,0,-5


### 1.2.8 Groupby
- 데이터를 특정 기준으로 그룹핑할 때 활용
- *groupby()를 사용할 때는 반드시 aggregate 하는 통계함수와 일반적으로 같이 적용*
<img src="https://www.w3resource.com/w3r_images/pandas-groupby-split-apply-combine.svg">

In [82]:
df = pd.DataFrame({
    'city': ['busan', 'busan', 'busan', 'busan', 'seoul', 'seoul', 'seoul'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

In [83]:
df.groupby("city").sum()

  df.groupby("city").sum()


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,850,10
seoul,750,18


- city를 기준으로 price의 평균과 quantity의 평균

In [84]:
df.groupby("city").mean()

  df.groupby("city").mean()


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,212.5,2.5
seoul,250.0,6.0


- `arrtrgate()`를 이용해 여러 통계함수를 동시에 사용가능

In [85]:
df.groupby("city").aggregate(func_2)

  df.groupby("city").aggregate(func_2)


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,200,3
seoul,250,2


- 2개 이상의 컬럼으로 그룹핑

In [86]:
df.groupby(["city", "fruits"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
busan,apple,100.0,1.0
busan,banana,275.0,3.5
busan,orange,200.0,2.0
seoul,apple,175.0,5.5
seoul,banana,400.0,7.0
