# 5.2 핵심 기능

In [2]:
import numpy as np
import pandas as pd

## 재색인

Series 객체에 대한 reindex

In [2]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6],index = ["d","b","a","c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [3]:
# Series 객체에 대하여 reindex 호출
# 데이터를 새로운 index에 맞게 재배열, 존재하지 않는 index값의 경우 NaN을 새로 추가
obj2 = obj.reindex(["a","b","c","d","e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [17]:
obj2.reindex(["a","b","c"])

a   -5.3
b    7.2
c    3.6
dtype: float64

In [4]:
# method(채움 매서드) 옵션 이용
# "ffill" : 누락된 값을 직전 값으로 채워 넣는다
# "bfill" : 누락된 값을 다음 값으로 채워 넣는다
obj3 = pd.Series(["blue","red","yellow"],index = [0,2,4])
obj3

0      blue
2       red
4    yellow
dtype: object

In [12]:
obj3.reindex(np.arange(6),method = "ffill")

0      blue
1      blue
2       red
3       red
4    yellow
5    yellow
dtype: object

In [13]:
obj3.reindex(np.arange(6),method = "bfill")

0      blue
1       red
2       red
3    yellow
4    yellow
5       NaN
dtype: object

DataFrame에 대한 reindex

행(index), 열 또는 둘 다 변경 가능

In [7]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), index = ["a","c","d"], columns = ["Ohio","Texas","Callifornia"])
# 0~8을 3x3형태로, index(행), columns는 위와 같이 설정
frame

Unnamed: 0,Ohio,Texas,Callifornia
a,0,1,2
c,3,4,5
d,6,7,8


In [8]:
# 행 변경
frame2 = frame.reindex(index = ["a","b","c","d"])
frame2 # index "b"에 대해서는 데이터가 없으므로 NaN처리

Unnamed: 0,Ohio,Texas,Callifornia
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [9]:
# 열 변경
frame2.reindex(columns = ["Incheon","Callifornia","Texas"])

Unnamed: 0,Incheon,Callifornia,Texas
a,,2.0,1.0
b,,,
c,,5.0,4.0
d,,8.0,7.0


## 하나의 행이나 열 삭제하기

In [14]:
ob = pd.Series(np.arange(5.),index = ["a","b","c","d","e"])
ob

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [16]:
# drop 메소드 이용
new_ob = ob.drop("c")
new_ob

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

DataFrame에서는 행과 열 모두에서 index값을 삭제할 수 있다

In [18]:
Data = pd.DataFrame(np.arange(16).reshape((4,4)),index = ["Ohio","Colorado","Utah","New york"],columns = ["one","two","three","four"])
Data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New york,12,13,14,15


In [19]:
# 행 삭제
Data.drop(index = ["Ohio","Utah"])

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
New york,12,13,14,15


In [20]:
# 열 삭제
Data.drop(columns=["one","two"])

Unnamed: 0,three,four
Ohio,2,3
Colorado,6,7
Utah,10,11
New york,14,15


In [21]:
# axis를 이용한 행,열 삭제(axis 0은 행, 1은 열)
Data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New york,12,13,14,15


In [24]:
Data.drop(["two"],axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New york,12,14,15


In [25]:
Data.drop(["Ohio","Colorado"],axis = 0)

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New york,12,13,14,15


## 색인하기, 선택하기, 고르기

In [6]:
obj = pd.Series(np.arange(4), index = ["a","b","c","d"])
obj

a    0
b    1
c    2
d    3
dtype: int32

In [15]:
print(obj["b"])
print(obj[1])
print("--------------")
print(obj[2:4])
print("---------------")
print(obj[["b","a","d"]])
print("---------------")
print(obj[[1,3]])
print("---------------")
print(obj[obj<2])

1
1
--------------
c    2
d    3
dtype: int32
---------------
b    1
a    0
d    3
dtype: int32
---------------
b    1
d    3
dtype: int32
---------------
a    0
b    1
dtype: int32


### 특수연산자 loc, iloc 이용

index가 정수인 경우 [ ]로 선택하는 경우 정수 처리 방식이 다르기 때문에 loc, iloc를 더 선호하는 경향이 있음

In [20]:
# ex1)
ex_obj = pd.Series(np.arange(4), index = [2,0,1,3])
print(ex_obj)

print(ex_obj[[0,1,2,3]])
# index의 순서가 아닌 레이블을 호출하여 처리된 것을 알 수 있다

2    0
0    1
1    2
3    3
dtype: int32
0    1
1    2
2    0
3    3
dtype: int32


In [22]:
#ex2)
ex_obj2 = pd.Series(np.arange(4), index = ["a","b","c","d"])
print(ex_obj2)

print(ex_obj2[[1,0,3,2]])
# 이 경우에는 index의 순서에 따라 처리되었다

a    0
b    1
c    2
d    3
dtype: int32
b    1
a    0
d    3
c    2
dtype: int32


In [31]:
# loc : 레이블로만 index를 취한다
# iloc : index의 정수 포함여부와 무관하게 정수로만 index를 취한다
print(ex_obj,"\n")
print("1. loc를 이용한 호출")
print(ex_obj.loc[[0,1,2,3]],"\n")
print("2. iloc를 이용한 호출")
print(ex_obj.iloc[[0,1,2,3]])

2    0
0    1
1    2
3    3
dtype: int32 

1. loc를 이용한 호출
0    1
1    2
2    0
3    3
dtype: int32 

2. iloc를 이용한 호출
2    0
0    1
1    2
3    3
dtype: int32


In [33]:
data = pd.DataFrame(np.arange(16).reshape((4,4)), index = ["Ohio","Colorado","Utah","New York"], columns=["one","two","three","four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [37]:
data[["two","three"]]

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [39]:
data < 2

Unnamed: 0,one,two,three,four
Ohio,True,True,False,False
Colorado,False,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [40]:
# 슬라이싱을 이용하여 행 선택
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [42]:
data[data<5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### loc와 iloc로 선택하기

index 선택

In [43]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


축 레이블(loc) 이용하여 행렬의 부분집합 선택

In [44]:
data.loc["Colorado"]

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [45]:
data.loc[["Colorado","Utah"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11


In [46]:
# 쉼표로 구분하여 행과 열을 혼합하여 선택
data.loc["Colorado",["two","three"]]

two      5
three    6
Name: Colorado, dtype: int32

정수 색인(iloc)를 이용하여 행렬의 부분집합 선택

In [47]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [48]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [49]:
data.iloc[[2,1]]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,0,5,6,7


In [50]:
# 쉼표로 구분하여 행과 열 혼합하여 선택
data.iloc[2,[1,2]]

two       9
three    10
Name: Utah, dtype: int32

In [51]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


슬라이스, 단일 레이블, 레이블 리스트

In [52]:
# 파이썬 슬라이싱과 다르게 loc는 endpoint가 포함된다
data.loc[:"Utah","two"]

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [62]:
# iloc는 슬라이싱 과정에서 endpoint 제외
data.iloc[:,:3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [59]:
# loc에서는 boolean 배열을 사용할 수 있지만 iloc에서는 사용할 수 없다
data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 정수 index의 함정

In [63]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [65]:
# ser[-1]  ----> 오류 발생
# 왜 발생? ---> pandas가 레이블 색인을 찾는데 실패
# 레이블 색인으로 선택하려는 것인지, 정수 색인으로 선택하려는 것인지 추측하기 어렵기 때문

In [68]:
# 정수 기반의 색인을 사용할 경우에는 이러한 오류가 발생하지 않는다
ser2 = pd.Series(np.arange(3.),index = ["a","b","c"])
ser2
ser2[-1]
# 레이블에 대해서는 loc, 정수 색인에 대해서는 iloc를 사용하면 오류를 발생시키지 않고 정확한 값을 찾을 수 있다

2.0

In [71]:
ser.iloc[-1]

2.0

### 연쇄 index의 함정

In [79]:
print(data)

# data.loc[data.three == 5]["three"] = 6
# SettingWithCopyWarning 발생 ---> 임싯값을 변경하려고 한다는 경고
# 값을 할당시에는 연쇄 색인은 사용하지 않는 것이 좋다

          one  two  three  four
Ohio        1    0      0     0
Colorado    3    3      3     3
Utah        5    5      5     5
New York    3    3      3     3


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[data.three == 5]["three"] = 6


In [90]:
# 단일 loc 연산을 이용하여 값을 할당
data.loc[data.three == 5, ["three"]] = 6
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,6,5
New York,3,3,3,3


## 산술 연산과 데이터 정렬

서로 다른 index를 가지고 있는 객체 간의 산술 연산 처리 가능

In [4]:
s1 = pd.Series([7.3,-2.5,3.4,1.5],index = ["a","c","d","e"])

s2 = pd.Series([-2.1,3.6,-1.5,4,3.1],index = ["a","c","e","f","g"])

In [5]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [6]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [7]:
s1 + s2
# 서로 겹치는 index가 없는 경우 데이터는 결측치가 된다

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [3]:
#DataFrame의 경우 행과 열 모두에 적용됨
df1 = pd.DataFrame(np.arange(9).reshape((3,3)),columns = list("bcd"),index = ["Ohio","Texas","Colorado"])
df2 = pd.DataFrame(np.arange(12).reshape((4,3)),columns=list("bde"),index = ["Utah","Ohio","Texas","Oregon"])


In [4]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [5]:
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [6]:
df1 + df2
# 겹치지 않는 c,e열 그리고 Colorado, Oregon, Utah행 결측치

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


## 산술 연산 메서드에 채워 넣을 값 지정하기

In [10]:
daf1 = pd.DataFrame(np.arange(12).reshape((3,4)),columns = list("abcd"))
daf2 = pd.DataFrame(np.arange(20).reshape((4,5)),columns = list("abcde"))

daf2.loc[1,"b"] = np.nan
daf1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [11]:
daf2

Unnamed: 0,a,b,c,d,e
0,0,1.0,2,3,4
1,5,,7,8,9
2,10,11.0,12,13,14
3,15,16.0,17,18,19


In [12]:
daf1 + daf2
# daf2의 1,"b"의 값이 결측치여서 두 결과를 더하면 NA값이 된다
# 따라서 fill-value를 이용하여 NA값을 바꾸어준다. 누락된 값은 fill_value값으로 대체
# 겹치지 않는 부분도 결과가 더해진다

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [13]:
daf1.add(daf2,fill_value=0)
# 두 객체를 빼고 싶은 경우에는 sub, 나눌 경우 div, 곱할 경우 mul 이용
# add(덧셈), sub(뺄셈), div(나눗셈), mul(곱셈), pow(거듭제곱)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [14]:
# 계산 순서를 바꾸고 싶은 경우 r로 시작하는 메서드 이용
1 / daf1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [15]:
daf1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [18]:
# Series 나 DataFrame 재색인 할 경우 fill_value를 지정가능
daf1.reindex(columns = daf2.columns, fill_value = "fill")

Unnamed: 0,a,b,c,d,e
0,0,1,2,3,fill
1,4,5,6,7,fill
2,8,9,10,11,fill


## DataFrame과 Series 간의 연산

In [19]:
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [20]:
arr[0]

array([0., 1., 2., 3.])

In [21]:
arr - arr[0]
# 뺄셈이 각 행에 대해 한 번씩 적용(broad-casting)
# array([0.,1.,2.,3.])에 2개 행이 추가되고 자동적으로 같은 행으로 추가되어 뺄셈이 적용
# Series와 DataFrame간 연산은 이와 유사하다

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [28]:
frame = pd.DataFrame(np.arange(12).reshape((4,3)),columns = list("bde"),index = ["Utah","Ohio","Texas","Oregon"])
series = frame.iloc[0]
# index만 추출할 시 frame.iloc[[0]]을 이용하면 된다

frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [29]:
series

b    0
d    1
e    2
Name: Utah, dtype: int32

In [30]:
# 기본적으로 DataFrame과 Series 간의 산술 연산은 Series의 index를 DataFrame의 열에 맞추고 아래 행으로 broad-casting한다
frame - series

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


In [31]:
# index 값을 DataFrame의 열이나 Series의 index에서 찾을 수 없을 경우 그 객체(산술연산된)는 형식을 맞추기 위해 reindex된다
series2 = pd.Series(np.arange(3),index = ["b","e","f"])
series2

b    0
e    1
f    2
dtype: int32

In [33]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [32]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [34]:
# 각 행에 대해 연산을 수행할 경우
series3 = frame["d"]

frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [35]:
series3

Utah       1
Ohio       4
Texas      7
Oregon    10
Name: d, dtype: int32

In [36]:
# axis의 값은 연산을 적용할 축의 번호. 여기서는 열을 따라 연산을 수행하라는 의미
frame.sub(series3, axis = "index")

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


In [39]:
# 숫자로도 표현가능
frame.sub(series3, axis = 0)

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


## 함수 적용과 매핑

pandas 객체에도 numpy의 universial 함수(배열의 각 원소에 적용되는 메서드) 적용 가능

In [40]:
frame = pd.DataFrame(np.random.standard_normal((4,3)),columns = list("bde"),index = ["Utah","Ohio","Texas","Oregon"])
frame

Unnamed: 0,b,d,e
Utah,1.201124,0.652946,-0.523284
Ohio,1.125319,0.008104,0.037474
Texas,0.721634,1.493775,0.007662
Oregon,-0.091559,-0.142604,2.103078


In [41]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.201124,0.652946,0.523284
Ohio,1.125319,0.008104,0.037474
Texas,0.721634,1.493775,0.007662
Oregon,0.091559,0.142604,2.103078


In [46]:
# 각 행이나 열의 1차원 배열에 함수를 적용
# DataFrame의 apply 메서드 이용
def f1(x):
    return x.max() - x.min()

frame.apply(f1)

b    1.292683
d    1.636379
e    2.626362
dtype: float64

In [47]:
# 각 행에 적용하고 싶을 경우
frame.apply(f1, axis = "columns")

Utah      1.724409
Ohio      1.117216
Texas     1.486113
Oregon    2.245682
dtype: float64

In [49]:
# 적용되는 함수는 스칼라 값 외에도 Series를 반환할 수 있다
def f2(x):
    return pd.Series([x.min(),x.max()],index = ["min","max"])

frame.apply(f2)

Unnamed: 0,b,d,e
min,-0.091559,-0.142604,-0.523284
max,1.201124,1.493775,2.103078


In [50]:
# 배열의 각 원소에 적용되는 함수
# applymap 이용(전체 원소에 각각 적용)
def my_format(x):
    return f"{x:.2f}" # 소수점 이하 2자리 형식으로 지정

frame.applymap(my_format)

Unnamed: 0,b,d,e
Utah,1.2,0.65,-0.52
Ohio,1.13,0.01,0.04
Texas,0.72,1.49,0.01
Oregon,-0.09,-0.14,2.1


In [51]:
# 특정 열만 지정해서 적용할 경우
frame["e"].map(my_format)

Utah      -0.52
Ohio       0.04
Texas      0.01
Oregon     2.10
Name: e, dtype: object

## 정렬과 순위

행 또는 열의 index를 기준으로 정렬할 경우(sort_index 메서드 이용)

In [3]:
obj = pd.Series(np.arange(4),index = ['d','a','b','c'])
obj

d    0
a    1
b    2
c    3
dtype: int32

In [4]:
# 알파벳순으로 정렬
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int32

In [7]:
# DataFrame은 행과 열 중 하나의 인덱스를 기준으로 정렬이 가능하다
frame = pd.DataFrame(np.arange(8).reshape((2,4)),index = ['one','three'],columns = ['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
one,0,1,2,3
three,4,5,6,7


In [8]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,0,1,2,3
three,4,5,6,7


In [9]:
# 축을 행으로 지정하여 정렬
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
one,1,2,3,0
three,5,6,7,4


In [11]:
# 데이터는 기본적으로는 오름차순으로 정렬
# 내림차순으로 정렬 가능
frame.sort_index(axis="columns",ascending = False)

Unnamed: 0,d,c,b,a
one,0,3,2,1
three,4,7,6,5


value(값)에 따라 정렬할 경우(sort_values 메서드 이용)

In [13]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [15]:
# 정렬 시 결측치는 기본적으로 가장 마지막에 위치한다
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [16]:
# 결측치를 우선적으로 정렬할 경우(na_position 이용)
obj.sort_values(na_position = "first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

In [17]:
# DataFrame에서 정렬하는 경우
frame = pd.DataFrame({"a":[4,7,-3,2], "b":[0,1,0,1]})
frame

Unnamed: 0,a,b
0,4,0
1,7,1
2,-3,0
3,2,1


In [18]:
frame.sort_values("b")

Unnamed: 0,a,b
0,4,0
2,-3,0
1,7,1
3,2,1


In [19]:
# 여러 개의 열을 정렬할 경우 열 이름의 리스트를 넘긴다
frame.sort_values(["a","b"])

Unnamed: 0,a,b
2,-3,0
3,2,1
0,4,0
1,7,1
