In [1]:
import numpy as np
import pandas as pd

### 5.2.1. 재색인 (reindex)
- 새로운 색인에 맞도록 객체를 새로 생성
- series객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 존재하지 않는 값이 있다면 NaN을 추가한다.
- dataFrame에 대한 reindex는 row, column둘다 순서만 전달하면 재색인이 가능.

In [3]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d','b','a','c'])
print(obj)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64


In [4]:
obj2 = obj.reindex(['a','b','c','d','e'])
print(obj2)

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64


In [5]:
obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])
print(obj3)

0      blue
2    purple
4    yellow
dtype: object


In [24]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a','c','d'],
                    columns = ['Ohio','Texas','California'])
print(frame)

frame2 = frame.reindex(['a','b','c','d'])
print(frame2)
states = ['Texas','Utah','California']
print(frame.reindex(columns=states))
frame.loc([['a','b','c','d'],states])

Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0
   Texas  Utah  California
a      1   NaN           2
c      4   NaN           5
d      7   NaN           8


TypeError: unhashable type: 'list'

In [7]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
print(obj)

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64


### 5.2.2.하나의 row나 column삭제하기
- dataFrame에서는 로우와 컬럼 모두에서 값을 삭제할 수 있다. 
- drop함수에 인자로 로우 이름을 넘기면 해당 row(axis=0)의 값을 모두 삭제한다.
- 컬럼의 값을 삭제할 때는 axis=1또는 axis='columns'를 인자로 넘겨주면 된다.

In [8]:
new_obj = obj.drop('c')
print(new_obj)
obj.drop(['d','c'])
print(obj)

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64
a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64


In [9]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index=['Ohio','Colorado','Utah','NewYork'],
                    columns = ['one','two','three','four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
NewYork,12,13,14,15


In [10]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
NewYork,12,13,14,15


In [11]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
NewYork,12,14,15


In [12]:
data.drop(['two','four'],axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
NewYork,12,14


In [13]:
obj = pd.Series(np.arange(4.), index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

### 5.2.3. 색인, 선택, 거르기
- 라벨 이름으로 슬라이싱 하면 시작점과 끝점을 포함한다는 것이 파이썬의 슬라이싱과는 다르다.
- 슬라이싱으로 로우를 선택하거나 불리언배열로 로우를 선택할 수 있다.
- 스칼라비교를 이용해 생성된 불리언 df를 사용해서 값을 선택

In [14]:
print(obj['b'])
print(obj[1])
print(obj[2:4])
print(obj[['b','a','d']])
print(obj[[1,3]])
print(obj[obj<2])
print(obj['b':'C'])

1.0
1.0
c    2.0
d    3.0
dtype: float64
b    1.0
a    0.0
d    3.0
dtype: float64
b    1.0
d    3.0
dtype: float64
a    0.0
b    1.0
dtype: float64
Series([], dtype: float64)


In [15]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index = ['Ohio','Colorado','Utah','NewYork'],
                    columns = ['one','two','three','four'])
print(data)
print(data['two'])
print(data[['three','one']])

one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
NewYork    12   13     14    15
Ohio         1
Colorado     5
Utah         9
NewYork     13
Name: two, dtype: int32
          three  one
Ohio          2    0
Colorado      6    4
Utah         10    8
NewYork      14   12


In [16]:
print(data[:2])

one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7


In [17]:
data<5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
NewYork,False,False,False,False


In [18]:
data[data<5]=0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
NewYork,12,13,14,15


### loc과 iloc로 선택하기

- 축이름을 선택할 때는 loc를, 정수색인으로 선택할 때는 iloc을 사용한다.

In [19]:
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int32

In [20]:
data.iloc[2,[3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int32

In [21]:
data.loc[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [22]:
data.iloc[:,:3][data.three>5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
NewYork,12,13,14


### 5.2.7. 정렬과 순위

In [2]:
obj = pd.Series(range(4), index=['d','a','b','c'])
print(obj.sort_index())

a    1
b    2
c    3
d    0
dtype: int64


In [5]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                     index = ['three','one'],
                     columns = ['d','a','b','c'])
print(frame.sort_index())
print(frame.sort_index(axis=1))
print(frame.sort_index(axis = 1, ascending=False))

d  a  b  c
one    4  5  6  7
three  0  1  2  3
       a  b  c  d
three  1  2  3  0
one    5  6  7  4
       d  c  b  a
three  0  3  2  1
one    4  7  6  5


In [6]:
obj = pd.Series([4, 7, -3, 2])
print(obj.sort_values())

2   -3
3    2
0    4
1    7
dtype: int64


In [9]:
obj2 = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj2.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [11]:
frame2 = pd.DataFrame({'b':[4,7,-3,2], 'a':[0,1,0,1]})
print(frame2)
print(frame2.sort_values(by = ['a','b']))

b  a
0  4  0
1  7  1
2 -3  0
3  2  1
   b  a
2 -3  0
0  4  0
3  2  1
1  7  1


In [13]:
obj1 = pd.Series([7, -5, 7, 4, 2, 0, 4])
print(obj1.rank)
print(obj1.rank(method="first"))
print(obj1.rank(ascending = False, method='max'))

<bound method NDFrame.rank of 0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64>
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64
0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64


In [15]:
frame3 = pd.DataFrame({'b':[4.3, 7, -3, 2], 'a':[0,1,0,1], 'c':[-2, 5, 8, -2.5]})
print(frame3)
print(frame3.rank(axis='columns'))

b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0
