In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

# 색인 객체

In [None]:
'''
# 색인 객체(Index)
 : 표형식의 데이터에서 각 행과 열에 대한 헤더(이름)와 다른 메타데이터(축의 이름)을 저장하는 객체
 
# Series나 DataFrame 객체를 생성할 때 사용되는 배열 또는 순차적인 이름이 내부적으로 색인으로 변환
'''

In [2]:
obj = Series(range(3), index=['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [5]:
idx = obj.index
idx

Index(['a', 'b', 'c'], dtype='object')

In [6]:
# 인덱싱 가능
idx[1]

'b'

In [7]:
# 슬라이싱 가능
idx[1:]

Index(['b', 'c'], dtype='object')

In [8]:
idx[1] = 'd'    # 색인 객체는 변경할 수 없음 (주의)

TypeError: Index does not support mutable operations

In [10]:
obj = Series([2.3, 4.3, -4.1, 3.5], index=['d', 'b', 'a', 'c'])
obj

d    2.3
b    4.3
a   -4.1
c    3.5
dtype: float64

## 재색인

In [11]:
# 재색인 (reindex) : 새로운 색인에 맞도록 객체를 새로 생성하는 기능

obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -4.1
b    4.3
c    3.5
d    2.3
e    NaN
dtype: float64

In [12]:
obj3 = obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0.0)  # value 없으면 default값으로 채우기 옵션
obj3

a   -4.1
b    4.3
c    3.5
d    2.3
e    0.0
dtype: float64

In [13]:
obj4 = Series(['blue', 'red', 'yellow'], index=[0, 2, 4])
obj4

0      blue
2       red
4    yellow
dtype: object

In [14]:
obj5 = obj4.reindex(range(6), method='ffill')
obj5

0      blue
1      blue
2       red
3       red
4    yellow
5    yellow
dtype: object

In [15]:
# 데이터프레임 - 재색인
df = DataFrame(np.arange(9).reshape(3, 3), index=['a', 'b', 'd'], columns=['x', 'y', 'z'])
df

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
d,6,7,8


In [16]:
print(df.columns, df.index)

Index(['x', 'y', 'z'], dtype='object') Index(['a', 'b', 'd'], dtype='object')


In [17]:
df2 = df.reindex(['a', 'b', 'c', 'd'])   # default : index
df2

Unnamed: 0,x,y,z
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,,,
d,6.0,7.0,8.0


In [18]:
col = ['x', 'y', 'w', 'z']
df.reindex(columns=col)

Unnamed: 0,x,y,w,z
a,0,1,,2
b,3,4,,5
d,6,7,,8


In [19]:
# 보간 
df3 = df.reindex(index=['a', 'b', 'c', 'd'], columns=col, method='ffill')
df3   # dataframe은 보간은 row에 대해서만 이루어진다

Unnamed: 0,x,y,w,z
a,0,1,,2
b,3,4,,5
c,3,4,,5
d,6,7,,8


In [25]:
# 인덱스로 삭제 : drop

In [26]:
obj = Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

In [28]:
obj2 = obj.drop('c')
obj2

a    0
b    1
d    3
e    4
dtype: int32

In [29]:
# 여러 값도 삭제 가능
obj3 = obj.drop(['b', 'd', 'c'])
obj3

a    0
e    4
dtype: int32

In [30]:
df = DataFrame(np.arange(16).reshape(4, 4), index=['seoul', 'busan', 'daegu', 'incheon'], columns=['one', 'two', 'three', 'four'])
df

Unnamed: 0,one,two,three,four
seoul,0,1,2,3
busan,4,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15


In [31]:
# 인덱스로 삭제
new_df = df.drop(['seoul', 'busan'])
new_df

Unnamed: 0,one,two,three,four
daegu,8,9,10,11
incheon,12,13,14,15


In [32]:
# 컬럼으로 삭제
new_df = df.drop('three', axis=1)
new_df

Unnamed: 0,one,two,four
seoul,0,1,3
busan,4,5,7
daegu,8,9,11
incheon,12,13,15


In [33]:
# 여러 컬럼 삭제 가능
new_df = df.drop(['two', 'four'], axis=1)
new_df

Unnamed: 0,one,three
seoul,0,2
busan,4,6
daegu,8,10
incheon,12,14


## 슬라이싱

In [34]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [35]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [36]:
# 슬라이싱 결과에 값 대입
obj['b', 'c'] = 10
obj

a     0.0
b    10.0
c    10.0
d     3.0
dtype: float64

In [37]:
df = DataFrame(np.arange(16).reshape(4, 4), index=['seoul', 'busan', 'daegu', 'incheon'], columns=['one', 'two', 'three', 'four'])
df

Unnamed: 0,one,two,three,four
seoul,0,1,2,3
busan,4,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15


In [38]:
df[:2]          # 슬라이싱 : row 기준

Unnamed: 0,one,two,three,four
seoul,0,1,2,3
busan,4,5,6,7


## etc

In [41]:
# 조건 부여 가능
df

Unnamed: 0,one,two,three,four
seoul,0,1,2,3
busan,4,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15


In [46]:
print(df['three'])
print('------------------------------')
print(df['three'] > 7)        # 조건을 부여한 결과를 t/f 로 return
print('-----------------------------')
print(df[df['three'] > 7])

seoul       2
busan       6
daegu      10
incheon    14
Name: three, dtype: int32
------------------------------
seoul      False
busan      False
daegu       True
incheon     True
Name: three, dtype: bool
-----------------------------
         one  two  three  four
daegu      8    9     10    11
incheon   12   13     14    15


In [47]:
# [실습] 5보다 작은 값을 0으로 채우기
df

Unnamed: 0,one,two,three,four
seoul,0,1,2,3
busan,4,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15


In [48]:
df < 5          # t/f return

Unnamed: 0,one,two,three,four
seoul,True,True,True,True
busan,True,False,False,False
daegu,False,False,False,False
incheon,False,False,False,False


In [49]:
df[df < 5] = 0
df

Unnamed: 0,one,two,three,four
seoul,0,0,0,0
busan,0,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15


In [50]:
# DataFrame 의 특수한 색인필드(속성)
# loc : label base
df.loc['seoul']

one      0
two      0
three    0
four     0
Name: seoul, dtype: int32

In [51]:
df.loc['busan', ['two', 'three']]

two      5
three    6
Name: busan, dtype: int32

In [58]:
df

Unnamed: 0,one,two,three,four
seoul,0,0,0,0
busan,0,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15


In [61]:
df.loc[['busan', 'daegu'], ['three', 'four']]

Unnamed: 0,three,four
busan,6,7
daegu,10,11


In [62]:
# iloc : index 번호 base
df.iloc[[3, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
incheon,15,12,13
daegu,11,8,9


In [63]:
df.iloc[2, 3]       # 값 추출

11

In [66]:
# 슬라이싱
df.loc[:'daegu', 'three']

seoul     0
busan     6
daegu    10
Name: three, dtype: int32

In [72]:
# 특정 컬럼데이터 추출 
# 특성을 연결해서도 사용할 수 있다.
df.loc[df.three > 5].iloc[:3]

Unnamed: 0,one,two,three,four
busan,0,5,6,7
daegu,8,9,10,11
incheon,12,13,14,15
