In [1]:
import numpy as np, pandas as pd

In [2]:
# Index 객체
# 정수 리스트 -> Index
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [5]:
# Index 불변의 배열
print(ind[1])
print(ind[::2], "\n")

# NumPy 배열에서 익숙한 속성
print(ind.size, ind.shape, ind.ndim, ind.dtype)

3
Int64Index([2, 5, 11], dtype='int64') 

5 (5,) 1 int64


In [7]:
# Index 객체 불변의 값
ind[1] = 0 # TypeError("Index does not support mutable operations")

TypeError: Index does not support mutable operations

In [18]:
# Index: 정렬된 집합
# 대채로 파이썬 set 데이터 구조 표기법을 따르기
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print(indA.intersection(indB)) # 교집합
print(indA.union(indB)) # 합집합
print(indA.symmetric_difference(indB)) # 대칭 차

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


In [39]:
# 데이터 인덱싱과 선택
# 1. Series에서 데이터 선택 (dictionary 유사)
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=["a","b","c","d"],)
print(data, "\n")

print("a" in data) # key value(dict) in Series
print(data.keys()) # keys(indices) in Series
print(list(data.items())) # .items() [zip object] to list -> key:value pairs

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64 

True
Index(['a', 'b', 'c', 'd'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]


In [42]:
# 새로운 인덱스 값 할당, Series 확장
data["e"] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [50]:
# Series: 1차원 배열
# 슬라이스, 마스킹, 팬시 인덱싱...

print(data["a":"c"]) # 명시적 인덱스 슬라이싱 (end index -> inclusive)
print(data[0:3], "\n") # 암묵적 정수 인덱스 슬라이싱 (end index -> exclusive)

print(data[(data > 0.3) & (data < 0.8)], "\n") # bool 마스킹
print(data[["a", "e"]]) # 팬시 인덱싱

a    0.25
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
c    0.75
dtype: float64 

b    0.50
c    0.75
dtype: float64 

a    0.25
e    1.25
dtype: float64


In [55]:
# 인덱서: loc, iloc, ix
data = pd.Series(["a","b","c",],
                 index=[1,3,5,],) # 명시적 정수 인덱스
print(data, "\n")

# 인덱싱할 때 명시적인 인덱스 사용
print(data[1], "\n")

# 슬라이싱할 때 암묵적 인덱스 사용
print(data[1:3])

# 혼선 발생 -> 인덱서(indexer) 속성 사용

1    a
3    b
5    c
dtype: object 

a 

3    b
5    c
dtype: object


In [58]:
# indexer 속성 #1: loc
# 명시적 인덱스 사용 (may or may not be integer)

print(data.loc[1], "\n") # "a" -> index = 1
print(data.loc[1:3], "\n") # "a"-> index=1, "c"-> index=3 (explicit: end index inclusive)

# indexer 속성 #2: iloc
# 암묵적 인덱스 사용 (always integer)
print(data.iloc[1], "\n") # implicit index 1 -> second item
print(data.iloc[1:3]) # second to third item (implicit: end index exclusive)

a 

1    a
3    b
dtype: object 

b 

3    b
5    c
dtype: object
