## Pandas03; indexing, slicing, update, append, delete 

In [2]:
import numpy as np
import pandas as pd

### Series
- index를 갖는 1차원 배열이다
- index를 key값으로 갖는 딕셔너리 처럼 동작한다
- indexing, slicing, masking, fancy indexing 다 가능하다

In [3]:
s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
display(s1)

a    1
b    2
c    3
d    4
dtype: int64

- 1. indexing

In [5]:
print(s1[0])   # 암묵적 정수 인덱싱 
print(s1['a']) # 명시적 인덱싱

1
1


- 2. slicing 
    - 명시적 인덱스로 슬라이싱을 하면 최종 인덱스도 포함된다

In [9]:
print(s1[0:2])    # 암묵적 정수 슬라이싱
print(s1['a':'c'])# 명시적 인덱스로 슬라이싱

a    1
b    2
dtype: int64
a    1
b    2
c    3
dtype: int64


- 3. masking(boolean indexing) 

In [11]:
print(s1[s1>2])

c    3
d    4
dtype: int64


- 4. fancy indexing
    - 리스트 형식으로 인덱스를 넣어주면 된다

In [14]:
print(s1[[0,3]])     # 암묵적 정수 
print(s1[['a','b']]) # 명시적 인덱스

a    1
d    4
dtype: int64
a    1
b    2
dtype: int64


#### 만약에 암묵적 인덱스와 명시적 인덱스가 같으면?

In [21]:
s2 = pd.Series([10,20,30,40],index=[1,2,3,4])
print(s2[1:3]) # 암묵적 인덱스를 사용한다
print(s2[1])   # 명시적 인덱스를 사용한다

2    20
3    30
dtype: int64
10


### Indexer
- 인덱서 속성을 제공해 보다 명확하게 명시적 혹은 암무적 인덱싱을 가능하게 해준다 
    - iloc : 암묵적 정수 인덱스를 이용 
    - loc  : 명시적 인덱스를 사용

In [25]:
s2 = pd.Series([10,20,30,40],index=[1,2,3,4])
s2.iloc[1:3]

2    20
3    30
dtype: int64

In [35]:
s2 = pd.Series([10,20,30,40],index=[1,2,3,4])
s2.loc[1:3]

1    10
2    20
3    30
dtype: int64

### DataFrame
- index와 column을 갖는 2차원 배열이다
- column을 key값으로 갖는 딕셔너리 처럼 동작한다
- indexing, slicing, masking, fancy indexing 다 가능하다
- 데이터 프레임만의 인덱싱 규칙
    - 1. df[0] 암무적 정수 인덱스 불가
    - 2. df['col01'] 명시적 인덱스는 열단위 인덱싱
    - 3. df[0:3] 슬라이싱은 행단위 인덱싱
    - 4. df[boolean mask] boolean 인덱싱은 행단위 인덱싱이다
    - 5. df[,] 2차원 인덱싱 없다 => iloc 혹은 loc을 사용하자

#### 1.indexing

In [3]:
df01=pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns = ['서울','부산','경기','대전'],index=['오전','오후'])
display(df01)

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


In [None]:
# 암묵적 정수 인덱스 사용 불가
# key error
df01[0]

In [9]:
# 명시적 인덱스는 열단위 인덱싱이다
print(df01['서울'])

오전    1
오후    5
Name: 서울, dtype: int64


In [44]:
# 파이썬에서 그렇게 추천하지는 않는다
# 속성이랑 겹칠수 있기 때문
df01.서울

오전    1
오후    5
Name: 서울, dtype: int64

In [43]:
# df의 형태를 유지시키고 싶을때
df01[['서울']]

Unnamed: 0,서울
오전,1
오후,5


In [10]:
# 명시적 인덱싱 + fancy indexing
display(df01[['서울','경기']])

Unnamed: 0,서울,경기
오전,1,3
오후,5,7


#### 2.slicing => slicing은 row를 기준으로 진행된다

In [13]:
# 슬라이싱은 row를 기준으로 인식 => 아무 행도 해당하지 않음
df01['서울':'경기']

Unnamed: 0,서울,부산,경기,대전


In [48]:
df01[0:1]

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4


#### 3. 2차원 인덱스는 없다 => numpy에서 사용했던 2차원 배열 문법은 없다고 생각하자
- indexer (iloc,loc,ix)를 사용하면 가능하다

In [None]:
# key error
df01[0,0]
# 행 열이 아닌 multiindex로 인식한다
df01['오전','경기도']

#### 4.indexer 
    - loc  : 라벨 기반의 2차원 인덱싱 슬라이싱
    - iloc : 기본 정수 인덱스 기반의 2차원 인덱싱 슬라이싱
- loc iloc는 기본적으로 row indexing이다
- loc iloc는 2차원 인덱싱도 가능하다 => 이때 return 타입에 유념

In [16]:
# loc iloc은 기본적으로 row indexing이다
display(df01.loc['오전'])
display(df01.iloc[0])

서울    1
부산    2
경기    3
대전    4
Name: 오전, dtype: int64

서울    1
부산    2
경기    3
대전    4
Name: 오전, dtype: int64

In [18]:
# 마지막행 출력 
display(df01.iloc[-1])
display(df01.iloc[[-1]])

서울    5
부산    6
경기    7
대전    8
Name: 오후, dtype: int64

Unnamed: 0,서울,부산,경기,대전
오후,5,6,7,8


In [95]:
# 2차원 인덱싱 가능
# return type에 유념하자

display(df01.iloc[0,0])

display(df01.iloc[[0],0])

display(df01.iloc[0,[0]])

display(df01.iloc[[0],[0]])

1

오전    1
Name: 서울, dtype: int64

서울    1
Name: 오전, dtype: int64

Unnamed: 0,서울
오전,1


In [112]:
# 2차원 슬라이싱 가능
# return type에 유념하자
display(df01.loc['오전','서울'])
display(df01.loc[['오전'],'서울'])
display(df01.loc['오전',['서울']])
display(df01.loc[['오전'],'서울':'경기'])

1

오전    1
Name: 서울, dtype: int64

서울    1
Name: 오전, dtype: int64

Unnamed: 0,서울,부산,경기
오전,1,2,3


In [93]:
# fancy indexing
# numpy에서는 이게 안됬었다 => 그때는 np.ix_ 사용햇었다
df01.iloc[[0,1],[0,1,2]]

Unnamed: 0,서울,부산,경기
오전,1,2,3
오후,5,6,7


In [22]:
# loc iloc을 사용하지 않았다
# masking
display(df01)
print(df01['서울']>1)

# boolean indexing은 자동으로 row단위로 인식한다
display(df01[df01['서울']>1])

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


오전    False
오후     True
Name: 서울, dtype: bool


Unnamed: 0,서울,부산,경기,대전
오후,5,6,7,8


In [23]:
# loc iloc을 사용
display(df01)
print(df01['서울']>1)
display(df01.loc[df01['서울']>1,:])

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


오전    False
오후     True
Name: 서울, dtype: bool


Unnamed: 0,서울,부산,경기,대전
오후,5,6,7,8


In [26]:
# loc iloc을 사용
display(df01)
print(df01['서울']>1)
display(df01.loc[df01['서울']>1,['서울','경기']])

Unnamed: 0,서울,부산,경기,대전
오전,1,2,3,4
오후,5,6,7,8


오전    False
오후     True
Name: 서울, dtype: bool


Unnamed: 0,서울,경기
오후,5,7
