### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

In [None]:
%%html
<style>
table {
    width:400px;
    float:left}
</style>

### 인덱싱 적용 방법

|적용방법|구문|결과타입|
|:---|:---:|:---:|
|열선택|df[col]|Series|
|라벨로 행 선택|df.loc[label]|Series|
|정수 위치로 행 선택|df.iloc[loc]|Series|
|행 슬라이스|df[5:10]|DataFrame|
|불리언 벡터로 행 선택|df[bool_vec]|DataFrame|

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns # 데이터 시각화와 관련된 라이브러리

In [4]:
friend_dict = [
    {
        "name":"John",
        "age":25,
        "job":"student"
    },
    {
        "name":"Nate",
        "age":34,
        "job":"teacher"
    },
    {
        "name":"Jenny",
        "age":30,
        "job":"developer"
    }
]
friend_df = pd.DataFrame(friend_dict)
friend_df

Unnamed: 0,name,age,job
0,John,25,student
1,Nate,34,teacher
2,Jenny,30,developer


### rows, columns 기준 ( 중요 ! )

#### loc[]
- 5 또는 a 와 같은 단일 라벨
- ['a','b','c']와 같은 리스트나 라벨의 배열
- a:f 와 같이 라벨이 있는 처음과 끝의 범위를 포함하는 슬라이스 객체
- [True, False, True]와 같이 슬라이싱할 축과 같은 길이의 불리언 배열
- 호출하는 시리즈나 데이터 프레임을 인수로 가지는 호출 함수

#### iloc[]
- 정수
- [4,3,0] 과 같은 리스트나 정수들의 배열
- 1:7 과 같은 정숫값을 가지는 슬라이스 객체
- 불리언 배열
- 호출하는 시리즈나 데이터프레임을 인수로 가지는 호출 함수

><b>df.iloc[ ] : 행, 열 모두 position 값을 이용(integer 값)</b>

In [3]:
friend_df.iloc[0] # Series

name       John
age          25
job     student
Name: 0, dtype: object

In [6]:
friend_df.iloc[0:1] # ≒ 슬라이싱 : DataFrame

Unnamed: 0,name,age,job
0,John,25,student


In [7]:
friend_df.iloc[1:]

Unnamed: 0,name,age,job
1,Nate,34,teacher
2,Jenny,30,developer


***

In [5]:
iris_df = sns.load_dataset('iris') # iris : 붗꽃
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [11]:
iris_df.iloc[10:20]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
10,5.4,3.7,1.5,0.2,setosa
11,4.8,3.4,1.6,0.2,setosa
12,4.8,3.0,1.4,0.1,setosa
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
16,5.4,3.9,1.3,0.4,setosa
17,5.1,3.5,1.4,0.3,setosa
18,5.7,3.8,1.7,0.3,setosa
19,5.1,3.8,1.5,0.3,setosa


In [18]:
# 열 추출 : iloc[행 슬라이싱, 열 슬라이싱]
iris_df.iloc[1:5, 1:3]

Unnamed: 0,sepal_width,petal_length
1,3.0,1.4
2,3.2,1.3
3,3.1,1.5
4,3.6,1.4


In [19]:
# 행 전체, 1 ~ 3 열
iris_df.iloc[0:, 1:4]

Unnamed: 0,sepal_width,petal_length,petal_width
0,3.5,1.4,0.2
1,3.0,1.4,0.2
2,3.2,1.3,0.2
3,3.1,1.5,0.2
4,3.6,1.4,0.2
...,...,...,...
145,3.0,5.2,2.3
146,2.5,5.0,1.9
147,3.0,5.2,2.0
148,3.4,5.4,2.3


In [7]:
# 전채 행, 열 1,2,4
iris_df.iloc[:, [1,2,4]]

Unnamed: 0,sepal_width,petal_length,species
0,3.5,1.4,setosa
1,3.0,1.4,setosa
2,3.2,1.3,setosa
3,3.1,1.5,setosa
4,3.6,1.4,setosa
...,...,...,...
145,3.0,5.2,virginica
146,2.5,5.0,virginica
147,3.0,5.2,virginica
148,3.4,5.4,virginica


><b>df.loc[ ] : 행, 열의 label 값을 이용하거나, boolean 이용 / 마지막 값 포함</b>

In [11]:
iris_df.loc[1]

sepal_length       4.9
sepal_width        3.0
petal_length       1.4
petal_width        0.2
species         setosa
Name: 1, dtype: object

In [10]:
iris_df.loc[10:20] # 마지막 인덱스 값 포함

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
10,5.4,3.7,1.5,0.2,setosa
11,4.8,3.4,1.6,0.2,setosa
12,4.8,3.0,1.4,0.1,setosa
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
16,5.4,3.9,1.3,0.4,setosa
17,5.1,3.5,1.4,0.3,setosa
18,5.7,3.8,1.7,0.3,setosa
19,5.1,3.8,1.5,0.3,setosa


In [17]:
iris_df.loc[1, 'sepal_width':'petal_width']

sepal_width     3.0
petal_length    1.4
petal_width     0.2
Name: 1, dtype: object

In [18]:
# 행 1, 3 열 sepal_width, petal_width
iris_df.loc[[1,3], ['sepal_width', 'petal_width']]

Unnamed: 0,sepal_width,petal_width
1,3.0,0.2
3,3.1,0.2


In [24]:
# sepal_width > 3.0
iris_df.loc[iris_df['sepal_width'] > 3.0, ['sepal_width', 'petal_length']]

Unnamed: 0,sepal_width,petal_length
0,3.5,1.4
2,3.2,1.3
3,3.1,1.5
4,3.6,1.4
5,3.9,1.7
...,...,...
140,3.1,5.6
141,3.1,5.1
143,3.2,5.9
144,3.3,5.7


> **total 연습**

In [25]:
data = {"a":[1,2,3], "b":[4,5,6], "c":[7,8,9]}
df = pd.DataFrame(data, index=["no1", "no2", "no3"])
df

Unnamed: 0,a,b,c
no1,1,4,7
no2,2,5,8
no3,3,6,9


In [27]:
# 첫번쨰 행 추출
df.loc["no1"] # df.iloc[0]

a    1
b    4
c    7
Name: no1, dtype: int64

In [28]:
# 첫번째 행 추출 시 컬럼은 a, c 만 추출
df.loc["no1", ["a","c"]] # df.iloc[0, [0,2]]

a    1
c    7
Name: no1, dtype: int64

In [29]:
# 첫번째 행과 세번째 행 추출
df.loc[["no1", "no3"]] # df.iloc[[0,2]]

Unnamed: 0,a,b,c
no1,1,4,7
no3,3,6,9


#### 3) filter(items=None, like=None, regex=None, axis=None)
```
행 또는 열의 부분 집합 지정
```
* regex="정규표현식" : 정규식을 통한 필터링
* items=[ColName] : 컬럼 리스트명을 통한 필터링
* like='text' : SQL 의 like 와 유사
* axis=[0|1|2...] : 필터를 지정할 열 선택 

In [30]:
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [31]:
# " _ " 가 들어있는 컬럼 추출
iris_df.filter(regex="_")

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [32]:
# "length" 로 끝나는 컬럼 추출 ( $ )
iris_df.filter(regex="length$")

Unnamed: 0,sepal_length,petal_length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


In [33]:
# "sepal" 로 시작하는 컬럼 추출 ( ^ )
iris_df.filter(regex="^sepal")

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [35]:
df = pd.DataFrame(np.array([[1,2,3], [4,5,6]]), index=["mouse", "rabbit"], columns=["one", "two", "three"])
df

Unnamed: 0,one,two,three
mouse,1,2,3
rabbit,4,5,6


In [37]:
df.filter(items=['one', 'three'])

Unnamed: 0,one,three
mouse,1,3
rabbit,4,6


In [39]:
# 컬럼명이 "e" 로 끝나는 데이터
df.filter(regex="e$")

Unnamed: 0,one,three
mouse,1,3
rabbit,4,6


In [40]:
df.filter(like='bbi', axis=0)

Unnamed: 0,one,two,three
rabbit,4,5,6


**[실습] friend_df**

In [44]:
friend_df

Unnamed: 0,name,age,job
0,John,25,student
1,Nate,34,teacher
2,Jenny,30,developer


**1) 2번 인덱스 레이블 이용**

In [77]:
friend_df.loc[2]

name        Jenny
age            30
job     developer
Name: 2, dtype: object

**2) 0,2번 인덱스 레이블 이용**

In [79]:
friend_df.loc[[0,2]]

Unnamed: 0,name,age,job
0,John,25,student
2,Jenny,30,developer


**3) 0,2번 행을 대상으로 name, job 컬럼만 가져오기**

In [81]:
friend_df.loc[[0,2], ["name", "job"]]

Unnamed: 0,name,job
0,John,student
2,Jenny,developer


**4) iloc 이용 : 0번 행 가져오기**

In [60]:
friend_df.iloc[0]

name       John
age          25
job     student
Name: 0, dtype: object

**5) iloc 이용 : 1번 행의 0번 칼럼의 값 가져오기**

In [61]:
friend_df.iloc[1, 0]

'Nate'

**6) iloc 이용 : 0,1번 행 가져오기**

In [63]:
friend_df.iloc[0:2]

Unnamed: 0,name,age,job
0,John,25,student
1,Nate,34,teacher


**7) iloc 이용 : 0,1번 행의 0번 칼럼 가져오기**

In [64]:
friend_df.iloc[0:2, 0]

0    John
1    Nate
Name: name, dtype: object

**8) iloc 이용 : 0.1번 행의 0,1번 칼럼 가져오기**

In [69]:
friend_df.iloc[0:2, 0:2]

Unnamed: 0,name,age
0,John,25
1,Nate,34


**9) iloc 이용 : 특정 값 수정 - nate 이름 변경하기**

In [72]:
friend_df.iloc[1, 0] = "Kate"
friend_df

Unnamed: 0,name,age,job
0,John,25,student
1,Kate,34,teacher
2,Jenny,30,developer


**10) loc 이용 : 행 추가**

In [76]:
friend_df.loc[3] = ["Mike", 16, "tester"]
friend_df

Unnamed: 0,name,age,job
0,John,25,student
1,Kate,34,teacher
2,Jenny,30,developer
3,Mike,16,tester


#### 11) filter 이용

In [82]:
# name, job 컬럼
friend_df.filter(items=["name", "job"])

Unnamed: 0,name,job
0,John,student
1,Kate,teacher
2,Jenny,developer
3,Mike,tester


In [84]:
# name 컬럼
friend_df.filter(items=["name"])

Unnamed: 0,name
0,John
1,Kate
2,Jenny
3,Mike


In [85]:
# 컬럼명에 a 가 들어간 컬럼 추출
friend_df.filter(regex="a")

Unnamed: 0,name,age
0,John,25
1,Kate,34
2,Jenny,30
3,Mike,16


In [86]:
# 인덱스가 0 으로 끝나는 행 추출
friend_df.filter(regex="0$", axis=0)

Unnamed: 0,name,age,job
0,John,25,student


**[실습] student_df**

In [87]:
score_dict = {"국어":[15,25,35], "영어":[45,55,65], "수학":[75,85,95]}

score_df = pd.DataFrame(score_dict)
score_df

Unnamed: 0,국어,영어,수학
0,15,45,75
1,25,55,85
2,35,65,95


**1) loc 사용해서 2번 행 가져오기**

In [89]:
score_df.loc[1]

국어    25
영어    55
수학    85
Name: 1, dtype: int64

**2) loc 사용해서 1번 행의 수학 점수 가져오기**

In [90]:
score_df.loc[1, "수학"]

85

**3) loc 사용해서 전체 행의 수학 점수 가져오기**

In [91]:
score_df.loc[:, "수학"] # score_df["수학"]

0    75
1    85
2    95
Name: 수학, dtype: int64

#### 4) 특정 행 조회

In [94]:
score_df.loc[1:2] # 인덱스 명 1:2

Unnamed: 0,국어,영어,수학
1,25,55,85
2,35,65,95


In [95]:
score_df.iloc[1:2] # 인덱스 번호 1:2

Unnamed: 0,국어,영어,수학
1,25,55,85


**[실습] month_df**

In [98]:
month_df = pd.DataFrame(score_dict, index=["1월","2월","3월"])
month_df

Unnamed: 0,국어,영어,수학
1월,15,45,75
2월,25,55,85
3월,35,65,95


**1) loc 사용해서 2월 행 가져오기**

In [99]:
month_df.loc["2월"]

국어    25
영어    55
수학    85
Name: 2월, dtype: int64

**2) loc 사용해서 전체 행의 영어 컬럼 가져오기**

In [101]:
month_df.loc[:,"영어"]

1월    45
2월    55
3월    65
Name: 영어, dtype: int64

**3) loc 사용해서 2월~3월행의 전체 컬럼 가져오기**

In [102]:
month_df.loc["2월":"3월"]

Unnamed: 0,국어,영어,수학
2월,25,55,85
3월,35,65,95


**4) iloc 사용해서 2월~3월행의 전체 컬럼 가져오기**

In [103]:
month_df.iloc[1:3]

Unnamed: 0,국어,영어,수학
2월,25,55,85
3월,35,65,95
