---
title: "Pandas 기본기 | 행과 열의 선택"
author: "강신성"
date: "2023-10-10"
date-format: iso
categories: [pandas]
---

> `pandas`에서 행과 열을 선택하는 기술에 대해서 알아보도록 하자!

## 1. 라이브러리 import

In [1]:
import numpy as np
import pandas as pd

## 2. `pandas` : 행과 열의 선택

```-``` 같은 자료, 다른 두 형태의 데이터프레임

In [2]:
df = pd.DataFrame({'date': ['12/30','12/31','01/01','01/02','01/03'], 'X1': [65,95,65,55,80], 'X2': [55,100,90,80,30], 'X3': [50,50,60,75,30], 'X4': [40,80,30,80,100]})
df

Unnamed: 0,date,X1,X2,X3,X4
0,12/30,65,55,50,40
1,12/31,95,100,50,80
2,01/01,65,90,60,30
3,01/02,55,80,75,80
4,01/03,80,30,30,100


> 얘는 인덱스는 그저 숫자의 의미이고

In [4]:
ts = pd.DataFrame({'X1': [65,95,65,55,80], 'X2': [55,100,90,80,30], 'X3': [50,50,60,75,30], 'X4': [40,80,30,80,100]}, index=['12/30','12/31','01/01','01/02','01/03'])
ts  ## 중요한 코드는 아님, 근데 그냥 index 지정해주는 거잖아

Unnamed: 0,X1,X2,X3,X4
12/30,65,55,50,40
12/31,95,100,50,80
01/01,65,90,60,30
01/02,55,80,75,80
01/03,80,30,30,100


> 얘는 인덱스에 시계열적 표현이 있다.

In [9]:
ts.reset_index()  ## 결국 이렇게 하는 게 다루기 편하다.

Unnamed: 0,index,X1,X2,X3,X4
0,12/30,65,55,50,40
1,12/31,95,100,50,80
2,01/01,65,90,60,30
3,01/02,55,80,75,80
4,01/03,80,30,30,100


> 안바꾸고 냅두는 경우, ```index```가 time seat를 의미하는 경우에는 안바꾸기도 한다. ~근데 위는 왜 다시 바꾼거~

### **A. 열의 선택**

* 1번째 방법 : ```df.ㆍ```

  <span style=color:red>! 치명적인 단점</span> : 변수 이름에 공백 등이 있으면 불러올 수 없음.

In [10]:
df.X1   ## df 또한 하나의 object이므로

0    65
1    95
2    65
3    55
4    80
Name: X1, dtype: int64

* 2번째 방법 : ```df['ㆍ']```, ```df[['ㆍ']]```

In [11]:
df['X1']  ## df를 일종의 딕셔너리처럼 취급하는 방법

0    65
1    95
2    65
3    55
4    80
Name: X1, dtype: int64

> Series로 불러온다.

`dictionary`?

In [15]:
dct = dict({'date': ['12/30','12/31','01/01','01/02','01/03'], 'X1': [65,95,65,55,80], 'X2': [55,100,90,80,30], 'X3': [50,50,60,75,30], 'X4': [40,80,30,80,100]})
dct['X1']

[65, 95, 65, 55, 80]

In [18]:
df.keys()

Index(['date', 'X1', 'X2', 'X3', 'X4'], dtype='object')

In [19]:
dct.keys()

dict_keys(['date', 'X1', 'X2', 'X3', 'X4'])

> key와 value가 있는 것처럼 column의 한 값(key)에 대한 데이터(value)가 있는 모습이다.

In [21]:
df[['X1']]  ## 프레임으로 산출

Unnamed: 0,X1
0,65
1,95
2,65
3,55
4,80


In [23]:
df[['X1', 'X2']]  ## 2개 이상 산출 가능

Unnamed: 0,X1,X2
0,65,55
1,95,100
2,65,90
3,55,80
4,80,30


* 3번째 방법 : ```df.iloc[:, ㆍ]```
> 통째로 np.array와 같다고 보면 된다.

In [24]:
df.iloc[:, 0] ## numpy에서 행렬을 다루는 것과 완전히 같게 사용 가능.

0    12/30
1    12/31
2    01/01
3    01/02
4    01/03
Name: date, dtype: object

In [18]:
#df.iloc[:,0] ## int - 0번째 행 | [0]이면 데이터프레임으로
#df.iloc[:,-2:] # int:int, -2번째 행부터 -1번째 행까지(뒤에서 두 개)
#df.iloc[:,1::2] # int:int:int - 스트라이딩, 1번째(두번째) 행부터 2개 단위로 추출
#df.iloc[:,[0,2]] # [int,int] - 특정 행(0, 2번째)을 데이터프레임의 형태로 반환
#df.iloc[:,[True,True,False,False,False]] # bool의 list
#df.iloc[:,range(2)] # range, 앞에서 2개

* 4번째 방법 : ```df.loc[:, ㆍ]```
 > 완전히 새로운 방법

In [None]:
#df.loc[:,'X1'] # str - 시리즈 | ['X1']이면 데이터프레임으로
#df.loc[:,'X1':'X3'] # 'str':'str' -- 칼럼이름으로 슬라이싱 **
#df.loc[:,'X1'::2] # 'str'::int -- 칼럼이름으로 스트라이딩 **
#df.loc[:,['X1','X4']] # [str,str] - 특정 행만 데이터프레임으로
#df.loc[:,[True,False,False,True,False]] # bool의 list

"""
그냥 왠만해선 다 됨
"""

\- `'date'`행 부터

In [32]:
df.loc[:, 'date':]

Unnamed: 0,date,X1,X2,X3,X4
0,12/30,65,55,50,40
1,12/31,95,100,50,80
2,01/01,65,90,60,30
3,01/02,55,80,75,80
4,01/03,80,30,30,100


\- `True`가 입력된 행만

In [33]:
df.loc[:, [True, False, True, False, True]]   ## columns의 이름에 어떤 조건을 걸어서 True에 해당하는 열만 산출 가능

Unnamed: 0,date,X2,X4
0,12/30,55,40
1,12/31,100,80
2,01/01,90,30
3,01/02,80,80
4,01/03,30,100


\- 2칸씩 띄며 스트라이딩

In [6]:
df.loc[:, ::2]  ## 2 간격으로 스트라이딩

Unnamed: 0,date,X2,X4
0,12/30,55,40
1,12/31,100,80
2,01/01,90,30
3,01/02,80,80
4,01/03,30,100


### **B. 행의 선택**

* 방법1 : `df[]`

In [38]:
df[:2]    ## int:int -- 슬라이싱 // df.iloc[:2, :], df.iloc[:2] 와 같음

Unnamed: 0,date,X1,X2,X3,X4
0,12/30,65,55,50,40
1,12/31,95,100,50,80


In [7]:
df[::2]  ## 스트라이딩, df.iloc[::2]와 같음

Unnamed: 0,date,X1,X2,X3,X4
0,12/30,65,55,50,40
2,01/01,65,90,60,30
4,01/03,80,30,30,100


In [40]:
# df[:2] # int:int -- 슬라이싱 // df.iloc[:2,:], df.iloc[:2] 와 같음
# df[::2] # int:int -- 스트라이딩
# ts['12/30':'01/02'] # str:str -- 슬라이싱 > 인덱스가 문자열 등일 경우
# ts['12/31'::2] # str:str -- 스트라이딩
# df[['12' in date for date in df.date]] # [bool,bool] `12`가 데이터에 포함되어 있을 경우
# df[df.X1 < 70] # pd.Series([bool,bool])

* 방법2 : ```df.iloc[]```

In [42]:
# df.iloc[0] # int  df.iloc[0, :]에서 생략된 표현
# df.iloc[-2:] # int:int -- 슬라이싱
# df.iloc[1::2] # int:int -- 스트라이딩
# df.iloc[[0]] # [int]
# df.iloc[[0,1]] # [int,int]
# df.iloc[['12' in date for date in df.date]] # [bool,bool] 이 경우는 []와 동일하다.
# df.iloc[range(2)] # range

\- 해당 방법은 리스트나 어레이의 원소를 다루는 것과 완전히 동일해서... 아래를 참고하면 된다.

In [43]:
lst = [[1,2,3], [3,4,5]]
lst[0]

[1, 2, 3]

In [46]:
ary = np.array(lst)
ary[0]

array([1, 2, 3])

* 방법3 : ```df.loc[]```

In [None]:
# df.loc[0] # int 
# ts.loc['12/30'] # str 
# df.loc[:2] # int:int 
# ts.loc[:'01/02'] # str:str 
# df.loc[[0,1]] # [int,int]
# ts.loc[['12/30','01/01']] # [str,str]
# df.loc[['12' in date for date in df.date]] # [bool,bool] 이 경우는 []와 동일하다.
# df.loc[df.X1>70] # pd.Series([bool,bool]) 

In [54]:
df.loc[:2]  ## character와 비슷한 형식이기 때문에 2까지 포함이 된다.

Unnamed: 0,date,X1,X2,X3,X4
0,12/30,65,55,50,40
1,12/31,95,100,50,80
2,01/01,65,90,60,30


In [57]:
df.loc[df.X1 > 70]

Unnamed: 0,date,X1,X2,X3,X4
1,12/31,95,100,50,80
4,01/03,80,30,30,100


In [13]:
df.loc[df.X1 > 70]

Unnamed: 0,date,X1,X2,X3,X4
1,12/31,95,100,50,80
4,01/03,80,30,30,100


> 위처럼 튜플로 넣을 수도 있다. 근데 iloc의 경우 위와 같은 코드로 입력하면 오류가 난다.

In [59]:
## df.iloc[df.X1 > 70] > 오류, bool을 받을 수 있으나, 튜플의 형태로 들어가면 반환하지 않는다.
df.iloc[list(df.X1 > 70)]

Unnamed: 0,date,X1,X2,X3,X4
1,12/31,95,100,50,80
4,01/03,80,30,30,100


### **D. 교수님 방식**

```-```가장 안전한 코드

In [61]:
df.loc[:,:] ## 해당 코드를 써놓고 시작, generally

Unnamed: 0,date,X1,X2,X3,X4
0,12/30,65,55,50,40
1,12/31,95,100,50,80
2,01/01,65,90,60,30
3,01/02,55,80,75,80
4,01/03,80,30,30,100


1. 하나의 col을 뽑으려 할 때

In [62]:
# df.X1       ## 제일 간단함. 게다가 눌러보면 변수 이름들이 나옴
# df['X1']
# df[['X1']]

2. row를 슬라이싱

In [63]:
# df[:5]
# ts[:'01/02']  # 시계열일 경우

3. 조건에 맞는 row를 뽑을 때 좋은 코드

In [64]:
# df[df.X1<60]  ## 이게 좋기는 한데, True, False를 직접 만들어야 하는 경우도 많음.
# df.loc[['12' in date for date in df.date]]

In [68]:
['12' in date for date in df.date]

[True, True, False, False, False]

4. 하나의 row를 뽑으려 할 때 좋은 코드

In [69]:
# df.iloc[0]
# df.loc[0]

In [72]:
ts.iloc[[0]]
# ts.iloc[0]의 경우 오류가 남(인덱스 이름이 숫자열이 아님

Unnamed: 0,X1,X2,X3,X4
12/30,65,55,50,40


5. (row,col)을 뽑으려 할 때 좋은 코드

In [None]:
# df.X1[0]    ## <- pd.Series를 뽑고 인덱스로 접근
# df['X1'][0]


# df.iloc[0,0]
# df.loc[0,'X1']

*위의 상황 이외에는 `df.loc[:,:]`를 사용하는 것이 유리하다.

### 요약

- 알아두면 좋은 규칙

* .iloc[] 와 .iloc[,:]는 완전히 동등하다.
* .loc[] 와 .loc[,:]는 완전히 동등하다.
* 결과를 pd.Series 형태가 아닌 pd.DataFrame 형태로 얻고 싶다면 [[?]]를 사용하면 된다.

### ROW

|     type of indexer      | `.` | `[]` | `.iloc` |  `.loc`  |        내가 쓴다면?         |
|:--------------------------:|:-----:|:------:|:---------:|:----------:|:---------:|
|           int            |  X  |  X   |    O    | $\Delta$ |       `df.iloc[3,:]`        |
|         int:int          |  X  |  O   |    O    | $\Delta$ |          `df[3:5]`          |
|       \[int,int\]        |  X  |  X   |    O    | $\Delta$ |      `df.iloc[idx,:]`       |
|           str            |  X  |  X   |    X    |    O     |     `ts.loc['time1',:]`     |
|         str:str          |  X  |  O   |    X    |    O     | `ts.loc['time1':'time2',:]` |
|       \[str,str\]        |  X  |  X   |    X    |    O     |           안할 듯           |
|      \[bool,bool\]       |  X  |  O   |    O    |    O     |     `df[filtered_idx]`      |
| pd.Series(\[bool,bool\]) |  X  |  O   |    X    |    O     |       `df[df.X1>20]`        |

### COL

| type of indexer | target | `.` | `[]` | `.iloc` | `.loc` |       내가 쓴다면?       |
|:----------------------:|:-------:|:----:|:-----:|:-------:|:--------:|:-------:|
|       int       |  col   |  X  |  X   |    O    |   X    |      `df.iloc[:,0]`      |
|     int:int     |  col   |  X  |  X   |    O    |   X    |     `df.iloc[:,0:2]`     |
|   \[int,int\]   |  col   |  X  |  X   |    O    |   X    |     `df.iloc[:,idx]`     |
|       str       |  col   |  O  |  O   |    X    |   O    |     `df.loc[:,'X1']`     |
|     str:str     |  col   |  X  |  X   |    X    |   O    |  `df.loc[:,'X1':'X4']`   |
|   \[str,str\]   |  col   |  X  |  O   |    X    |   O    | `df.loc[:,colname_list]` |
|  \[bool,bool\]  |  col   |  X  |  X   |    O    |   O    |  `df.loc[:,bool_list]`   |