In [1]:
import pandas as pd

In [2]:
file_url = 'sample_df.csv'

### index_col은 특정 컬럼을 인덱스로 지정하는 역할을 함
- 0번째 컬럼을 인덱스로 사용함

In [3]:
sample_df = pd.read_csv(file_url, index_col=0)

In [4]:
sample_df

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
a,2,2,1,4,3
b,4,3,3,7,1
c,5,4,6,3,5
d,1,4,5,6,7
e,4,5,7,8,3
f,5,4,8,9,4
g,7,5,2,0,6
h,8,8,1,7,8
i,2,3,5,2,1
j,9,3,7,6,5


### 컬럼 기준으로 인덱싱하기
- [] 안에 인덱싱할 컬럼명을 써서 붙여주면 됨

In [5]:
sample_df['var_1']

a    2
b    4
c    5
d    1
e    4
f    5
g    7
h    8
i    2
j    9
Name: var_1, dtype: int64

### 아래는 KeyError 발생
  - 컬럼을 인덱싱할 때 [] 안에는 단 하나의 값만 넣을 수 있기 때문임

In [6]:
sample_df['var_1', 'var_2']

KeyError: ignored

### 하나의 값으로 합쳐줌
  - [] 기호를 사용해서 하나의 값으로 인식되게 만듦
  - [[ ]] 형태
    - 바깥쪽 [ ]는 인덱싱을 위한 것임
    - 안쪽 [ ]는 컬럼명을 하나로 합칠 리스트 정의하는 용도

In [7]:
sample_df[['var_1', 'var_2']]

Unnamed: 0,var_1,var_2
a,2,2
b,4,3
c,5,4
d,1,4
e,4,5
f,5,4
g,7,5
h,8,8
i,2,3
j,9,3


### 행 기준으로 인덱싱하기
  - loc[]을 사용하면 행 기준으로 인덱싱 할 수 있음
  - 행 기준 데이터가 시리즈 형태로 출력됨

In [8]:
sample_df.loc['a']

var_1    2
var_2    2
var_3    1
var_4    4
var_5    3
Name: a, dtype: int64

In [10]:
# a, b, c 행을 인덱싱하시오
# - 컬럼 때와 마찬가지로 a,b,c를 리스트로 묶어줌
sample_df.loc[['a', 'b', 'c']]

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
a,2,2,1,4,3
b,4,3,3,7,1
c,5,4,6,3,5


In [11]:
# a부터 c까지
sample_df['a' : 'c']     # 'a' : 'c'는 자체가 하나의 값으로 인식됨

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
a,2,2,1,4,3
b,4,3,3,7,1
c,5,4,6,3,5


In [12]:
# iloc[] : 인덱스 이름이 아닌 행 위치를 기준으로 인덱싱 할 수 있음
sample_df.iloc[[0, 1, 2]]

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
a,2,2,1,4,3
b,4,3,3,7,1
c,5,4,6,3,5


In [13]:
sample_df.iloc[0:3]

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
a,2,2,1,4,3
b,4,3,3,7,1
c,5,4,6,3,5


In [14]:
# 0~2행, 2~3열 인덱싱
sample_df.iloc[0:3, 2:4]

Unnamed: 0,var_3,var_4
a,1,4
b,3,7
c,6,3


### 컬럼 제거하기
- drop() 함수 사용
- 컬럼을 제거하려면 반드시 axis 매개변수에 1을 지정해야 함
  - drop() 함수가 기본적으로 행(axis=0)을 제거하도록 설정됨

In [16]:
sample_df.drop('var_1', axis=1)

Unnamed: 0,var_2,var_3,var_4,var_5
a,2,1,4,3
b,3,3,7,1
c,4,6,3,5
d,4,5,6,7
e,5,7,8,3
f,4,8,9,4
g,5,2,0,6
h,8,1,7,8
i,3,5,2,1
j,3,7,6,5


In [17]:
sample_df

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
a,2,2,1,4,3
b,4,3,3,7,1
c,5,4,6,3,5
d,1,4,5,6,7
e,4,5,7,8,3
f,5,4,8,9,4
g,7,5,2,0,6
h,8,8,1,7,8
i,2,3,5,2,1
j,9,3,7,6,5


In [18]:
# 두 개 이상의 컬럼 제거하려면 리스트 형식으로 컬럼명을 묶어주어야 함
sample_df.drop(['var_1', 'var_2'], axis=1)

Unnamed: 0,var_3,var_4,var_5
a,1,4,3
b,3,7,1
c,6,3,5
d,5,6,7
e,7,8,3
f,8,9,4
g,2,0,6
h,1,7,8
i,5,2,1
j,7,6,5


In [19]:
sample_df.drop(['a','b','c'])

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
d,1,4,5,6,7
e,4,5,7,8,3
f,5,4,8,9,4
g,7,5,2,0,6
h,8,8,1,7,8
i,2,3,5,2,1
j,9,3,7,6,5


### 데이터프레임의 인덱스 변경
- reset_index()

In [20]:
sample_df.reset_index()

Unnamed: 0,index,var_1,var_2,var_3,var_4,var_5
0,a,2,2,1,4,3
1,b,4,3,3,7,1
2,c,5,4,6,3,5
3,d,1,4,5,6,7
4,e,4,5,7,8,3
5,f,5,4,8,9,4
6,g,7,5,2,0,6
7,h,8,8,1,7,8
8,i,2,3,5,2,1
9,j,9,3,7,6,5


In [21]:
# 인덱스 기본값인 숫자로 대체됨
# 기존 인덱스를 제거하기 위해서 drop이라는 매개변수 사용하며 됨
sample_df.reset_index(drop=True)

Unnamed: 0,var_1,var_2,var_3,var_4,var_5
0,2,2,1,4,3
1,4,3,3,7,1
2,5,4,6,3,5
3,1,4,5,6,7
4,4,5,7,8,3
5,5,4,8,9,4
6,7,5,2,0,6
7,8,8,1,7,8
8,2,3,5,2,1
9,9,3,7,6,5


In [22]:
# var_1을 인덱스로 설정하기
# set_index()
sample_df.set_index('var_1')

Unnamed: 0_level_0,var_2,var_3,var_4,var_5
var_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,2,1,4,3
4,3,3,7,1
5,4,6,3,5
1,4,5,6,7
4,5,7,8,3
5,4,8,9,4
7,5,2,0,6
8,8,1,7,8
2,3,5,2,1
9,3,7,6,5
