# Index 다루기

- 인덱스의 일부 변경하는 경우

- 특정 컬럼을 인덱스로 설정하는 경우

- 기존 인덱스에 새로 추가하는 경우

- 0-base 인덱스로 리셋하는 경우

In [3]:
# 모듈 로딩
import pandas as pd

# DF 객체 생성
# 성적 DataFrame 객체 생성
df=pd.DataFrame({'이름':['서준', '우현', '인아'],
           '수학':[90, 80, 70], 
           '영어':[98, 89, 10], 
           '음악':[85, 95, 100], 
           '체육':[100, 90, 90]})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   수학      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   음악      3 non-null      int64 
 4   체육      3 non-null      int64 
dtypes: int64(4), object(1)
memory usage: 248.0+ bytes


In [5]:
# DF의 속성 읽기 -> index, columns, shape
print(f'인덱스 => {df.index}')
print(f'컬럼 => {df.columns}')
print(f'shape => {df.shape}')

인덱스 => RangeIndex(start=0, stop=3, step=1)
컬럼 => Index(['이름', '수학', '영어', '음악', '체육'], dtype='object')
shape => (3, 5)


# 특정 컬럼을 인덱스로 설정

- 조건 : 중복 X / Nan(Not a Number) X : 빈칸

- 생성 : DF객체변수명.set_index('컬럼명', inplace=False) # 컬럼이 1개일 때
-        DF객체변수명.set_index(['컬럼명', '컬럼명'], inplace=False)   # 컬럼이 여러 개일 때


In [14]:
# 이름 컬럼 => 행 인덱스 설정
df.set_index('이름', inplace=True)    # 얘는 복사본

KeyError: "None of ['이름'] are in the columns"

In [15]:
df.index

Index(['서준', '우현', '인아'], dtype='object', name='이름')

# 인덱스 초기화(리셋)

- 기존의 컬럼 인덱스 => 컬럼으로 돌려줌
- 메서드 : DF객체변수명.reset_index()  =>  inplace=False. 파라미터로 설정

In [17]:
df.reset_index(inplace=True)

In [18]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,10,100,90


In [22]:
# 행(row) 추가
df.loc[3]=['서준', 100, 30,80, 20]
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,10,100,90
3,서준,100,30,80,20


In [25]:
# 특정 컬럼 인덱스로 설정   # 멀티인덱스 (이름만 하면 중복돼서 인덱스 못씀)
df2=df.set_index(['이름', '수학'])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,영어,음악,체육
이름,수학,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,10,100,90
서준,100,30,80,20


# 인덱스 재배열 설정

- 기존 인덱스에 변경을 가하는 것

- 원본 적용 inplace=False 기본값

- 메서드 : DF객체변수명.reindex([인덱스 리스트], fill_value=값)

In [26]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,10,100,90
3,서준,100,30,80,20


In [27]:
df.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [29]:
df1=df.reindex([0, 1, 2, 3, 4, 5], fill_value=0)
df1

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,10,100,90
3,서준,100,30,80,20
4,0,0,0,0,0
5,0,0,0,0,0


In [32]:
df1=df.reindex([0, 'a'], fill_value=0)    # 있던 건 갖고오고 없는 건 추가
df1.shape

(2, 5)

In [33]:
df1

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
a,0,0,0,0,0


# 인덱스 & 컬럼 일부분 변경

- 기존 인덱스/컬럼에서 일부분 변경하는 메서드

- DF객체변수명.rename(index={기존:새}, columns={기존:새}, inplace=False)

In [34]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,10,100,90
3,서준,100,30,80,20


In [36]:
# 수학 => math, 음악 => music으로 변경
df.rename(columns={'수학':'math','음악':'music'}, inplace=True)
df

Unnamed: 0,이름,math,영어,music,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,10,100,90
3,서준,100,30,80,20
