# 인덱스 활용

* 특정 열을 행 인덱스로 설정

set_index() 메소드를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정한다.
단, 원본 데이터프레임을 바꾸지 않고 새로운 데이터프레임 객체를 반환한다.
원본 객체에 반영하려면 원래 변수에 할당하거나 inplace=True 옵션 사용하라!

        특정 열을 행 인덱스로 설정 : DataFrame.set_index(['열 이름'] 또는 '열 이름')

set_index()를 사용하여 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제된다.

In [1]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장 
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [2]:
ndf = df.set_index(['이름'])
ndf

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [3]:
ndf2 = df.set_index('음악')
ndf2

Unnamed: 0_level_0,이름,수학,영어,체육
음악,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
85,서준,90,98,100
95,우현,80,89,90
100,인아,70,95,90


In [4]:
ndf3 = df.set_index(['수학', '음악']) # 멀티인덱스(MultiIndex)
ndf3

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,영어,체육
수학,음악,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
90,85,서준,98,100
80,95,우현,89,90
70,100,인아,95,90


* 행 인덱스 재배열

reindex() 메소드를 사용하여 데이터프레임의 행 인덱스를 새로운 배열로 재지정할 수 있다.

            행 인덱스 재지정 : DataFrame.reindex(새로운 인덱스 배열)

기존 데이터프레임에 존재하지 않는 행 인덱스가 새로게 추가될 경우 그 행의 데이터 값은 NaN (데이터가 존재하지않음) 값이 입력된다. 이럴 경우 데이터가 NaN 대신 유효한 값으로 채우려면 fill_value 옵션에 원하는 값을 입력한다.


In [5]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [6]:
# 존재하지 않는 행 인덱스가 새롭게 추가된 r3, r4의 데이터 값은 NaN
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [7]:
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value=0)
ndf2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


* 행 인덱스 초기화

reset_index() 메소드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화한다. 이때 기존 행 인덱스는 열로 이동한다.

        정수형 위치 인덱스로 초기화 : DataFrame.reset_index()

In [8]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [9]:
# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


* 행 인덱스를 기준으로 데이터프레임 정렬

sort_index() 메소드를 활용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬한다. ascending 옵션을 사용하여 오름차순 또는 내림차순 결정.

        행 인덱스 기준 정렬 : DataFrame.sort_index()
        ascending=False : 내림차순
        ascending=True : 오름차순

In [10]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [12]:
# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [13]:
# 특정 열의 데이터 값을 기준으로 데이터프레임 정렬
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data, index=['r0', 'r1', '2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
2,3,6,9,12,15


In [14]:
# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


# 산술연산

판다스 객체의 산술연산은 내부적으로 3단계 프로세스를 거친다. 행/열 인덱스를 기준으로 모든 원소를 정렬한다. 동일한 위치에 있는 원소끼리 일대일로 대응시킨다. 일대일 대응이 되는 원소끼리 연산을 처리한다. 단, 이때 대응되는 원소가 없으면 NaN으로 처리한다.

#### 시리즈 연산

* 시리즈 vs 숫자

시리즈 객체에 어떤 숫자를 더하면 시리즈의 개별 원소에 각각 숫자를 더하고 계산한 결과를 시리즈 객체로 반환한다. 사칙연산 모두 가능하다.

        Series객체 + 연산자 + 숫자

In [15]:
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student1

국어    100
영어     80
수학     90
dtype: int64

In [16]:
# 학생의 과목별 점수를 200으로 나누기
percentage = student1 / 200
percentage, type(percentage)

(국어    0.50
 영어    0.40
 수학    0.45
 dtype: float64, pandas.core.series.Series)

* 시리즈 vs 시리즈

        Series1 + 연산자 + Series2

In [18]:
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90, '영어':80})

In [19]:
student1

국어    100
영어     80
수학     90
dtype: int64

In [20]:
student2

수학    80
국어    90
영어    80
dtype: int64

In [21]:
# 두 학생의 과목별 점수로 사칙연산 수행
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2

In [22]:
# 사칙연산 결과를 데이터프레임으로 합치기 (시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,190.0,170.0,160.0
뺄셈,10.0,10.0,0.0
곱셈,9000.0,7200.0,6400.0
나눗셈,1.111111,1.125,1.0


인덱스로 주어진 과목들의 순서가 다르지만, 판다스는 같은 인덱스를 찾아 정렬한 후 같은 인덱스별로 연산한다.

연산을 하는 두 시리즈의 원소 개수가 다르거나, 시리즈의 크기가 같더라도 인덱스 값이 다를 수 있다. 이처럼 어느 한쪽에만 인덱스가 존재하고 다른 쪽에는 짝을 지을 수 있는 동일한 인덱스가 없는 경우 정상적으로 연산을 처리할 수 없다. 판다스는 유효한 값이 존재하지 않는다는 의미를 갖는 NaN으로 처리한다. 따라서 연산의 결과 또한 NaN으로 입력된다.

동일한 인덱스가 양쪽에 모두 존재하여 서로 대응되더라도 어느 한 쪽의 데이터 값이 NaN인 경우가 있다. 이때도 연산의 대상인 데이터가 존재하지 않기 때문에 결과는 NaN이 된다.

In [23]:
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

In [24]:
student1

국어     NaN
영어    80.0
수학    90.0
dtype: float64

In [25]:
student2

수학    80
국어    90
dtype: int64

In [26]:
# 두 학생의 과목별 점수로 사칙연산 수행 (시리즈 vs 시리즈)
addition = student1 + student2               #덧셈
subtraction = student1 - student2            #뺄셈
multiplication = student1 * student2         #곱셈
division = student1 / student2               #나눗셈

In [27]:
# 사칙연산 결과를 데이터프레임으로 합치기 (시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division],
                      index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,,170.0,
뺄셈,,10.0,
곱셈,,7200.0,
나눗셈,,1.125,


* 연산 메소드

객체 사이에 공통 인덱스가 없거나 NaN 값이 포함된 경우 연산 결과는 NaN으로 반환되었다. 이런 상황을 피하려면 연산 메소드에서 fill_value 옵션을 설정하여 적용한다.

        Series1.add(Series2, fill_value=0)


In [28]:
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

In [29]:
student1

국어     NaN
영어    80.0
수학    90.0
dtype: float64

In [30]:
student2

수학    80
국어    90
dtype: int64

In [33]:
# 두 학생의 과목별 점수로 사칙연산 수행(연산 메소드 사용)
sr_add = student1.add(student2, fill_value=0)
sr_sub = student1.sub(student2, fill_value=0)
sr_mul = student1.mul(student2, fill_value=0)
sr_div = student1.div(student2, fill_value=0)

# 사칙연산 결과로 데이터프레임으로 합치기 (시리즈 -> 데이터프레임)
result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div],
                      index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


#### 데이터프레임 연산

행/열 인덱스를 기준으로 정렬하고 일대일 대응되는 원소끼리 연산을 처리

* 데이터프레임 vs 숫자

데이터프레임에 어떤 숫자를 더하면 모든 원소에 숫자를 더한다. 사칙연산 모두 가능. 기존 데이터프레임의 형태를 그대로 유지한 채 원소 값만 바뀐다.

        DataFrame + 연산자 + 숫자

In [39]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df[:10]

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05
5,,8.4583
6,54.0,51.8625
7,2.0,21.075
8,27.0,11.1333
9,14.0,30.0708


In [40]:
type(df)

pandas.core.frame.DataFrame

In [42]:
# 데이터프레임에 숫자 10 더하기
addition = df + 10
addition[:10]

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05
5,,18.4583
6,64.0,61.8625
7,12.0,31.075
8,37.0,21.1333
9,24.0,40.0708


위 결과를 보면 숫자 10이 모든 원소에 다 더해지고, 데이터프레임의 크기와 모양은 변하지 않는다. 

* 데이터프레임 vs 데이터프레임

각 데이터프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산한다. 데이터프레임 중 어느 한쪽에 원소가 존재하지 않거나 NaN이면 연산 결과는 NaN으로 처리된다.

        DataFrame1 + 연산자 + DataFrame2


In [43]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df.tail()

Unnamed: 0,age,fare
886,27.0,13.0
887,19.0,30.0
888,,23.45
889,26.0,30.0
890,32.0,7.75


In [44]:
type(df)

pandas.core.frame.DataFrame

In [45]:
# 데이터프레임에 숫자 10 더하기
addition = df + 10
addition.tail()

Unnamed: 0,age,fare
886,37.0,23.0
887,29.0,40.0
888,,33.45
889,36.0,40.0
890,42.0,17.75


In [46]:
# 데이터프레임끼리 연산
subtraction = addition - df
subtraction.tail()

Unnamed: 0,age,fare
886,10.0,10.0
887,10.0,10.0
888,,10.0
889,10.0,10.0
890,10.0,10.0
