## 인덱스 활용

#### 특정 열을 행 인덱스로 설정

#####
- set_index() 메서드를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정
- 원본 데이터프레임을 바꾸지 않고 새로운 데이터프레임 객체를 반환함

In [None]:
# 특정 열을 행 인덱스로 설정
DataFrame객체.set_index(['열 이름'] 또는 '열 이름')

In [4]:
# 1.16_set_index.py

import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'이름' : ['서준', '우현', '인아'],
             '수학' : [90, 80, 70], 
             '영어' : [98, 89, 95],
             '음악' : [85, 95, 100], 
             '체육' : [100, 95, 90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정
ndf = df.set_index(['이름']) # '이름' 열을 행 인덱스로 설정
print(ndf)
print('\n')
ndf2 = ndf.set_index('음악') # ndf의 '음악' 열을 행 인덱스로 지정하여 생성되는 데이터프레임
print(ndf2)
print('\n')
ndf3 = ndf.set_index(['수학', '음악']) # 2개의 열을 행 인덱스로 지정
print(ndf3)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   95
2  인아  70  95  100   90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   95
인아  70  95  100   90


     수학  영어   체육
음악              
85   90  98  100
95   80  89   95
100  70  95   90


        영어   체육
수학 음악          
90 85   98  100
80 95   89   95
70 100  95   90


#####
- set_index() 메서드를 사용하여 행 인덱스를 사로 지정함녀 기존 행 인덱스는 삭제

#### 행 인덱스 재배열

#####
- reindex() 메소드를 사용하면 데이터프레임의 행 인덱스를 새로운 배열로 재지정할 수 있음
- 기존 객체를 변경ㄹ하지 않고 새로운 데이터프레임 객체를 반환

In [None]:
# 새로운 배열로 행 인덱스를 재지정
DataFrame객체.reindex(새로운 인덱스 배열)

In [6]:
# 1.17_reindex.py

import pandas as pd

# 딕셔너리 정의
dict_data = {'c0': [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])
print(df)
print('\n')

# 인덱스를 [r0, r1, r2, r3, r4]로 재지정
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
print(ndf)
print('\n')

# reindex로 발생한 NaN 값을 숫자 0으로 채우기
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value = 0)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN




#####
- 기존 데이터프레임에 존재하지 않는 행 인덱스가 새롭게 추가되는 경우 그 행의 데이터 값은 NaN(유효한 값이 존재하지 않는 누락 데이터) 값이 입력됨
- NaN 대신 유효한 값으로 채우려면 fill_value 옵션에 원하는 값을 입력

#### 행 인덱스 초기화

#####
- reset_index() 메소드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화
- 기존 행 인덱스는 열로 이동
- 새로운 데이터프레임 객체를 반환

In [None]:
# 정수형 위치 인덱스로 초기화
DataFrame객체.reset_index()

In [7]:
# 1.18_reset_index.py

import pandas as pd

# 딕셔너리 정의
dict_data = {'c0': [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])
print(df)
print('\n')

# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


#### 행 인덱스를 기준으로 데이터프레임 정렬

#####
- sort_index() 메소드를 활용하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬
- ascending 옵션을 사용하여 오름차순 또는 내림차순 설정
- 새롭게 정렬된 데이터프레임 반환

In [None]:
# 행 인덱스 기준 정렬
DataFrame객체.sort_index()

In [8]:
# 1.19_sort_index.py

import pandas as pd

# 딕셔너리 정의
dict_data = {'c0': [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])
print(df)
print('\n')

# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending = False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


In [None]:
# 특정 열을 기준으로 데이터프레임 정렬
# sort_value() 메서드 활용
# 새롭게 정렬된 데이터프레임 객체 반환

# 열 기준 정렬
DataFrame객체.sort_values()

In [9]:
# 1.20_sort_value

import pandas as pd

# 딕셔너리 정의
dict_data = {'c0': [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11, 12], 'c4' : [13, 14, 15]}

# 딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])
print(df)
print('\n')

# c1 열을 기준으로 데이터프레임을 내림차순 정렬
ndf = df.sort_values(by = 'c1', ascending = False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


## 산술 연산

### 시리즈 연산

#### 시리즈 vs 숫자

#####
- 시리즈 객체에 어떤 숫자를 더하면 시리즈의 개별 원소에 각각 숫자를 더하고 계산한 결과를 시리즈 객체로 반환

In [None]:
# 시리즈와 숫자 연산
Series객체 + 연산자(+, -, *, /) + 숫자

In [10]:
# 1.21_series_ to_number.py

# 라이브러리 불러오기
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어' : 100, '영어' : 80, '수학' : 90})
print(student1)
print('\n')

# 학생의 과목별 점수를 200으로 나누기
percentage = student1 / 200

print(percentage)
print('\n')
print(type(percentage))

국어    100
영어     80
수학     90
dtype: int64


국어    0.50
영어    0.40
수학    0.45
dtype: float64


<class 'pandas.core.series.Series'>


#####
- 연산 결과를 원래 인덱스오 동일한 인덱스 순서대로 매칭하여 시리즈를 반환

#### 시리즈 vs 시리즈

#####
- 시리즈와 시리즈 사이에 사칙연산을 처리하는 방법
- 시리즈의 모든 인덱스에 대하여 같은 인덱스를 가진 원소끼리 계산
- 인덱스에 연산 결과를 매칭하여 새 시리즈 반환

In [None]:
# 시리즈와 시리즈 연산
Series1 + 연산자 + Series2

In [11]:
# 1.22_series_to_series

# 라이브러리 불러오기
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어' : 100, '영어' : 80, '수학' : 90})
student2 = pd.Series({'수학' : 80, '국어' : 90, '영어' : 80})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행
addition = student1 + student2 # 덧셈
subtraction = student1 - student2 # 뺄셈
multiplication = student1 * student2 # 곱셈
division = student1 / student2 # 나눗셈
print(type(division))
print('\n')

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])
print(result)

국어    100
영어     80
수학     90
dtype: int64


수학    80
국어    90
영어    80
dtype: int64


<class 'pandas.core.series.Series'>


              국어        수학      영어
덧셈    190.000000   170.000   160.0
뺄셈     10.000000    10.000     0.0
곱셈   9000.000000  7200.000  6400.0
나눗셈     1.111111     1.125     1.0


#####
- 인덱스로 주어진 과목명의 순서가 다르지만, 판다스는 같은 과목명(인덱스)을 찾아 정렬한 후 같은 과목명(인덱스)의 점수(데이터 값)끼리 덧셈
- 덧셈의 결과를 과목명에 매칭시키고 새로운 시리즈 객체 반환
- 두 시리즈의 원소 개수가 다르거나, 시리즈의 크기는 같지만 인덱스 값이 다를 경우      
-> 정상적으로 연산 처리x. NaN으로 처리
- 동알한 인덱스가 양쪽에 모두 존재하여 서로 대응되더라고 어느 한 쪽의 데이터 값이 NaN인 경우       
-> 결과는 Nan

In [12]:
# 1.23_series_to_series2.py

# 라이브러리 불러오기
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어' : np.nan, '영어' : 80, '수학' : 90})
student2 = pd.Series({'수학' : 80, '국어' : 90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행(시리즈 vs 시리즈)
# 두 학생의 과목별 점수로 사칙연산 수행
addition = student1 + student2 # 덧셈
subtraction = student1 - student2 # 뺄셈
multiplication = student1 * student2 # 곱셈
division = student1 / student2 # 나눗셈
print(type(division))
print('\n')

# 사칙연산 결과를 데이터프레임으로 합치기
result = pd.DataFrame([addition, subtraction, multiplication, division],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])
print(result)

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    80
국어    90
dtype: int64


<class 'pandas.core.series.Series'>


     국어        수학  영어
덧셈  NaN   170.000 NaN
뺄셈  NaN    10.000 NaN
곱셈  NaN  7200.000 NaN
나눗셈 NaN     1.125 NaN


#####
- NaN을 포함한 연산 결과는 NaN으로 처리
- 존재하지 않는 값이 있는 연산이 result 객체에 반환되는 원소값은 모두 NaN

#### 연산 메서드

#####
- 연산에서 객체 사이에 공통 인덱스가 없거나 NaN이 포함된 경우 연산 결과는 NaN으로 반환
- fill_value -> 누락 데이터 NaN 대신 숫자 0을 입력

In [None]:
# 연산 메서드 사용(시리즈와 시리즈의 덧셈)
Series1.add(Series2, fill_value = 0)

In [14]:
# 1.24_series_to_series3.py

# 라이브러리 불러오기
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어' : np.nan, '영어' : 80, '수학' : 90})
student2 = pd.Series({'수학' : 80, '국어' : 90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행(연산 메서드 사용)
sr_add = student1.add(student2, fill_value = 0) # 덧셈
sr_sub = student1.sub(student2, fill_value = 0) # 뺄셈
sr_mul = student1.mul(student2, fill_value = 0) # 곱셈
sr_div = student1.div(student2, fill_value = 0) # 나눗셈

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 -> 데이터프레임)
result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])
print(result)


국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    80
국어    90
dtype: int64


       국어        수학    영어
덧셈   90.0   170.000  80.0
뺄셈  -90.0    10.000  80.0
곱셈    0.0  7200.000   0.0
나눗셈   0.0     1.125   inf


#####
- student1의 국어 점수와 student2의 영어 점수는 NaN 대신 0으로 입력

### 데이터프레임 연산

#####
- 데이터프레임 -> 여러 시리즈가 한데 모인 것. 
- 행/열 인덱스를 기준으로 정렬, 일대일 대응되는 원소끼리 연산

#### 데이터프레임 vs 숫자

#####
- 데이터프레임에 어떤 숫자를 더하면 모든 원소에 숫자를 더함
- 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능
- 기존 데이터프레임의 형태를 그대로 유지한 채 원소 값만 새로운 계산값으로 바뀜
- 새로운 데이터프레임 객체로 반환

In [None]:
# 데이터프레임과 숫자 연산
DataFrame객체 + 연산자 + 숫자

In [16]:
# 라이브러리 불러오기
import pandas as pd
import seaborn as sns

#titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.head()) ## 첫 5행만 표시
print('\n')
print(type(df))
print('\n')

# 데이터프레임에 숫자 10 더하기
addition = df + 10
print(addition.head()) # 첫 5행만 표시
print('\n')
print(type(addition))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


<class 'pandas.core.frame.DataFrame'>


#####
- 타이타닉(titanic) 데이터셋 사용. load_dataset() 함수로 불러옴
- 데이터프레임에 숫자 10을 더한 결과는 동일한 형태의 데이터프레임으로 정리됨
- 모든 원소에 숫자 10을 더하고 데이터프레임의 크기와 모양은 변하지x


#### 데이터프레임 vs 데이터프레임

####
- 각 데이터프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산
- 동일한 위치의 원소끼리 계산한 결과값을 원래 위치에 다시 입력하여 데이터프레임을 만듦
- 데이터프레임 중에서 어느 한 쪽에 원소가 존재하지 않거나 NaN이면 연산 결과는 NaN으로 처리

In [None]:
# 데이터프레임의 연산자 활용
DaraFrame1 + 연산자 + DataFrame2

In [17]:
# 라이브러리 불러오기
import pandas as pd
import seaborn as sns

#titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
print(df.tail()) ## 마지막 5행 표시
print('\n')
print(type(df))
print('\n')

# 데이터프레임에 숫자 10 더하기
addition = df + 10
print(addition.tail())
print('\n')
print(type(addition))
print('\n')

# 데이터프레임끼리 연산하기(addition - df)
subtraction = addition - df
print(subtraction.tail())
print('\n')
print(type(subtraction))

      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


<class 'pandas.core.frame.DataFrame'>


      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75


<class 'pandas.core.frame.DataFrame'>


      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


<class 'pandas.core.frame.DataFrame'>


#####
- df에 숫자 10을 더하여 데이터프레임(addition)을 만듦
- addition에서 df를 뺌 -> 숫자 10을 원소로만 갖는 subtraction이 반환
- NaN이 포함된 경우 NaN으로 처리