# 특정 열을 행 인덱스로 설정
* set_index() 메소드를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정함
* 원본 데이터프레임을 바꾸지 않고, 새로운 객체를 반환한다. inplace=True를 이용!

### 예제1-16. 특정 열을 행 인덱스로 설정
* set_index()메소드를 사용하여 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제됨

In [1]:
import pandas as pd

# DataFrame()함수로 데이터프레임 변환. 변수 df에 저장
exam_data={'이름':['서준','우현','인아'],
          '수학':[90,80,70],
          '영어':[98,89,95],
          '음악':[95,95,100],
          '체육':[100,90,90]}

df=pd.DataFrame(exam_data)
print(df)

# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정
ndf = df.set_index(['이름'])
print(ndf)
print('\n')
##set_index()메소드를 사용하여 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제됨
ndf2 = ndf.set_index(['음악'])
print(ndf2)
print('\n')
ndf3 = ndf.set_index(['수학','음악'])
print(ndf3)
print('\n')

   이름  수학  영어   음악   체육
0  서준  90  98   95  100
1  우현  80  89   95   90
2  인아  70  95  100   90
    수학  영어   음악   체육
이름                  
서준  90  98   95  100
우현  80  89   95   90
인아  70  95  100   90


     수학  영어   체육
음악              
95   90  98  100
95   80  89   90
100  70  95   90


        영어   체육
수학 음악          
90 95   98  100
80 95   89   90
70 100  95   90




### 예제1-17. 행 인덱스 재배열
* 새롭게 추가된 'r3','r4' 인덱스에 해당하는 모든 열에 대해 NAN 값이 입력된다. 이럴 경우, 데이터가 존재하지 않는 다는 뜻의 NAN대신 유효한 값으로 채우려면 fill_value 옵션에 원하는 값(0)을 입력한다. NAN은 "Not a Number"라는 뜻이다. 유효한 값이 존재하니 않는 누락데이터를 말한다.

In [2]:
import pandas as pd

#딕셔너리 정의
dict_data={'c0':[1,2,3],
          'c1':[4,5,6],
          'c2':[7,8,9],
          'c3':[10,11,12],
          'c4':[13,14,15]}

#딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0,r1,r2]로 지정
df=pd.DataFrame(dict_data,index=['r0','r1','r2'])
print(df)
print('\n')

new_index=['r0','r1','r2','r3','r4']
ndf=df.reindex(new_index)
print(ndf)
print('\n')

#reindex로 발생한 NAN값을 숫자로 채우기
ndf2=df.reindex(new_index, fill_value=0)
print(ndf2)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


### 예제 1-18. reset_index()

In [3]:
import pandas as pd

#딕셔너리 정의
dict_data={'c0':[1,2,3],
          'c1':[4,5,6],
          'c2':[7,8,9],
          'c3':[10,11,12],
          'c4':[13,14,15]}

#딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0,r1,r2]로 지정
df=pd.DataFrame(dict_data,index=['r0','r1','r2'])
print(df)
print('\n')

#행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


### 예제1-19. 행 인덱스를 기준으로 데이터 정렬

In [4]:
import pandas as pd

#딕셔너리 정의
dict_data={'c0':[1,2,3],
          'c1':[4,5,6],
          'c2':[7,8,9],
          'c3':[10,11,12],
          'c4':[13,14,15]}

#딕셔너리를 데이터프레임으로 변환. 인덱스를 [r0,r1,r2]로 지정
df=pd.DataFrame(dict_data,index=['r0','r1','r2'])
print(df)
print('\n')

#내림차순으로 행 인덱스 정렬
ndf=df.sort_index(ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


# 산술연산
판다스 객체의 산술연산은 내부적으로 3단계의 프로세스를 거친다.
* 행/열 인덱스를 기준으로 모든 원소를 정렬한다.
* 동일한 위치에 있는 원소끼리 일대일로 대응시킨다.
* 일대일 대응이 되는 원소끼리 연산을 처리한다.(이때, 대응되는 원소가 없으면 NaN으로 처리한다.)

In [5]:
import pandas as pd

#딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100,'영어':80,'수학':90})
print(student1)
print('\n')

#학생의 과목별 점수를 200으로 나누기
percentage = student1/200

print(percentage)
print('\n')
print(type(percentage))

국어    100
영어     80
수학     90
dtype: int64


국어    0.50
영어    0.40
수학    0.45
dtype: float64


<class 'pandas.core.series.Series'>


### 예제1-22. 시리즈 연산

In [6]:
import pandas as pd

#딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100,'영어':80,'수학':90})
student2 = pd.Series({'수학':90, '국어':90,'영어':80})

print(student1)
print('\n')
print(student2)
print('\n')

#두 학생의 과목별 점수로 사칙연산 수행
addition=student1+student2 #덧셈
subtraction=student1-student2 #뺄셈
multipulation=student1*student2 #곱셈
division=student1/student2 #나눗셈
print(type(division))
print('\n')

#사칙연산 결과를 데이터프레임으로 합치기(시리즈->데이터프레임)
result=pd.DataFrame([addition,subtraction,multipulation,division],index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

국어    100
영어     80
수학     90
dtype: int64


수학    90
국어    90
영어    80
dtype: int64


<class 'pandas.core.series.Series'>


              국어      수학      영어
덧셈    190.000000   180.0   160.0
뺄셈     10.000000     0.0     0.0
곱셈   9000.000000  8100.0  6400.0
나눗셈     1.111111     1.0     1.0


### 예제1-23. NaN을 포함한 시리즈 연산

In [9]:
import pandas as pd
import numpy as np

#딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan,'영어':80,'수학':90})
student2 = pd.Series({'수학':90, '국어':90})

print(student1)
print('\n')
print(student2)
print('\n')

#두 학생의 과목별 점수로 사칙연산 수행
addition=student1+student2 #덧셈
subtraction=student1-student2 #뺄셈
multipulation=student1*student2 #곱셈
division=student1/student2 #나눗셈
print(type(division))
print('\n')

#사칙연산 결과를 데이터프레임으로 합치기(시리즈->데이터프레임)
result=pd.DataFrame([addition,subtraction,multipulation,division],index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    90
국어    90
dtype: int64


<class 'pandas.core.series.Series'>


     국어      수학  영어
덧셈  NaN   180.0 NaN
뺄셈  NaN     0.0 NaN
곱셈  NaN  8100.0 NaN
나눗셈 NaN     1.0 NaN


### 예제1-24. 누락 데이터처리

In [15]:
import pandas as pd
import numpy as np

#딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan,'영어':80,'수학':90})
student2 = pd.Series({'수학':90, '국어':90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행(연산 메소드 사용)
sr_add=student1.add(student2, fill_value=0) #덧셈
sr_sub=student1.sub(student2, fill_value=0) #뺄셈
sr_mul=student1.mul(student2, fill_value=0) #곱셈
sr_div=student1.div(student2, fill_value=0) #나눗셈

# 사칙 연산 결과를 데이터프레임으로 합치기(시리즈->데이터프레임)
result = pd.DataFrame([sr_add,sr_sub,sr_mul,sr_div],index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    90
국어    90
dtype: int64


       국어      수학    영어
덧셈   90.0   180.0  80.0
뺄셈  -90.0     0.0  80.0
곱셈    0.0  8100.0   0.0
나눗셈   0.0     1.0   inf


### 예제1-25. 데이터프레임 연산

In [18]:
import pandas as pd
import seaborn as sns

#titanic 데이터셋에서 age,fare 2개의 열을 선택하여 데이터프레임 만들기
titanic=sns.load_dataset('titanic')
df=titanic.loc[:,['age','fare']]
print(df.head())
print('\n')
print(type(df))
print('\n')

#데이터프레임에 숫자 10 더하기
addition = df+10
print(addition.head())
print('\n')
print(type(addition))

#데이터프레임끼리 연산하기
subtraction=addition-df
print(subtraction.head())
print('\n')
print(type(subtraction))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


<class 'pandas.core.frame.DataFrame'>
    age  fare
0  10.0  10.0
1  10.0  10.0
2  10.0  10.0
3  10.0  10.0
4  10.0  10.0


<class 'pandas.core.frame.DataFrame'>
