### 1. 데이터과학자가 판다스를 배우는 이유
* 판다스 라이브러리는 데이터를 수집하고 정리하는 데 최적화된 도구이며, 오픈소스라서 무료로 사용할 수 있다.
* 데이터과학의 80~90% 업무를 처리할 수 있고, 데이터과학자에게 필요한 기본적이면서도 아주 중요한 도구를 갖추게 된다.

### 2. 판다스 자료구조
#### 2-1. 시리즈(Series)
* 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다.
* 시리즈의 인덱스(index)는 데이터 값(value)과 일대일 대응이 된다.

In [1]:
# 딕셔너리 → 시리즈 변환
import pandas as pd

dict_data = {'a':1, 'b':2, 'c':3}

sr = pd.Series(dict_data)

print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [5]:
# 시리즈 인덱스
import pandas as pd

list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)
print('\n')

idx = sr.index
val = sr.values
print(idx)
print(val)

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object


RangeIndex(start=0, stop=5, step=1)
['2019-01-02' 3.14 'ABC' 100 True]


In [4]:
# 시리즈 원소 선택
import pandas as pd

# 튜플을 시리즈로 변환(인덱스 옵션 지정)
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)
print('\n')

# 원소를 1개 선택
print(sr[0])
print(sr['이름'])
print('\n')

# 여러 개의 원소를 선택(인덱스 리스트 활용)
print(sr[[1,2]])
print(sr[['생년월일','성별']])
print('\n')

# 여러 개의 원소를 선택(인덱스 범위 지정)
print(sr[1:2])
print(sr['생년월일':'성별'])

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


영인
영인


생년월일    2010-05-01
성별               여
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


#### 2-2. 데이터프레임
* 데이터프레임은 행과 열로 만들어지는 2차원 배열 구조로 마이크로소프트 엑셀과 관계형 데이터베이스 등 컴퓨터 관련 다양한 분야에서 사용된다.

In [7]:
# 딕셔너리 → 데이터프레임 변환
import pandas as pd

# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장
df = pd.DataFrame(dict_data)

# df의 자료형 출력
print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [11]:
# 행 인덱스/열 이름 설정
import pandas as dpd

df = pd.DataFrame([[15,'남','덕영중'], [17,'여','수리중']],
                   index=['준서', '예은'],
                   columns=['나이','성별','학교'])

# 행 인덱스, 열 이름 확인하기
print(df)
print(df.index)
print(df.columns)

df.index=['학생1','학생2']
df.columns=['연령','남녀','소속']

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중
Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [12]:
# 행 인덱스/열 이름 변경
import pandas as pd

df = pd.DataFrame([[15,'남','덕영중'], [17,'여','수리중']],
                   index=['준서', '예은'],
                   columns=['나이','성별','학교'])

df.rename(columns={'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)

df.rename(index={'준서':'학생1', '예은':'학생2'}, inplace=True)

print(df)

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


In [7]:
# 행 삭제
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)
print('\n')

df2 = df[:]
df2.drop('우현', inplace=True)
print(df2)
print('\n')

df3 = df[:]
df3.drop(['우현','인아'], axis=0, inplace=True)
print(df3)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


    수학  영어  음악   체육
서준  90  98  85  100


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [8]:
# 열 삭제
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)
print('\n')

df4 = df.copy()
df4.drop('수학', axis=1, inplace=True)
print(df4)
print('\n')

df5 = df.copy()
df5.drop(['영어', '음악'], axis=1, inplace=True)
print(df5)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


    수학   체육
서준  90  100
우현  80   90
인아  70   90


In [15]:
# 행 선택
# 데이터프레임의 행 데이터를 선택하기 위해서는 loc(인덱스 이름)와 iloc(정수형 위치 인덱스) 인덱서를 사용한다.
import pandas as pd

exam_data = {'수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)
print('\n')

label1 = df.loc['서준']
position1 = df.iloc[0]
print(label1)
print('\n')
print(position1)
print('\n')

label2 = df.loc[['서준','우현']]
position2 = df.iloc[[0,1]]
print(label2)
print('\n')
print(position2)
print('\n')

# 인덱스 이름을 범위로 지정한 label3의 경우에는 범위의 마지막 값인 '우현' 학생의 점수가 포함되지만, 정수형 위치 인덱스를 사용한 position3에는 범위의 마지막 값인 '우현' 학생의 점수가 제외된다.
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]
print(label3)
print('\n')
print(position3)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100


In [17]:
# 열 선택
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print(type(df))
print('\n')

math1 = df['수학']
print(math1)
print(type(math1))
print('\n')

english = df.영어
print(english)
print(type(english))
print('\n')

music_gym = df[['음악','체육']]
print(music_gym)
print(type(music_gym))
print('\n')

math2 = df[['수학']]
print(math2)
print(type(math2))

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90
<class 'pandas.core.frame.DataFrame'>


0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>


0    98
1    89
2    70
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>


    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>


   수학
0  90
1  80
2  70
<class 'pandas.core.frame.DataFrame'>


In [25]:
# 원소 선택
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경 사항 반영
df.set_index('이름', inplace=True)
print(df)
print('\n')

a = df.loc['서준', '음악']
print(a)
b = df.iloc[0,2]
print(b)
print('\n')

# 데이터프레임 df의 특정 원소 2개 이상 선택('서준'의 '음악','체육' 점수)
c = df.loc['서준',['음악','체육']]
print(c)
d = df.iloc[0,[2,3]]
print(d)
e = df.loc['서준','음악':'체육']
print(e)
f = df.iloc[0,2:]
print(f)
print('\n')

# df 2개 이상의 행과 열에 속하는 원소들 선택('서준', '우현'의 '음악','체육' 점수)
g = df.loc[['서준','우현'], ['음악','체육']]
print(g)
h = df.iloc[[0,1], [2,3]]
print(h)
i = df.loc['서준':'우현','음악':'체육']
print(i)
j = df.iloc[0:2, 2:]
print(j)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  70  100   90


85
85


음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90


* 인덱스 이름: DataFrame 객체.loc[행 인덱스, 열 이름]
* 정수 위치 인덱스: DataFrame 객체.iloc[행 번호, 열 번호]

In [28]:
# 열 추가
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 데이터프레임 df에 '국어' 점수 열(column) 추가. 데이터 값은 80 지정
df['국어'] = 80
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90


   이름  수학  영어   음악   체육  국어
0  서준  90  98   85  100  80
1  우현  80  89   95   90  80
2  인아  70  70  100   90  80


In [29]:
# 행 추가
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 새로운 행(row) 추가 - 같은 원소 값 입력
df.loc[3] = 0
print(df)
print('\n')

# 새로운 행(row) 추가 - 원소 값 여러 개의 배열 입력
df.loc[4] = ['동규',90,80,70,60]
print(df)
print('\n')

# 새로운 행(row) 추가 - 기존 행 복사
df.loc['행5'] = df.loc[3]
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90
3   0   0   0    0    0


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90
3   0   0   0    0    0
4  동규  90  80   70   60


    이름  수학  영어   음악   체육
0   서준  90  98   85  100
1   우현  80  89   95   90
2   인아  70  70  100   90
3    0   0   0    0    0
4   동규  90  80   70   60
행5   0   0   0    0    0


* 행 추가: DataFrame.loc['새로운 행 이름'] = 데이터 값(또는 배열)

In [33]:
# 원소 값 변경
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

df.set_index('이름', inplace=True)
print(df)
print('\n')

# 데이터프레임 df의 특정 원소를 변경하는 방법: '서준'의 '체육' 점수
df.iloc[0][3] = 80
print(df)
print('\n')

df.loc['서준']['체육'] = 90
print(df)
print('\n')

df.loc['서준','체육'] = 100
print(df)
print('\n')

# 데이터프레임 df의 원소 여러 개를 변경하는 방법: '서준'의 '음악','체육' 점수
df.loc['서준', ['음악','체육']] = 50
print(df)
print('\n')

df.loc['서준', ['음악','체육']] = 100, 50
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  70  100   90


    수학  영어   음악  체육
이름                 
서준  90  98   85  80
우현  80  89   95  90
인아  70  70  100  90


    수학  영어   음악  체육
이름                 
서준  90  98   85  90
우현  80  89   95  90
인아  70  70  100  90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  70  100   90


    수학  영어   음악  체육
이름                 
서준  90  98   50  50
우현  80  89   95  90
인아  70  70  100  90


    수학  영어   음악  체육
이름                 
서준  90  98  100  50
우현  80  89   95  90
인아  70  70  100  90


In [34]:
# 행, 열 바꾸기
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 데이터프레임 df를 전치하기(메소드 활용)
df = df.transpose()
print(df)
print('\n')

# 데이터프레임 df를 다시 전치하기(클래스 속성 활용)
df = df.T
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90


      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  89   70
음악   85  95  100
체육  100  90   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90


* 행, 열 바꾸기: DataFrame 객체.transpose() 또는 DataFrame 객체.T

### 3. 인덱스 활용

In [36]:
# 특정 열을 행 인덱스로 설정
import pandas as pd

exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,70],
             '음악':[85,95,100],
             '체육':[100,90,90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정
# set_index() 메소드를 사용하여 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제된다.
ndf = df.set_index(['이름'])
print(ndf)
print('\n')
ndf2 = ndf.set_index('음악')
print(ndf2)
print('\n')
ndf3 = ndf.set_index(['수학','음악'])
print(ndf3)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  70  100   90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  70  100   90


     수학  영어   체육
음악              
85   90  98  100
95   80  89   90
100  70  70   90


        영어   체육
수학 음악          
90 85   98  100
80 95   89   90
70 100  70   90


In [38]:
# 행 인덱스 재배열
import pandas as pd

# 딕셔너리 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}

# 딕셔너리를 데이터 프레임으로 변환.
df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

new_index = ['r0','r1','r2','r3','r4']
ndf = df.reindex(new_index)
print(ndf)
print('\n')

new_index = ['r0','r1','r2','r3','r4']
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


In [40]:
# 행 인덱스 초기화
# reset_index() 메소드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화하고, 이때 기존 행 인덱스는 열로 이동한다.
import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


In [41]:
# 데이터 프레임 정렬
# sort_index() 메소드를 화룡하여 행 인덱스를 기준으로 데이터프레임의 값을 정렬한다.
import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


In [42]:
# 특정 열의 데이터 값을 기준으로 데이터프레임 정렬하기
# 'c1' 열을 기준으로 데이터프레임을 내림차순 정렬한다.
import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6],'c2':[7,8,9],'c3':[10,11,12],'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index=['r0','r1','r2'])
print(df)
print('\n')

# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


### 4. 산술연산
* 판다스 객체의 산술연산은 내부적으로 3단계 프로세스를 거친다.
#### ① 행/열 인덱스를 기준으로 모든 원소를 정렬한다.
#### ② 동일한 위치에 있는 원소끼리 일대일로 대응시킨다.
#### ③ 일대일 대응이 되는 원소끼리 연산을 처리한다.(단, 이때 대응되는 원소가 없으면 NaN으로 처리한다.)

#### 4-1. 시리즈 연산
* 시리즈 객체에 어떤 숫자를 더하면 시리즈의 개별 원소에 각각 숫자를 더하고 계산한 결과를 시리즈 객체로 반환한다.
* 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능하다.

In [44]:
# 시리즈를 숫자로 나누기
import pandas as pd

student1 = pd.Series({'국어':100, '영어':80, '수학':90})
print(student1)
print('\n')

percentage = student1/200

print(percentage)
print('\n')
print(type(percentage))

국어    100
영어     80
수학     90
dtype: int64


국어    0.50
영어    0.40
수학    0.45
dtype: float64


<class 'pandas.core.series.Series'>


In [47]:
# 시리즈 사칙연산
import pandas as pd

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90, '영어':80})
print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행
# 인덱스로 주어진 과목명의 순서가 다르지만, 판다스는 같은 과목명(인덱스)을 찾아 정렬한 후 같은 과목명(인덱스)의 점수끼리 연산을 한다.
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2
print(type(division))
print('\n')

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 → 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
print(result)

국어    100
영어     80
수학     90
dtype: int64


수학    80
국어    90
영어    80
dtype: int64


<class 'pandas.core.series.Series'>


              국어        수학      영어
덧셈    190.000000   170.000   160.0
뺄셈     10.000000    10.000     0.0
곱셈   9000.000000  7200.000  6400.0
나눗셈     1.111111     1.125     1.0


In [48]:
# NaN 값이 있는 시리즈 연산
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

# 두 학생의 과목별 점수로 사칙연산 수행(시리즈vs시리즈)
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2
print(type(division))
print('\n')

# 사칙연산 결과를 데이터프레임으로 합치기(시리즈 → 데이터프레임)
result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
print(result)

<class 'pandas.core.series.Series'>


     국어        수학  영어
덧셈  NaN   170.000 NaN
뺄셈  NaN    10.000 NaN
곱셈  NaN  7200.000 NaN
나눗셈 NaN     1.125 NaN


In [49]:
# 연산 메소드 사용 - 시리즈 연산
import pandas as pd
import numpy as np

# 딕셔너리 데이터로 판다스 시리즈 만들기
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행(연산 메소드 사용)
sr_add = student1.add(student2, fill_value=0)
sr_sub = student1.sub(student2, fill_value=0)
sr_mul = student1.mul(student2, fill_value=0)
sr_div = student1.div(student2, fill_value=0)

result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div], index=['덧셈','뺄셈','곱셈','나눗셈'])
print(result)

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    80
국어    90
dtype: int64


       국어        수학    영어
덧셈   90.0   170.000  80.0
뺄셈  -90.0    10.000  80.0
곱셈    0.0  7200.000   0.0
나눗셈   0.0     1.125   inf


#### 4-2. 데이터프레임 연산
* 먼저 행/열 인덱스를 기준으로 정렬하고 일대일 대응되는 원소끼리 연산을 처리한다.

In [52]:
# 데이터프레임에 숫자 더하기
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.head())
print('\n')
print(type(df))
print('\n')

addition = df+10
print(addition.head())
print('\n')
print(type(addition))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


<class 'pandas.core.frame.DataFrame'>


In [53]:
# 데이터프레임끼리 더하기
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.tail())
print('\n')
print(type(df))
print('\n')

# 데이터프레임에 숫자 10 더하기
addition = df+10
print(addition.tail())
print('\n')
print(type(addition))
print('\n')

# 데이터프레임끼리 연산하기(addition-df)
# 덧셈의 결과인 데이터프레임(addition)에서 원래 데이터프레임(df)를 빼면, 숫자 10을 원소로만 갖는 데이터프레임(substraction)이 반환된다.
# 단, NaN이 포함된 경우 NaN으로 처리된다.
substraction = addition-df
print(substraction.tail())
print('\n')
print(type(subtraction))

      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


<class 'pandas.core.frame.DataFrame'>


      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75


<class 'pandas.core.frame.DataFrame'>


      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


<class 'pandas.core.series.Series'>
