# Part 1. 판다스 입문

## 2. 판다스 자료구조

판다스는 시리즈(1차원 배열)와 데이터프레임(2차원 배열)이라는 구조화된 데이터 형식을 제공한다.

### 2-1. 시리즈
* 시리즈 만들기  
`pandas.Series(딕셔너리)`

In [2]:
import pandas as pd 

dict_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)

print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


* 인덱스 구조  
인덱스 배열 : `Series객체.index`  
데이터 값 배열 : `Series객체.values`

In [6]:
list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
# 디폴트로 정수형 위치 인덱스가 지정된다.(0 ~ )

idx = sr.index 
val = sr.values 
print(idx)
print(val)

RangeIndex(start=0, stop=5, step=1)
['2019-01-02' 3.14 'ABC' 100 True]


* 원소 선택  

In [9]:
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])

print(sr[0])
print(sr['이름'])
print('\n')
print(sr[[1, 2]])
print(sr[['생년월일', '성별']])
print('\n')
print(sr[1:2])              #범위의 끝은 포함하지 않음
print(sr['생년월일':'성별']) #범위의 끝도 포함

영인
영인


생년월일    2010-05-01
성별               여
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


### 2-2. 데이터프레임
* 데이터프레임 만들기  
`pandas.DataFrame(딕셔너리 객체)`  
key 값이 열 이름이 된다.

In [10]:
import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}
df = pd.DataFrame(dict_data)

print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


* 행 인덱스/열 이름 설정  
```
pandas.DataFrame(2차원 배열, 
                index = 행 인덱스 배열, 
                columns = 열 이름 배열)
```

In [13]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                  index = ['준서', '예은'],
                  columns = ['나이', '성별', '학교'])

print(df)
print('\n')
print(df.index)
print(df.columns)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


행 인덱스 변경 : `DataFrame 객체.index = 새로운 행 인덱스 배열`  
열 인덱스 변경 : `DataFrame 객체.columns = 새로운 열 이름 배열`

In [14]:
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']

print(df)
print('\n')
print(df.index)
print(df.columns)

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


Index(['학생1', '학생2'], dtype='object')
Index(['연령', '남녀', '소속'], dtype='object')


rename() 메소드를 적용하면 행 인덱스 혹은 열 이름의 일부를 선택하여 변경할 수 있다.  
단, 원본 객체를 직접 수정하는 것이 아닌 새로운 데이터프레임 객체를 반환하는 것.  
(inplace = True)옵션을 사용해 원본 객체를 변경할 수 있다.  
  
행 인덱스 변경 : `DataFrame 객체.rename(index = {기존 인덱스:새 인덱스, ...})`    
열 인덱스 변경 : `DataFrame 객체.rename(columns = {기존 이름:새 이름, ...})`

In [16]:
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                  index = ['준서', '예은'],
                  columns = ['나이', '성별', '학교'])

df.rename(index = {'준서':'학생1', '예은':'학생2'}, inplace=True)
df.rename(columns = {'나이':'연령', '성별':'남녀', '학교':'소속'}, inplace=True)

print(df)

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


* 행/열 삭제  
행 삭제 : `DataFrame 객체.drop(행 인덱스 또는 배열), axis = 0)`  
행을 삭제할 때는 축 옵션을 생략해도 된다.  
열 삭제 : `DataFrame 객체.drop(열 이름 또는 배열), axis = 1)`  
열을 삭제할 때는 반드시 축 옵션을 입력한다.

In [17]:
exam_data = {'수학':[90,80,70], '영어':[98,89,50],
             '음악':[85,95,100], '체육':[100,90,90]}

df = pd.DataFrame(exam_data, index = ['서준', '우현', '인아'])
print(df)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  50  100   90


In [18]:
# 이름이 '우현'인 학생의 행 데이터를 삭제한 df2만들기

df2 = df[:] # 데이터프레임 복제
df2.drop('우현', inplace=True)

print(df2)

    수학  영어   음악   체육
서준  90  98   85  100
인아  70  50  100   90


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [19]:
# 이름이 '우현', '인아'인 학생의 행 데이터를 삭제한 df3만들기

df3 = df[:]
df3.drop(['우현', '인아'], inplace=True)

print(df3)

    수학  영어  음악   체육
서준  90  98  85  100


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [20]:
exam_data = {'수학':[90,80,70], '영어':[98,89,50],
             '음악':[85,95,100], '체육':[100,90,90]}

df = pd.DataFrame(exam_data, index = ['서준', '우현', '인아'])

In [21]:
# '수학' 과목의 열 데이터를 삭제한 df4 만들기

df4 = df[:]
df4.drop('수학', axis=1, inplace=True)

print(df4)

    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  50  100   90


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [22]:
# '영어', '음악' 과목의 열 데이터를 삭제한 df5 만들기

df5 = df[:]
df5.drop(['영어', '음악'], axis=1, inplace=True)

print(df5)

    수학   체육
서준  90  100
우현  80   90
인아  70   90


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


* 행 선택  

|구분      | loc                 | iloc|
|---------|---------------------|---------|
|탐색 대상 | 인덱스 이름          | 정수형 위치 인덱스|
|범위 지정 | 가능(범위의 끝 포함) | 가능(범위의 끝 제외)|


In [25]:
exam_data = {'수학':[90,80,70], '영어':[98,89,50],
             '음악':[85,95,100], '체육':[100,90,90]}

df = pd.DataFrame(exam_data, index = ['서준', '우현', '인아'])

label1 = df.loc['서준']
position1 = df.iloc[0]

print(label1)
print('\n')
print(position1)

# 시리즈 객체로 반환

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [26]:
label2 = df.loc[['서준', '우현']]
position2 = df.iloc[[0, 1]]

print(label2)
print('\n')
print(position2)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [28]:
label3 = df.loc['서준':'우현']
position3 = df.iloc[0:1]

print(label3)
print('\n')
print(position3) # 범위의 끝 제외

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100


* 열 선택  

열 1개 선택(시리즈 생성) : `DataFrame 객체["열 이름"]` 또는 `DataFrame 객체.열 이름`  

열 n개 선택(데이터프레임 생성) : `DataFrame 객체[ [열1, 열2, ..., 열n]]`


In [29]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  50  100   90


In [30]:
math1 = df['수학']
english = df.영어

print(math1)
print(english)

0    90
1    80
2    70
Name: 수학, dtype: int64
0    98
1    89
2    50
Name: 영어, dtype: int64


In [31]:
music_gym = df[['음악', '체육']]
math2 = df[['수학']] #데이터프레임

print(music_gym)
print(math2)

    음악   체육
0   85  100
1   95   90
2  100   90
   수학
0  90
1  80
2  70


> **범위 슬라이싱의 고급 활용**  
>  
> 범위 슬라이싱 : `DataFrame 객체.iloc[시작 인덱스:끝 인덱스:슬라이싱 간격]`  
> 슬라이싱 간격은 지정하지 않으면 1씩 증가 

In [33]:
df.iloc[ : :2] #2행간격으로

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,50,100,90


In [34]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
2,인아,70,50,100,90


In [36]:
df.iloc[ : :-1] # 역순으로 인덱싱하기

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,50,100,90
1,우현,80,89,95,90
0,서준,90,98,85,100


* 원소 선택  
  
인덱스 이름 : `DataFrame 객체.loc[행 인덱스, 열 이름]`  
정수 위치 인덱스 : `DataFrame 객체.iloc[행 번호, 열 번호]`

In [37]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

df.set_index('이름', inplace=True) 
# 이름 열을 새로운 행 인덱스로 지정
print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  50  100   90


In [38]:
a = df.loc['서준', '음악']
print(a)

b = df.iloc[0, 2]
print(b)

85
85


In [40]:
# 시리즈 객체
c = df.loc['서준', ['음악', '체육']]
print(c)

d = df.iloc[0, [2, 3]]
print(d)

e = df.loc['서준', '음악':'체육']
print(e)

f = df.iloc[0, 2:]
print(f)

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [42]:
# 데이터 프레임 객체
g = df.loc[['서준', '우현'], ['음악', '체육']]
print(g)

h = df.iloc[[0, 1], [2, 3]]
print(h)

i = df.loc['서준':'우현', '음악':'체육']
print(i)

j = df.iloc[0:2, 2:]
print(j)

    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90


* 열 추가  

열 추가 : `DataFrame 객체['추가하려는 열 이름'] = 데이터 값`

In [43]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

df['국어'] = 80
print(df)

   이름  수학  영어   음악   체육  국어
0  서준  90  98   85  100  80
1  우현  80  89   95   90  80
2  인아  70  50  100   90  80


* 행 추가  

행 추가 : `DataFrame.loc['새로운 행 이름'] = 데이터 값 (또는 배열)`

In [44]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

df.loc[3] = 0
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  50  100   90
3   0   0   0    0    0


In [46]:
df.loc[4] = ['동규', 90, 80, 70, 60]
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  50  100   90
3   0   0   0    0    0
4  동규  90  80   70   60


In [48]:
df.loc['행5'] = df.loc[3] #기존 행 복사
print(df)

    이름  수학  영어   음악   체육
0   서준  90  98   85  100
1   우현  80  89   95   90
2   인아  70  50  100   90
3    0   0   0    0    0
4   동규  90  80   70   60
행5   0   0   0    0    0


* 원소 값 변경  

원소 값 변경 : `DataFrame 객체의 일부분 또는 원소 선택 = 새로운 값`

In [49]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

df.set_index('이름', inplace=True)

df.iloc[0][3] = 80
print(df)

    수학  영어   음악  체육
이름                 
서준  90  98   85  80
우현  80  89   95  90
인아  70  50  100  90


In [50]:
df.loc['서준']['체육'] = 90
print(df)

    수학  영어   음악  체육
이름                 
서준  90  98   85  90
우현  80  89   95  90
인아  70  50  100  90


In [51]:
df.loc['서준', '체육'] = 100
print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  50  100   90


In [52]:
df.loc['서준', ['음악', '체육']] = 50
print(df)

df.loc['서준', ['음악', '체육']] = 100, 50
print(df)


    수학  영어   음악  체육
이름                 
서준  90  98   50  50
우현  80  89   95  90
인아  70  50  100  90
    수학  영어   음악  체육
이름                 
서준  90  98  100  50
우현  80  89   95  90
인아  70  50  100  90


* 행, 열의 위치 바꾸기  

행, 열 바꾸기 : `DataFrame 객체.transpose()` 또는 `DataFrame 객체.T`

In [53]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

df = df.transpose()
print(df)

      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  89   50
음악   85  95  100
체육  100  90   90


In [54]:
df = df.T
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  50  100   90


## 3. 인덱스 활용

* 특정 열을 행 인덱스로 설정  
특정 열을 행 인덱스로 설정 : `DataFrame 객체.set_index(['열 이름'] 또는 '열 이름')`
  
행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제된다


In [55]:
exam_data = {'이름':['서준','우현','인아'],
             '수학':[90,80,70],
             '영어':[98,89,50],
             '음악':[85,95,100], 
             '체육':[100,90,90]}

df = pd.DataFrame(exam_data)

ndf = df.set_index(['이름'])
print(ndf)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  50  100   90


In [58]:
ndf2 = ndf.set_index('음악')
print(ndf2)

     수학  영어   체육
음악              
85   90  98  100
95   80  89   90
100  70  50   90


In [60]:
ndf3 = ndf.set_index(['수학', '음악']) #멀티 인덱스
print(ndf3)

        영어   체육
수학 음악          
90 85   98  100
80 95   89   90
70 100  50   90


* 행 인덱스 재배열  

새로운 배열로 행 인덱스를 재지정 : `DataFrame 객체.reindex(새로운 인덱스 배열)`


In [62]:
import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])
print(df)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


In [63]:
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
print(ndf)

     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


In [64]:
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


* 행 인덱스 초기화  

정수형 위치 인덱스로 초기화 : `DataFrame 객체.reset_index()`

In [65]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])

ndf = df.reset_index()
print(ndf)

  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15


* 행 인덱스를 기준으로 데이터프레임 정렬  

행 인덱스 기준 정렬 : `DataFrame 객체.sort_index()`

In [67]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])

ndf = df.sort_index(ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


> **특정 열의 데이터 값을 기준으로 데이터프레임 정렬하기**
>  
> 열 기준 정렬 : `DataFrame 객체.sort_values()`


In [2]:
import pandas as pd

dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

df = pd.DataFrame(dict_data, index = ['r0', 'r1', 'r2'])

ndf = df.sort_values(by = 'c1', ascending=False)
print(ndf)

    c0  c1  c2  c3  c4
r2   3   6   9  12  15
r1   2   5   8  11  14
r0   1   4   7  10  13


## 4. 산술연산
판다스 객체의 산술연산은 내부적으로 3단계 프로세스를 거친다.

1. 행/열 인덱스를 기준으로 모든 원소 `정렬`
2. 동일한 위치에 있는 원소끼리 일대일로 `대응`
3. 일대일 대응이 되는 원소끼리 `연산` 처리

### 4-1. 시리즈 연산
* 시리즈 vs 숫자  
시리즈와 숫자 연산 : `Series객체 + 연산자(+, -, *, /) + 숫자`

In [1]:
import pandas as pd

student1 = pd.Series({'국어':100, '영어':80, '수학':90})
print(student1)

국어    100
영어     80
수학     90
dtype: int64


In [3]:
percentage = student1/200

print(percentage)
print(type(percentage))

국어    0.50
영어    0.40
수학    0.45
dtype: float64
<class 'pandas.core.series.Series'>


* 시리즈 vs 시리즈  
시리즈와 시리즈 연산 : `Series1 + 연산자(+, -, *, /) + Series2`  
시리즈의 모든 인덱스에 대하여 같은 인덱스를 가진 원소끼리 계산한다.  
인덱스의 순서가 달라도, 판다스는 같은 과목명(인덱스)을 찾아 정렬한 후 같은 인덱스의 데이터 값끼리 덧셈을 한다.  
어느 한쪽에만 인덱스가 존재하거나 데이터 값이 NaN인 경우에는 결과가 NaN이 된다.

In [5]:
import pandas as pd

student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90, '영어':80})

print(student1)
print(student2)

국어    100
영어     80
수학     90
dtype: int64
수학    80
국어    90
영어    80
dtype: int64


In [6]:
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1/student2

print(type(division))

<class 'pandas.core.series.Series'>


In [8]:
result = pd.DataFrame([addition, subtraction, multiplication, division],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])

print(result)

              국어        수학      영어
덧셈    190.000000   170.000   160.0
뺄셈     10.000000    10.000     0.0
곱셈   9000.000000  7200.000  6400.0
나눗셈     1.111111     1.125     1.0


In [10]:
import pandas as pd
import numpy as np

student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90}) # 데이터 값에 NaN이 존재
student2 = pd.Series({'수학':80, '국어':90})                # '영어'인덱스가 존재하지 않음

addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1/student2

result = pd.DataFrame([addition, subtraction, multiplication, division],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])

print(result)

     국어        수학  영어
덧셈  NaN   170.000 NaN
뺄셈  NaN    10.000 NaN
곱셈  NaN  7200.000 NaN
나눗셈 NaN     1.125 NaN


* 연산 메소드  
연산 결과가 NaN으로 반환되는 상황을 피하기 위해 연산 메소드에 fill_value 옵션을 설정해 적용한다.  
연산 메소드 사용 : `Series1.operation(Series2, fill_value=0)`  

> 함수 (add, sub, mul, div) 를 이용하면 fill_value 와 axis 옵션을 사용할 수 있다.

In [10]:
import pandas as pd
import numpy as np

student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90}) # 데이터 값에 NaN이 존재
student2 = pd.Series({'수학':80, '국어':90})                # '영어'인덱스가 존재하지 않음

sr_add = student1.add(student2, fill_value=0) # student1의 국어 점수, student2의 영어 점수가 0으로 입력됨
sr_sub = student1.sub(student2, fill_value=0)
sr_mul = student1.mul(student2, fill_value=0)
sr_div = student1.div(student2, fill_value=0)

result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div],
                      index = ['덧셈', '뺄셈', '곱셈', '나눗셈'])

print(result)

       국어        수학    영어
덧셈   90.0   170.000  80.0
뺄셈  -90.0    10.000  80.0
곱셈    0.0  7200.000   0.0
나눗셈   0.0     1.125   inf


### 4-2. 데이터프레임 연산

* 데이터프레임 vs 숫자  
기존 데이터프레임의 형태를 그대로 유지한 채 원소 값만 새롭게 바뀐다.  
새로운 데이터프레임 객체로 반환된다.  
데이터프레임과 숫자 연산 : `DataFrame 객체 + 연산자(+, -, *, /) + 숫자`

In [18]:
import pandas as pd
import seaborn as sns # 'titanic' 데이터

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']] # 2개의 열만을 선택
print(df.head())
print('\n')
print(type(df))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>


In [20]:
addition = df + 10 # 데이터프레임의 크기와 모양은 변하지 않는다.
print(addition.head())

    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


* 데이터프레임 vs 데이터프레임  
각 데이터프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산한다.  
데이터프레임 중에서 어느 한쪽에 원소가 존재하지 않거나 NaN이면 연산결과는 NaN으로 처리된다.  
데이터프레임의 연산자 활용 : `DataFrame1 + 연산자(+, -, *, /) + DataFrame2`  

In [21]:
import pandas as pd
import seaborn as sns # 'titanic' 데이터

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']] 

print(df.tail())

      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


In [22]:
addition = df + 10
print(addition.tail())

      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75


In [23]:
subtraction = addition - df
print(subtraction.tail())

      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


> 보충  

* 데이터프레임 vs 시리즈

In [30]:
s1 = pd.Series([1, 2, 3, 4])
df1 = pd.DataFrame([[1,3,5],[7,9,11],[5,13,15]])

print(s1)
print(df1)

0    1
1    2
2    3
3    4
dtype: int64
   0   1   2
0  1   3   5
1  7   9  11
2  5  13  15


In [35]:
print(s1 + df1) # column 방향 (디폴트 값: axis=1)
print(df1.add(s1, axis = 0)) # index 방향
print(df1.add(s1, axis = 1)) # column 방향

   0   1   2   3
0  2   5   8 NaN
1  8  11  14 NaN
2  6  15  18 NaN
     0     1     2
0  2.0   4.0   6.0
1  9.0  11.0  13.0
2  8.0  16.0  18.0
3  NaN   NaN   NaN
   0   1   2   3
0  2   5   8 NaN
1  8  11  14 NaN
2  6  15  18 NaN


* 문자열 포함  
문자열이 포함된 Series, DataFrame의 연산은 불가하다.

In [3]:
import pandas as pd

df1 = pd.DataFrame({'통계': [60, 70, 80, 85, 75], '미술': [50, 55, 80, 100, 95], '체육': [70, 65, 50, 95, 100] })
df2 = pd.DataFrame({'통계': ['good', 'bad', 'ok' , 'good', 'ok'], '미술': [50, 60 , 80, 100, 95], '체육': [70, 65, 50, 70 , 100] })

print(df1)
print("\n")
print(df2)

   통계   미술   체육
0  60   50   70
1  70   55   65
2  80   80   50
3  85  100   95
4  75   95  100


     통계   미술   체육
0  good   50   70
1   bad   60   65
2    ok   80   50
3  good  100   70
4    ok   95  100


In [4]:
df1 + df2

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [5]:
df2 + 10

TypeError: can only concatenate str (not "int") to str