In [None]:
import pandas as pd
import numpy as np

# Pandas DataFrame 연산

Column간 연산과 DataFrame간 연산 방법을 학습합니다.

**학습 목표:**
- Column과 Column간 연산 (+, -, *, /, %)
- Column과 숫자간 연산 (브로드캐스팅)
- `sum()`, `mean()` 함수의 axis 옵션
- NaN이 포함된 경우의 연산 처리
- DataFrame간 연산

---

## 예제 DataFrame 생성

In [2]:
import pandas as pd
df = pd.DataFrame({'통계': [60, 70, 80, 85, 75], '미술': [50, 55, 80, 100, 95], '체육': [70, 65, 50, 95, 100] })

In [3]:
df

Unnamed: 0,통계,미술,체육
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


## 1. Column 과 Column 간 연산 (+, -, *, /, %)

In [None]:
type(df['통계'])

In [None]:
#

In [None]:
df['통계'] + df['미술'] + df['체육']

In [None]:
df['통계'] - df['미술']

In [None]:
df['통계'] * df['미술']

In [None]:
df['통계'] / df['미술']

In [None]:
df['통계'] % df['미술']

## 2. Column 과 숫자 간 연산 (+, -, *, /, %)

In [4]:
df['통계'] + 10

Unnamed: 0,통계
0,70
1,80
2,90
3,95
4,85


In [5]:
df['통계'] - 10

Unnamed: 0,통계
0,50
1,60
2,70
3,75
4,65


In [6]:
df['통계'] * 10

Unnamed: 0,통계
0,600
1,700
2,800
3,850
4,750


In [7]:
df['통계'] / 10

Unnamed: 0,통계
0,6.0
1,7.0
2,8.0
3,8.5
4,7.5


In [8]:
df['통계'] % 10

Unnamed: 0,통계
0,0
1,0
2,0
3,5
4,5


## 3. 복합 연산

In [9]:
df = pd.DataFrame({'통계': [60, 70, 80, 85, 75], '미술': [50, 55, 80, 100, 95], '체육': [70, 65, 50, 95, 100] })

In [10]:
df

Unnamed: 0,통계,미술,체육
0,60,50,70
1,70,55,65
2,80,80,50
3,85,100,95
4,75,95,100


In [11]:
df['통계미술합계'] = df['통계'] + df['미술'] + 10

In [12]:
df

Unnamed: 0,통계,미술,체육,통계미술합계
0,60,50,70,120
1,70,55,65,135
2,80,80,50,170
3,85,100,95,195
4,75,95,100,180


In [13]:
df['통계'] + df['미술'] - df['체육']

Unnamed: 0,0
0,40
1,60
2,110
3,90
4,70


In [14]:
df.mean(axis=0)

Unnamed: 0,0
통계,74.0
미술,76.0
체육,76.0
통계미술합계,160.0


## 4. mean(), sum()을 axis 기준으로 연산

In [None]:
df = pd.DataFrame({'통계': [60, 70, 80, 85, 75], '미술': [50, 55, 80, 100, 95], '체육': [70, 65, 50, 95, 100] })

In [None]:
df

In [None]:
df.sum(axis=0)

In [None]:
df.mean(axis=0)

In [None]:
df.sum(axis=1)

In [None]:
df.mean(axis=1)

## 5. NaN 값이 존재할 경우 연산

In [2]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'통계': [60, 70, np.nan , 85, 75], '미술': [50, np.nan , 80, 100, 95], '체육': [70, 65, 50, np.nan , 100] })

In [None]:
df

In [None]:
df['통계'] / 2

In [None]:
1000 / df['통계']

In [None]:
df['통계'] / np.nan

In [None]:
np.nan / df['통계']

## 6. DataFrame 과 DataFrame 간 연산

In [None]:
df1 = pd.DataFrame({'통계': [60, 70, 80, 85, 75], '미술': [50, 55, 80, 100, 95], '체육': [70, 65, 50, 95, 100] })

In [None]:
df2 = pd.DataFrame({'통계': ['good', 'bad', 'ok' , 'good', 'ok'], '미술': [50, 60 , 80, 100, 95], '체육': [70, 65, 50, 70 , 100] })

In [None]:
df1

In [None]:
df2

문자열이 포함된 DataFrame의 경우

In [None]:
df1 + df2

문자열이 포함된 DataFrame의 브로드캐스팅 연산

In [None]:
df1 + 10

In [None]:
df2 + 10

column의 순서가 바뀌어 있는 경우

In [None]:
df1 = pd.DataFrame({'미술': [10, 20, 30, 40, 50], '통계':[60, 70, 80, 90, 100] })
df2 = pd.DataFrame({'통계': [10, 20, 30, 40, 50], '미술': [60, 70, 80, 90, 100] })

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

행의 갯수가 다른경우

In [None]:
df1 = pd.DataFrame({'미술': [10, 20, 30, 40, 50, 60], '통계':[60, 70, 80, 90, 100, 110] })
df2 = pd.DataFrame({'통계': [10, 20, 30, 40, 50], '미술': [60, 70, 80, 90, 100] })

In [4]:
df1 = pd.DataFrame({'미술': [10, 20, 30, 40, 50, 60], '통계':[60, 70, 80, 90, 100, 110] })
df2 = pd.DataFrame({'통계': [10, 20, 30, 40, 50], '미술': [60, 70, 80, 90, 100] })
df1 * df2

Unnamed: 0,미술,통계
0,600.0,600.0
1,1400.0,1400.0
2,2400.0,2400.0
3,3600.0,3600.0
4,5000.0,5000.0
5,,


---
## 정리

| 연산 | 설명 | 조건 |
|------|------|------|
| `df['A'] + df['B']` | Column간 덧셈 | 같은 행 수 |
| `df['A'] + 10` | Column과 숫자 연산 | 브로드캐스팅 |
| `df.sum(axis=0)` | 열별 합계 (세로) | - |
| `df.sum(axis=1)` | 행별 합계 (가로) | - |
| `df.mean(axis=0)` | 열별 평균 | - |
| `df.mean(axis=1)` | 행별 평균 | - |
| `df1 + df2` | DataFrame간 연산 | 같은 column명 기준 |

**주의사항:**
- NaN 값이 포함된 연산 결과는 NaN
- 문자열 column이 포함된 DataFrame은 숫자 연산 시 에러 또는 문자열 연결 발생
- DataFrame간 연산 시 행 수가 다르면 NaN 발생