## 데이터 연산

pandas 의 Series()와 DataFrame()으로 생성한 데이터끼리는 사칙 연산이 가능하다

### Series() 연산

In [2]:
import pandas as pd
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([10,20,30,40,50])
s1 + s2

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [3]:
s2 - s1

0     9
1    18
2    27
3    36
4    45
dtype: int64

In [4]:
s1 * s2

0     10
1     40
2     90
3    160
4    250
dtype: int64

In [5]:
s2 / s1

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
dtype: float64

**Numpy의 배열과 달리 pandas 의 데이터 끼리는 서로 크기가 달라도 연산할 수 있다  
이경우 연산이 가능한 항목만을 수행한다**

In [6]:
s3 = pd.Series([1,2,3,4])
s4 = pd.Series([10,20,30,40,50])

In [7]:
s3 + s4

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [8]:
s4 - s3

0     9.0
1    18.0
2    27.0
3    36.0
4     NaN
dtype: float64

In [9]:
s3 * s4

0     10.0
1     40.0
2     90.0
3    160.0
4      NaN
dtype: float64

In [10]:
s4 / s3

0    10.0
1    10.0
2    10.0
3    10.0
4     NaN
dtype: float64

연산할 수 없는 부분은 NaN 으로 표시

### DataFrame() 연산

In [11]:
table_data1 = {'A':[1,2,3,4,5],
               'B':[10,20,30,40,50],
               'C':[100,200,300,400,500]}
df1 = pd.DataFrame(table_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [12]:
table_data2 = {'A':[6,7,8],
               'B':[60,70,80],
               'C':[600,700,800]}
df2 = pd.DataFrame(table_data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [13]:
df1 + df2

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


DataFrame도 연산할 수 있는 항목끼리만 연산하고  
그렇지 못한 항목은 NaN으로 표시된다

### 통계 분석

**pandas 에서 제공하는 통계 메서드**  
sum() : 합  
mean() : 평균  
std() : 표준 편차  
var() : 분산  
min()  :  최소값  
max()  : 최대값  
cumsum()  : 누적 합  
cumprod() : 누적 곱  

총합, 평균, 표준편차 구하기

In [14]:
table_data3 = {'봄':[256.5, 264.3, 215.9, 223.2, 312.8],
               '여름':[770.6, 567.5, 599.8, 387.1, 446.2],
               '가을':[363.5, 231.2, 293.1, 247.7, 381.6],
               '겨울':[139.3, 59.9, 76.9, 109.1, 108.1]}
columns_list = ['봄', '여름', '가을', '겨울']
index_list = ['2012','2013','2014','2015','2016']

df3 = pd.DataFrame(table_data3, columns=columns_list, index=index_list)
df3

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,59.9
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1


In [17]:
df3.sum()

봄     1272.7
여름    2771.2
가을    1517.1
겨울     493.3
dtype: float64

In [15]:
df3.mean()

봄     254.54
여름    554.24
가을    303.42
겨울     98.66
dtype: float64

In [16]:
df3.std()

봄      38.628267
여름    148.888895
가을     67.358496
겨울     30.925523
dtype: float64

describe() : 평균, 표준 편차, 최소값, 최대값을 한번에 구한다

In [18]:
df3.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,254.54,554.24,303.42,98.66
std,38.628267,148.888895,67.358496,30.925523
min,215.9,387.1,231.2,59.9
25%,223.2,446.2,247.7,76.9
50%,256.5,567.5,293.1,108.1
75%,264.3,599.8,363.5,109.1
max,312.8,770.6,381.6,139.3
