In [8]:
import pandas as pd
import numpy as np

In [9]:
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([10, 20, 30, 40, 50])
s1 + s2  # 시리즈의 데이터 연산

0    11
1    22
2    33
3    44
4    55
dtype: int64

In [10]:
s3 = pd.Series([10, 20, 30, 40])
s1 + s3  # 크기가 다른 시리즈의 연산

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [11]:
print(s1.add(s3, fill_value = 0))  # 없는 데이터를 0으로 해서 연산할 수도 있다.
print(s3.add(s1, fill_value = 0))  # 순서는 상관이 없다.

0    11.0
1    22.0
2    33.0
3    44.0
4     5.0
dtype: float64
0    11.0
1    22.0
2    33.0
3    44.0
4     5.0
dtype: float64


In [12]:
data1 = {'A':[1, 2, 3, 4, 5], 'B':[10, 20, 30, 40, 50], 'C':[100, 200, 300, 400, 500]}
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [13]:
data2 = {'A':[6, 7, 8], 'B':[60, 70, 80], 'C':[600, 700, 800]}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,A,B,C
0,6,60,600
1,7,70,700
2,8,80,800


In [14]:
df1 + df2  # DataFrame의 연산

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,,,
4,,,


In [15]:
df1.add(df2, fill_value=0)  # DataFrame도 없는 데이터를 0으로 해서 연산이 가능하다.

Unnamed: 0,A,B,C
0,7.0,70.0,700.0
1,9.0,90.0,900.0
2,11.0,110.0,1100.0
3,4.0,40.0,400.0
4,5.0,50.0,500.0


In [16]:
data3 = {'A':[1, 2]}
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,A
0,1
1,2


In [17]:
data4 = {'A':[10, 20, np.nan], 'B':[40, 50, 60]}
df4 = pd.DataFrame(data4)
df4

Unnamed: 0,A,B
0,10.0,40
1,20.0,50
2,,60


In [18]:
df3 + df4  # 없는 데이터는 NaN으로 표시된다.

Unnamed: 0,A,B
0,11.0,
1,22.0,
2,,


In [19]:
df3.add(df4, fill_value = 0)  # 없는 데이터를 0으로 해서 연산하지만 둘다 없는 데이터는 NaN으로 표시된다.

Unnamed: 0,A,B
0,11.0,40.0
1,22.0,50.0
2,,60.0


In [20]:
data5 = {'봄':[256.5, 264.3, 215.9, 223.2], '여름':[770.6, 567.5, 599.8, 387.1],
        '가을':[363.5, 231.2, 293.1, 247.7], '겨울':[139.3, np.nan, 76.9, 109.1]}
index_list = ['2012', '2013', '2014', '2015']
df5 = pd.DataFrame(data5, index = index_list)
df5

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2013,264.3,567.5,231.2,
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1


In [21]:
# 없는 데이터 처리
print(df5.notnull())  # NaN이 아닌것 True, NaN인건 False
print(df5.isnull())  # NaN이 아닌것 False, NaN인건 True
print(df5.fillna('없음'))  # NaN인 값을 원하는 데이터로 처리

         봄    여름    가을     겨울
2012  True  True  True   True
2013  True  True  True  False
2014  True  True  True   True
2015  True  True  True   True
          봄     여름     가을     겨울
2012  False  False  False  False
2013  False  False  False   True
2014  False  False  False  False
2015  False  False  False  False
          봄     여름     가을     겨울
2012  256.5  770.6  363.5  139.3
2013  264.3  567.5  231.2     없음
2014  215.9  599.8  293.1   76.9
2015  223.2  387.1  247.7  109.1


In [22]:
print(df5.mean())  # 자동으로 NaN값을 0으로 처리해서 계산
print(df5.sum(axis = 1))  # 가로축 계산을 하려면 axis를 설정해준다.

봄     239.975000
여름    581.250000
가을    283.875000
겨울    108.433333
dtype: float64
2012    1529.9
2013    1063.0
2014    1185.7
2015     967.1
dtype: float64


In [23]:
df5.sort_values('여름', ascending = False)  # 특정 시리즈를 기준으로 정렬하기

Unnamed: 0,봄,여름,가을,겨울
2012,256.5,770.6,363.5,139.3
2014,215.9,599.8,293.1,76.9
2013,264.3,567.5,231.2,
2015,223.2,387.1,247.7,109.1


In [24]:
df5.describe()  # 집계함수를 한꺼번에 출력

Unnamed: 0,봄,여름,가을,겨울
count,4.0,4.0,4.0,3.0
mean,239.975,581.25,283.875,108.433333
std,23.98463,157.141985,59.184816,31.205341
min,215.9,387.1,231.2,76.9
25%,221.375,522.4,243.575,93.0
50%,239.85,583.65,270.4,109.1
75%,258.45,642.5,310.7,124.2
max,264.3,770.6,363.5,139.3
