## pandas의 기본 연산 - Series

In [1]:
import pandas as pd

In [2]:
a = {'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}

In [3]:
a

{'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}

In [4]:
b = pd.Series(a)

In [5]:
b

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [6]:
type(b)

pandas.core.series.Series

In [7]:
c = b / 10

In [8]:
c

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

In [9]:
c = b // 10

In [10]:
c

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [11]:
type(c)

pandas.core.series.Series

In [12]:
d = b + c

In [13]:
d

a    11
b    22
c    33
d    44
e    55
dtype: int64

In [14]:
e = {'a': 10, 'c' : 20, 'e': 30, 'g': 40}

In [15]:
e

{'a': 10, 'c': 20, 'e': 30, 'g': 40}

In [16]:
f = pd.Series(e)

In [17]:
f

a    10
c    20
e    30
g    40
dtype: int64

In [18]:
d + f    # 두 시리즈에 공통으로 있는 값은 정상적으로 계산하였으나, 둘 중 하나가 없을 때에는 NaN값

a    21.0
b     NaN
c    53.0
d     NaN
e    85.0
g     NaN
dtype: float64

In [19]:
d.add(f, fill_value = 0)    # d + f일 때, 결측치(한쪽에 없는 값)를 0으로 채워라

a    21.0
b    22.0
c    53.0
d    44.0
e    85.0
g    40.0
dtype: float64

In [20]:
d.sub(f, fill_value = 0)    # 뺄셈

a     1.0
b    22.0
c    13.0
d    44.0
e    25.0
g   -40.0
dtype: float64

In [21]:
d.mul(f, fill_value = 0)

a     110.0
b       0.0
c     660.0
d       0.0
e    1650.0
g       0.0
dtype: float64

In [22]:
d * f

a     110.0
b       NaN
c     660.0
d       NaN
e    1650.0
g       NaN
dtype: float64

In [23]:
d.mul(f, fill_value = 1)    # 곱셈일 때에는 결측치를 1로 지정하자

a     110.0
b      22.0
c     660.0
d      44.0
e    1650.0
g      40.0
dtype: float64

In [24]:
d.div(f, fill_value = 1)    # 나눗셈도 1로 지정(0으로 나눌 경우 무한대로 간다.)

a     1.100000
b    22.000000
c     1.650000
d    44.000000
e     1.833333
g     0.025000
dtype: float64

## pandas의 기본 연산 - DataFrame 1

In [25]:
a = {'점수 1': [10, 20, 30], '점수 2':[20, 40, 60]}

In [26]:
df1 = pd.DataFrame(a)

In [27]:
df1

Unnamed: 0,점수 1,점수 2
0,10,20
1,20,40
2,30,60


In [28]:
b = {'점수 1': [100, 200, 300], '점수 3':[200, 400, 600]}

In [29]:
df2 = pd.DataFrame(b)

In [30]:
df2

Unnamed: 0,점수 1,점수 3
0,100,200
1,200,400
2,300,600


In [31]:
df3 = df1 + df2

In [32]:
df3

Unnamed: 0,점수 1,점수 2,점수 3
0,110,,
1,220,,
2,330,,


In [33]:
df4 = df1.add(df2, fill_value = 0)

In [34]:
df4

Unnamed: 0,점수 1,점수 2,점수 3
0,110,20.0,200.0
1,220,40.0,400.0
2,330,60.0,600.0


In [35]:
df5 = df1.sub(df2, fill_value = 0)

In [36]:
df5

Unnamed: 0,점수 1,점수 2,점수 3
0,-90,20.0,-200.0
1,-180,40.0,-400.0
2,-270,60.0,-600.0


In [37]:
df6 = df1.mul(df2, fill_value = 0)

In [38]:
df6

Unnamed: 0,점수 1,점수 2,점수 3
0,1000,0.0,0.0
1,4000,0.0,0.0
2,9000,0.0,0.0


In [39]:
df6 = df1.mul(df2, fill_value = 1)

In [40]:
df6

Unnamed: 0,점수 1,점수 2,점수 3
0,1000,20.0,200.0
1,4000,40.0,400.0
2,9000,60.0,600.0


In [41]:
df7 = df1.div(df2, fill_value = 0)

In [42]:
df7

Unnamed: 0,점수 1,점수 2,점수 3
0,0.1,inf,0.0
1,0.1,inf,0.0
2,0.1,inf,0.0


In [43]:
df7 = df1.div(df2, fill_value = 1)

In [44]:
df7

Unnamed: 0,점수 1,점수 2,점수 3
0,0.1,20.0,0.005
1,0.1,40.0,0.0025
2,0.1,60.0,0.001667


## pandas의 기본 연산 - DataFrame 2

In [45]:
a = {'이름': ['홍길동','사람 1','사람 2'], '나이': [20,30,25]}

In [46]:
df1 = pd.DataFrame(a)

In [47]:
df1

Unnamed: 0,이름,나이
0,홍길동,20
1,사람 1,30
2,사람 2,25


In [48]:
b = {'이름': ['홍길동','사람 1','사람 2'], '도시': ['서울','서울','대전']}

In [49]:
df2 = pd.DataFrame(b)

In [50]:
df2

Unnamed: 0,이름,도시
0,홍길동,서울
1,사람 1,서울
2,사람 2,대전


In [51]:
# 위 두 데이터프레임 동일한 사람에 대해서 합치기
df = pd.merge(left = df1,
             right = df2,
             how = 'left',          # 옆으로 이어 붙이기
             left_on = '이름',      # 왼쪽의 기준
             right_on = '이름')     # 오른쪽의 기준

In [52]:
df

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울
2,사람 2,25,대전


In [53]:
# 조건 선별
x1 = (df['도시'] == '서울')    # 조건식: 도시가 서울인 경우

In [54]:
df[x1]    # 위 조건식이 참인 경우만 뽑아서 볼 수 있다.

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울


In [55]:
x2 = (df['도시'] != '서울')    # 조건식: 도시가 서울이 아닌 경우

In [56]:
df[x2]

Unnamed: 0,이름,나이,도시
2,사람 2,25,대전


In [57]:
x3 = (df['나이'] < 30)

In [58]:
df[x3]

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
2,사람 2,25,대전


In [59]:
x4 = (df['도시'] == '서울') & (df['나이'] < 30)

In [60]:
df[x4]

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울


In [61]:
x5 = (df['도시'] == '서울') | (df['나이'] < 30)

In [62]:
df[x5]

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울
2,사람 2,25,대전
