# ***연산***

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# ***Series 연산***

In [4]:
# 색인이 다른 객체를 더하는 산술 연산
# Series 연산

s1 = Series([5, 6, -1, 2], index=['a', 'c', 'd', 'e'])
s2 = Series([3, 4, -1, 2, 7], index=['a', 'c', 'e', 'f', 'g'])

print(s1)
print('-'*30)
print(s2)
print('-'*30)
print(s1 + s2)

# 인덱스가 같은 것끼리는 연산이 가능, 
# 같은 인덱스가 없는 항목에 대해서는 NaN 발생

a    5
c    6
d   -1
e    2
dtype: int64
------------------------------
a    3
c    4
e   -1
f    2
g    7
dtype: int64
------------------------------
a     8.0
c    10.0
d     NaN
e     1.0
f     NaN
g     NaN
dtype: float64


# ***DataFrame 연산***

In [6]:
# DataFrame 연산

df1 = DataFrame(np.arange(9).reshape(3, 3), columns=list('bcd'), index=['seoul', 'busan', 'gwangju'])
df2 = DataFrame(np.arange(12).reshape(4, 3), columns=list('bde'), index=['incheon', 'seoul', 'busan', 'jeonju'])

print(df1)
print('-'*30)
print(df2)
print('-'*30)
print(df1 + df2)

# DataFrame도 index가 맞지 않으면 Nan 발생
# NaN 은 권장되지 않는다. 
# 그러므로 다른 값으로 채우는 것이 그나마 나은 처리방법.

         b  c  d
seoul    0  1  2
busan    3  4  5
gwangju  6  7  8
------------------------------
         b   d   e
incheon  0   1   2
seoul    3   4   5
busan    6   7   8
jeonju   9  10  11
------------------------------
           b   c     d   e
busan    9.0 NaN  12.0 NaN
gwangju  NaN NaN   NaN NaN
incheon  NaN NaN   NaN NaN
jeonju   NaN NaN   NaN NaN
seoul    3.0 NaN   6.0 NaN


In [7]:
# NaN > 다른 값으로 처리하기

df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
busan,9.0,4.0,12.0,8.0
gwangju,6.0,7.0,8.0,
incheon,0.0,,1.0,2.0
jeonju,9.0,,10.0,11.0
seoul,3.0,1.0,6.0,5.0


# ***DataFrame과 Series간의 연산***

In [8]:
df = DataFrame(np.arange(12).reshape(4, 3), columns=list('bde'), index=['incheon', 'seoul', 'busan', 'jeonju'])
df


Unnamed: 0,b,d,e
incheon,0,1,2
seoul,3,4,5
busan,6,7,8
jeonju,9,10,11


In [9]:
s1 = df.iloc[0]
s1

b    0
d    1
e    2
Name: incheon, dtype: int64

In [10]:
df - s1

# 시리즈가 브로드캐스팅 되어 연산이 처리된다는 점을 알 수 있다.
# s1객체는 df의 0열의 값만 갖고 있는데, 다른 모든 열에도 같은 연산을 수행함

Unnamed: 0,b,d,e
incheon,0,0,0
seoul,3,3,3
busan,6,6,6
jeonju,9,9,9


In [11]:
df + s1

Unnamed: 0,b,d,e
incheon,0,2,4
seoul,3,5,7
busan,6,8,10
jeonju,9,11,13


In [12]:
s2 = df['d']
s2

incheon     1
seoul       4
busan       7
jeonju     10
Name: d, dtype: int64

In [13]:
# 행연산은 함수를 이용

df.add(s2, axis=0)

Unnamed: 0,b,d,e
incheon,1,2,3
seoul,7,8,9
busan,13,14,15
jeonju,19,20,21


# ***기술통계***

In [None]:
# pandas도 수학/통계 메소드를 제공한다
# 처음부터 누락된 데이터를 제외하도록 설계되어 있음

In [16]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [17]:
# sum()
df.sum()

# 각 컬럼의 합을 구해서 Series로 반환

one    9.25
two   -5.80
dtype: float64

In [None]:
df.sum(axis=1)

In [70]:
# NaN을 제외하지않고 수행 : skipna 옵션 (default : True)
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [None]:
# 누산 합 : cumsum()

print(df.cumsum())

In [21]:
# 유일 값 찾아내기   ---> 중복을 제거해야 한다

s1 = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

# 중복 제거

u1 = s1.unique()
u1

array(['c', 'a', 'd', 'b'], dtype=object)

In [19]:
# 중복 제거

u1 = s1.unique()
u1

array(['c', 'a', 'd', 'b'], dtype=object)

In [20]:
# 정렬

u1.sort()
u1

array(['a', 'b', 'c', 'd'], dtype=object)

In [22]:
# 몇 개 있는지 찾기 ==> 도수

count = s1.value_counts()
count

a    3
c    3
b    2
d    1
dtype: int64

In [25]:
# 간접 통계를 반환
print(df)
print('-'*30)
print(df.idxmax())
print('-'*30)
print(df.idxmin())
# 특정 값을 갖는 인덱스가 뭔지 알려줌
# one 컬럼의 최대/최솟값은 b 인덱스에 위치한다는 식으로

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
------------------------------
one    b
two    d
dtype: object
------------------------------
one    d
two    b
dtype: object


In [28]:
# 어떤 값이 있는지 찾는 메소드
# isin()    T/F로 반환
# 데이터프레임, 시리즈 객체에서 원하는 값을 추출하고 싶을 때 유용하다.

mark = s2.isin(['b', 'c'])
mark

incheon    False
seoul      False
busan      False
jeonju     False
Name: d, dtype: bool

In [None]:
s2[mark]

# ***NaN 처리***

######양질의 데이터는 양질의 알고리즘보다 중요하다.
######NaN 처리가 되지 않으면 데이터의 품질이 떨어짐

In [None]:
# 누락된 데이터 처리 (pandas 설계 목표 중 하나)
# pandas는 누락된 데이터가 어떤 자료형이든 모두 NaN로 취급

In [31]:
from numpy import nan as NA

# ***NaN 처리 - Series***

In [42]:
strData = Series(['aaa', 'bbb', NA, 'ccc'])
strData

0    aaa
1    bbb
2    NaN
3    ccc
dtype: object

In [43]:
# NaN은 파이선 None, NA와 같은 값으로 취급

strData.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [44]:
strData[0] = None
strData


# None이나 numpy를 통한 NA나 null값을 의미하는것

0    None
1     bbb
2     NaN
3     ccc
dtype: object

In [45]:
# 누락된 데이터 골라내기 - 함수 이용

data = Series([1, NA, 3.4, NA, 8])
print(data)

print('-'*30)

data.dropna()        # NA를 없애는 함수, 인덱스도 없앰

0    1.0
1    NaN
2    3.4
3    NaN
4    8.0
dtype: float64
------------------------------


0    1.0
2    3.4
4    8.0
dtype: float64

In [46]:
# 불린 색인을 이용해서 직접 찾은 다음 골라내기

print(data.notnull())

print('-'*30)

data[data.notnull()]    # notnull을 수행한 data를 data에 다시 반환하면 data에서 null값만 지울 수 있음

0     True
1    False
2     True
3    False
4     True
dtype: bool
------------------------------


0    1.0
2    3.4
4    8.0
dtype: float64

# ***NaN 처리 - DataFrame***

In [52]:
# DataFrame

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
from numpy import nan as NA

data = DataFrame([[1, 5.5, 3], [1, NA, NA], [NA, NA, NA], [NA, 3.3, 3]])
data

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [None]:
data.dropna()     
# 기본적으로 NaN이 하나라도 있으면 행 제외

In [55]:
# 모든 값이 NA인 행만 제외

data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
3,,3.3,3.0


In [61]:
# NA가 채워진 열 만들기

data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,,,
2,,,,
3,,3.3,3.0,


In [56]:
# 모든 값이 NA인 열 제외

data.dropna(how='all', axis=1)  

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,,
2,,,
3,,3.3,3.0


In [53]:
# value를 지정해서 그만큼까지 들어있는 행을 추출 (thresh 인자)

data.dropna(thresh=2)

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
3,,3.3,3.0


In [54]:
# 누락된 데이터 채우기

data.fillna(0)

Unnamed: 0,0,1,2
0,1.0,5.5,3.0
1,1.0,0.0,0.0
2,0.0,0.0,0.0
3,0.0,3.3,3.0


In [62]:
# fillna를 여러 방식으로 사용 가능

data.fillna({1:10, 4:30})       # '1'열의 NaN에는 10, '4'열의 NaN에는 30을 채움

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,30.0
1,1.0,10.0,,30.0
2,,10.0,,30.0
3,,3.3,3.0,30.0


In [63]:
# 바로 위에 있는 값으로 채우기

data.fillna(method='ffill', limit=1)

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,5.5,3.0,
2,1.0,,,
3,,3.3,3.0,


In [64]:
# 평균값으로 채우기

data.fillna(data.mean())

Unnamed: 0,0,1,2,4
0,1.0,5.5,3.0,
1,1.0,4.4,3.0,
2,1.0,4.4,3.0,
3,1.0,3.3,3.0,


In [69]:
# 삭제

# del data[n]
# data

In [67]:
data[3] = [10, 2, 3, 7]
data

Unnamed: 0,0,1,2,3
0,1.0,5.5,3.0,10
1,1.0,,,2
2,,,,3
3,,3.3,3.0,7
