## day07_04_tidying
- 단정한(tidying)

In [2]:
import numpy as np
import pandas as pd
from datetime import datetime, date

In [8]:
df = pd.DataFrame(np.arange(0,15).reshape(5,3)
             , index=['a','b','c','d','e']
             , columns=['c1','c2','c3'])

In [10]:
# 새로운 열(특성)을 추가하면서 결측치 넣기
df['c4'] = np.nan

In [12]:
# f행 추가하면서 값넣기
df.loc['f'] = np.arange(15,19)

In [16]:
# 실습하기
# g행을 추가하면서 nan 넣기
df.loc['g'] = np.nan

In [21]:
df.loc['a','c4'] = 20

In [28]:
# na 검사하기, 갯수
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
dtype: int64

In [26]:
# na가 아닌 데이터 조회
df.dropna()

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
f,15.0,16.0,17.0,18.0


In [32]:
# 결측치 채우기
# 특정한 값(0)으로 채우기
df.fillna(0)

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,0.0
c,6.0,7.0,8.0,0.0
d,9.0,10.0,11.0,0.0
e,12.0,13.0,14.0,0.0
f,15.0,16.0,17.0,18.0
g,0.0,0.0,0.0,0.0


In [33]:
# 결측치를 이전에 조회된 데이터로 채우기
df.fillna(method='ffill')

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,20.0
c,6.0,7.0,8.0,20.0
d,9.0,10.0,11.0,20.0
e,12.0,13.0,14.0,20.0
f,15.0,16.0,17.0,18.0
g,15.0,16.0,17.0,18.0


In [34]:
# 결측치를 이후 데이터로 채우기
df.fillna(method='bfill')

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,18.0
c,6.0,7.0,8.0,18.0
d,9.0,10.0,11.0,18.0
e,12.0,13.0,14.0,18.0
f,15.0,16.0,17.0,18.0
g,,,,


### 진화된 결측치 채우기
### 자동채우기

In [36]:
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s

0    1.0
1    NaN
2    NaN
3    NaN
4    2.0
dtype: float64

In [37]:
# 결측치 사이의 데이터를 자동으로 채우는 함수
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

In [39]:
# 시계를 갖는 데이터와 interpolate()
ts = pd.Series([1, np.nan, 2], index=[datetime(2020,1,1),datetime(2020,2,1),datetime(2020,4,1)])

In [42]:
# method='time'
# 시계열을 직접 분석하여 데이터를 채워준다.
# 2020-03-01이 null로 수집이 안되어있기 때문에, 시계열을 분석해서
# 02-01에 맞는 데이터를 자동으로 채워준다.
ts.interpolate(method='time')

2020-01-01    1.000000
2020-02-01    1.340659
2020-04-01    2.000000
dtype: float64

In [49]:
# 중복치 제거
data = pd.DataFrame({'a':['x']*3+['y']*4,'b':[1,1,2,3,3,4,4]})

In [54]:
# 중복 데이터 확인
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [55]:
# 중복 데이터 조회
data.loc[data.duplicated()]

Unnamed: 0,a,b
1,x,1
4,y,3
6,y,4


In [58]:
# 중복 데이터 제거
data.drop_duplicates()

Unnamed: 0,a,b
0,x,1
2,x,2
3,y,3
5,y,4


In [59]:
# c열을 추가하여 중복 없애기
data['c'] = range(7)

In [67]:
# 실습하기
# data에서 a와 b열을 대상으로 중복을 확인하기
data.drop_duplicates(['a','b'])

Unnamed: 0,a,b,c
0,x,1,0
2,x,2,2
3,y,3,3
5,y,4,5
