## day07_03_tidying
- 단정한(tidying) 데이터 만들기

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
# 시각화 함수 호출 시에 바로 notebook에 표현하기
%matplotlib inline 
import datetime
from datetime import datetime, date

In [2]:
# 데이터 프레임만들기
tmp = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
            index=['a', 'b', 'c', 'd', 'e'],
            columns=['c1', 'c2', 'c3'])

In [3]:
# tmp를 파일로 저장하기.
tmp.to_csv('C:/dev/test.csv')

In [4]:
# 실습하기. df 변수에 위에서 저장한 test.csv 파일을 읽어와주세요.
df = pd.read_csv('C:/dev/test.csv', index_col=0)

In [5]:
# 데이터 결측치 만들기
# - 새로운 열을 추가하면서 결측치 만들기
df.loc[:, 'c4'] = np.nan

In [6]:
# f행을 새로 만들면서 15 - 18값 넣어주기
df.loc['f', :] =  np.arange(15, 19)

In [7]:
# g행을 만들면서 결측치 만들기
df.loc['g', :] = np.nan

In [8]:
# 실습하기. a행의 c4의 값을 20으로 채워주세요.
df.loc['a', 'c4'] = 20

In [9]:
# 결측치 검사하기
df.isnull()

Unnamed: 0,c1,c2,c3,c4
a,False,False,False,False
b,False,False,False,True
c,False,False,False,True
d,False,False,False,True
e,False,False,False,True
f,False,False,False,False
g,True,True,True,True


In [10]:
# 결측치 컬럼별로 보기
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
dtype: int64

In [11]:
# df의 c4열에서 결측치가 아닌 데이터만 조회하기
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

In [12]:
# df의 c4열에서 결측치가 아닌 데이터만 조회하기
df.c4.dropna()

a    20.0
f    18.0
Name: c4, dtype: float64

In [13]:
# 실습하기. df에서 결측치가 아닌 데이터만 조회해주세요.
## - drop: 버리다
df.dropna()

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
f,15.0,16.0,17.0,18.0


In [14]:
# 실습하기. df에서 결측치인 데이터를 0으로 채워주세요.
## - fill: 채우다.
df.fillna(0)

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,0.0
c,6.0,7.0,8.0,0.0
d,9.0,10.0,11.0,0.0
e,12.0,13.0,14.0,0.0
f,15.0,16.0,17.0,18.0
g,0.0,0.0,0.0,0.0


In [15]:
# 결측치 채우기
# - 이전의 컬럼의 데이터로 채우기
df.fillna(method='ffill')

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,20.0
c,6.0,7.0,8.0,20.0
d,9.0,10.0,11.0,20.0
e,12.0,13.0,14.0,20.0
f,15.0,16.0,17.0,18.0
g,15.0,16.0,17.0,18.0


In [16]:
# 결측치 채우기
# - 이후의 컬럼의 데이터로 채우기
df.fillna(method='bfill')

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,18.0
c,6.0,7.0,8.0,18.0
d,9.0,10.0,11.0,18.0
e,12.0,13.0,14.0,18.0
f,15.0,16.0,17.0,18.0
g,,,,


## 진화된 채우기. 자동 채우기
 - interpolation

In [17]:
s = pd.Series([1, np.nan, np.nan, np.nan, 2])

In [18]:
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

In [19]:
# 시계를 갖는 데이터와 함께 할 때 interpolation이 더 강력합니다.
ts = pd.Series([1, np.nan, 2], 
          index=[datetime(2020, 1, 1), datetime(2020, 2, 1), datetime(2020, 4, 1)])

In [20]:
ts.interpolate()

2020-01-01    1.0
2020-02-01    1.5
2020-04-01    2.0
dtype: float64

In [21]:
# 02-01과 04-01사이에는 03월의 데이터가 결측됨을 알 수 있음.
ts.interpolate(method='time')

2020-01-01    1.000000
2020-02-01    1.340659
2020-04-01    2.000000
dtype: float64

## 중복치 제거하기

In [22]:
['x'] * 3

['x', 'x', 'x']

In [23]:
['y'] * 4

['y', 'y', 'y', 'y']

In [24]:
data = pd.DataFrame({'a':['x'] * 3 + ['y'] * 4
             , 'b':[1, 1, 2, 3, 3, 4, 4]})

In [25]:
# 데이터의 중복 여부 검사하기
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [26]:
# 중복데이터를 제거하고 조회하기
data.drop_duplicates()

Unnamed: 0,a,b
0,x,1
2,x,2
3,y,3
5,y,4


In [27]:
# c열을 추가해서 데이터의 중복을 없애보기
data.loc[:, 'c'] = range(7)

In [28]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [29]:
# 특정 열을 선택해서 중복 제거하기
data.drop_duplicates(['a', 'b'])

Unnamed: 0,a,b,c
0,x,1,0
2,x,2,2
3,y,3,3
5,y,4,5
