# 데이터 전처리

In [100]:
import pandas as pd

* RAW 데이터를 DICT형태로 저장합니다.

In [101]:
stock_dict = [{'날짜': '2019-05-07',
              '종목': '삼성전자',
              '시가': '45,250',
              '종가': '44,850'},
              {'날짜': '2019-05-07',
              '종목': 'LG전자',
              '시가': '75,200',
              '종가': '77,000'},
              {'날짜': '2019-05-07',
              '종목': 'SK텔레콤',
              '시가': '254,500'},
              {'날짜': '2019-05-07',
              '종목': 'SK하이닉스',
              '시가': '79,200',
              '종가': '79,900'}]            

* DataFrame() 함수 안에 dict형태의 데이터를 전달하면 DataFrame 형식 데이터가 생성됩니다.
* 컬럼 순서가 눈에 보이는 순서가 아니기 때문에 columns 매개변수에 컬럼 순서를 지정하여 전달합니다.

In [102]:
data = pd.DataFrame(stock_dict, columns=['날짜', '종목', '시가', '종가'])

In [103]:
data

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850.0
1,2019-05-07,LG전자,75200,77000.0
2,2019-05-07,SK텔레콤,254500,
3,2019-05-07,SK하이닉스,79200,79900.0


* DataFrame이 차지하고 있는 용량을 확인해보겠습니다

In [104]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
날짜    4 non-null object
종목    4 non-null object
시가    4 non-null object
종가    3 non-null object
dtypes: object(4)
memory usage: 104.0+ bytes


* fillna() 메소드를 사용하여 결측치를 0으로 치환하겠습니다.

In [107]:
data.fillna(0)

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
2,2019-05-07,SK텔레콤,254500,0
3,2019-05-07,SK하이닉스,79200,79900


* data를 다시 확인해보면 다시 원복되었습니다. inplace=True 매개변수를 넘기면 적용하고 자기자신의 데이터에 적용합니다. 

In [110]:
data

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850.0
1,2019-05-07,LG전자,75200,77000.0
2,2019-05-07,SK텔레콤,254500,
3,2019-05-07,SK하이닉스,79200,79900.0


In [109]:
data.dropna()

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
3,2019-05-07,SK하이닉스,79200,79900


In [93]:
data.fillna(0)

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
2,2019-05-07,SK텔레콤,254500,0
3,2019-05-07,SK하이닉스,79200,79900


In [111]:
data.fillna(method='ffill')

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
2,2019-05-07,SK텔레콤,254500,77000
3,2019-05-07,SK하이닉스,79200,79900


In [112]:
data.fillna(method='bfill')

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
2,2019-05-07,SK텔레콤,254500,79900
3,2019-05-07,SK하이닉스,79200,79900


In [113]:
data2 = data.copy()

In [114]:
data2.dropna(inplace=True)

In [115]:
data2

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
3,2019-05-07,SK하이닉스,79200,79900


## apply() 메소드를 이용하여 컬럼에 함수(사용자 함수포함) 적용하기

In [116]:
data2['시가'].apply(lambda x : int(x.replace(",", "")))

0    45250
1    75200
3    79200
Name: 시가, dtype: int64

In [117]:
data2['시가'] = data2['시가'].apply(lambda x : int(x.replace(",", "")))

In [118]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 3
Data columns (total 4 columns):
날짜    3 non-null object
종목    3 non-null object
시가    3 non-null int64
종가    3 non-null object
dtypes: int64(1), object(3)
memory usage: 84.0+ bytes


In [119]:
data3 = data.copy()

In [120]:
data3.dropna(inplace=True)

## applymap() 메소드를 사용하여 여러 컬럼에 함수 적용하기

In [121]:
data3[['시가', '종가']] = data3[['시가', '종가']].applymap(lambda x : int(x.replace(",", "")))

In [122]:
data3

Unnamed: 0,날짜,종목,시가,종가
0,2019-05-07,삼성전자,45250,44850
1,2019-05-07,LG전자,75200,77000
3,2019-05-07,SK하이닉스,79200,79900


In [123]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 3
Data columns (total 4 columns):
날짜    3 non-null object
종목    3 non-null object
시가    3 non-null int64
종가    3 non-null int64
dtypes: int64(2), object(2)
memory usage: 96.0+ bytes


## to_datetime() 함수를 사용하여 날짜 데이터로 형변환하기
* %Y-%m-%d %H:%M:%S --> 연도-월-일 시간-분-초

In [124]:
data3['날짜'] = pd.to_datetime(data3['날짜'], format='%Y-%m-%d %H:%M:%S')

In [125]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 3
Data columns (total 4 columns):
날짜    3 non-null datetime64[ns]
종목    3 non-null object
시가    3 non-null int64
종가    3 non-null int64
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 108.0+ bytes


## astype() 메소드를 사용하여 데이터 형 변환하기

In [126]:
data3['종가'] = data3['종가'].astype('int32')

In [127]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 0 to 3
Data columns (total 4 columns):
날짜    3 non-null datetime64[ns]
종목    3 non-null object
시가    3 non-null int64
종가    3 non-null int32
dtypes: datetime64[ns](1), int32(1), int64(1), object(1)
memory usage: 96.0+ bytes
