In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../data/SPY.csv')
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2020-03-04,306.119995,313.100006,303.329987,312.859985,307.124481,176613400
1,2020-03-05,304.980011,308.470001,300.01001,302.459991,296.915161,186366800
2,2020-03-06,293.149994,298.779999,290.230011,297.459991,292.006836,228667200
3,2020-03-09,275.299988,284.190002,273.450012,274.230011,269.202698,309417300
4,2020-03-10,284.640015,288.519989,273.5,288.420013,283.132568,276444100


In [2]:
pd.set_option('display.width', 1000)

# 인덱스를 'Date'로 설정하고, parse_dates로 'Date' 컬럼값의 타입을 timestamp타입으로 변환한다.
new_df = pd.read_csv('../data/SPY.csv', index_col='Date', parse_dates=['Date'])
print(new_df.head())
print(type(new_df.index))
print(type(new_df.index[0]))

                  Open        High         Low       Close   Adj Close     Volume
Date                                                                             
2020-03-04  306.119995  313.100006  303.329987  312.859985  307.124481  176613400
2020-03-05  304.980011  308.470001  300.010010  302.459991  296.915161  186366800
2020-03-06  293.149994  298.779999  290.230011  297.459991  292.006836  228667200
2020-03-09  275.299988  284.190002  273.450012  274.230011  269.202698  309417300
2020-03-10  284.640015  288.519989  273.500000  288.420013  283.132568  276444100
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [3]:
# 임의로 결측값이 있는 데이터프레임 생성

s1 = pd.Series([1,np.nan,3,4,5])
s2 = pd.Series([1,2,np.nan,4,5])
s3 = pd.Series([1,2,3,np.nan,5])
df = pd.DataFrame({'S1':s1,
                  'S2':s2,
                  'S3':s3})
df

Unnamed: 0,S1,S2,S3
0,1.0,1.0,1.0
1,,2.0,2.0
2,3.0,,3.0
3,4.0,4.0,
4,5.0,5.0,5.0


In [4]:
# isna()함수: NaN값 포함 여부를 bool타입으로 반환. isnull()을 써도 결과는 똑같음
df.isna()

Unnamed: 0,S1,S2,S3
0,False,False,False
1,True,False,False
2,False,True,False
3,False,False,True
4,False,False,False


In [5]:
# isin()함수: 파라미터로 전달받은 값의 포함 여부
df.isin([np.nan])

Unnamed: 0,S1,S2,S3
0,False,False,False
1,True,False,False
2,False,True,False
3,False,False,True
4,False,False,False


In [6]:
# True는 1, False는 0 이니까 sum()을 이용하면 각 컬럼마다 존재하는 결측값의 개수 확인 가능
df.isna().sum()
# df.isin([np.nan]).sum() 도 가능

S1    1
S2    1
S3    1
dtype: int64

In [7]:
# fillna(): 결측값에 대체값을 넣어주는 함수
df.fillna(0)  # 0으로 채워준다

# df.fillna(method='pad') 앞선 행의 값을 가져옴
# df.fillna(method='bfill') 다음 행의 값을 가져옴

Unnamed: 0,S1,S2,S3
0,1.0,1.0,1.0
1,0.0,2.0,2.0
2,3.0,0.0,3.0
3,4.0,4.0,0.0
4,5.0,5.0,5.0


In [8]:
# 결측치가 발생한 행이나 열을 완전히 삭제
df.dropna(axis=0)  #행 방향
# 열 방향은 axis=1

Unnamed: 0,S1,S2,S3
0,1.0,1.0,1.0
4,5.0,5.0,5.0


In [9]:
# 처음 csv로 읽어온 데이터프레임에 결측값, 무한값들의 여부를 확인하는 법
# any(1)함수를 연속으로 호출해 한개의 요소 값이 True이면 해당 row를 표시한다.
new_df[new_df.isin([np.nan, np.inf, -np.inf]).any(1)]

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
