In [1]:
# 결측치란 : 비어있는 값. null, NanN

# 결측치 확인하기
# 데이터프레임.isnull().sum()
# 데이터프레임.info()

# 결측치 처리하기
# 1) 특정 값으로 채우기
# 2) 주변 값으로 채우기
# 3) 빈 값 제거하기


In [2]:
import pandas as pd
import numpy as np

df = pd.DataFrame( [
    [np.nan, 2, np.nan, 0],
    [3, 4, np.nan, 1],
    [np.nan, np.nan, np.nan, 5],
    [np.nan, 3, np.nan, 4] ],
    columns = list('ABCD')
                  )
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


# 결측치 확인하기

In [7]:
# isnull()
print(df.isnull().sum())
df.isnull() # True로 나온 것들이 null값

A    3
B    1
C    4
D    0
dtype: int64


Unnamed: 0,A,B,C,D
0,True,False,True,False
1,False,False,True,False
2,True,True,True,False
3,True,False,True,False


In [4]:
# info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       1 non-null      float64
 1   B       3 non-null      float64
 2   C       0 non-null      float64
 3   D       4 non-null      int64  
dtypes: float64(3), int64(1)
memory usage: 256.0 bytes


# 결측치 삭제하기
- 데이터프레임.dropna() : 결측치가 존재하는 모든 행 삭제
- 데이터프레임.dropna(axis=1) : 결측치가 존재하는 모든 열 삭제

In [8]:
# 결측치가 존재하는 모든 행 삭제
df1 = df.dropna() # 실제로 적용하려면 'dropan(inplace=True)' 해줘야한다.
df1

Unnamed: 0,A,B,C,D


In [9]:
# 결측치가 존재하는 모든 열 삭제
df2 = df.dropna(axis=1)
df2

Unnamed: 0,D
0,0
1,1
2,5
3,4


In [None]:
# 결측치 처리하기

# 1) 특정 값으로 채우기
# - fillna(특정값) > 데이터프레임의 모든 결측치를 지정한 값으로 대치
# - fillna({컬럼명:값. ... }) > 컬럼별로 값을 지정하여 대치

# 2) 주변 값으로 채우기
# - 이전값으로 채우기: 데이터프레임.fillna(method='ffill')
# - 다음값으로 채우기: 데이터프레임.fillna(method='bfill')

# 3) 빈 값 제거하기
# - dropna() > 결측치가 존재하는 행 삭제
# - dropna(axis=1) > 결측치가 존재하는 열 삭제 

# 결측치 대치하기
- 특정값으로 채우기: 데이터프레임.fillna(특정값)
- 이전값으로 채우기: 데이터프레임.fillna(method='ffill')
- 다음값으로 채우기: 데이터프레임.fillna(method='bfill')
- 컬럼별로 값을 지정하여 치우기: 데이터프레임.fillna({'컬럼명1':값1, '컬럼명2':값2, ...})

## 특정값으로 채우기

In [11]:
# 0으로 채우기
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,0.0,1
2,0.0,0.0,0.0,5
3,0.0,3.0,0.0,4


In [12]:
# 평균값으로 채우기(컬럼별 평균값으로 채워진다.)
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,3.0,3.0,,5
3,3.0,3.0,,4


## 이전 값으로 채우기

In [13]:
df.fillna(method='ffill') # 데이터 값이 연속으로 null일 경우, null값이 여전히 존재

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,3.0,4.0,,5
3,3.0,3.0,,4


## 다음 값으로 채우기

In [14]:
df.fillna(method='bfill') # 데이터 값이 연속으로 null일 경우, null값이 여전히 존재

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


## 컬럼별로 대치할 값을 지정하여 채우기

In [15]:
# {'A':0, 'B':1,'C':2, 'D':3}
df.fillna({'A':0, 'B':1,'C':2, 'D':3}) # 결측치가 있다면 대체

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,0.0,1.0,2.0,5
3,0.0,3.0,2.0,4


In [16]:
# 결측치는 없는 데이터로 간주한다.
# 통계값을 구할 때 데이터의 개수에 영향을 끼친다.

# 결측치가 포함된 데이터의 통계값
- 결측치는 없는 데이터로 간주 

In [17]:
df['A'].mean()

3.0

## scores 데이터의 결측치 처리

In [20]:
df = pd.read_csv('data/scores.csv')
df.head()

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
1,Charles,90.0,80.0,75.0
2,Danial,95.0,100.0,100.0
3,Evan,100.0,100.0,100.0
4,Henry,,35.0,60.0


In [21]:
# 결측치 확인
df.isnull().sum()

name    0
kor     3
eng     2
math    1
dtype: int64

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    30 non-null     object 
 1   kor     27 non-null     float64
 2   eng     28 non-null     float64
 3   math    29 non-null     float64
dtypes: float64(3), object(1)
memory usage: 1.1+ KB


In [26]:
# 결측치를 0으로 채우기
df.fillna(0,inplace=True)
df

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
1,Charles,90.0,80.0,75.0
2,Danial,95.0,100.0,100.0
3,Evan,100.0,100.0,100.0
4,Henry,0.0,35.0,60.0
5,Ian,90.0,100.0,90.0
6,James,70.0,75.0,65.0
7,Julian,80.0,90.0,55.0
8,Justin,50.0,60.0,100.0
9,Kevin,100.0,100.0,90.0


In [27]:
##

In [28]:
# 판다스의 자료형의 종류를알고, 자료형을 변환하기 

In [29]:
# int64 : 정수형
# float64 : 실수형
# bool : 부울형
# object : 문자열
# category : 카테고리
# datatime64 : 날짜, 시간

# 자료형 확인
- 데이터프레임.dtypes
- 시리즈.dtype
- 한 시리즈에 문자열과 숫자, 문자열과 부울 등으로 데이터타입이 혼합되어 있으면 object형으로 결정된다.
- 한 시리즈에 정수와 실수가 혼합되어 있으면 float64으로 결정된다. 

In [30]:
# 샘플데이터
df = pd.DataFrame({'float':[1.0, 2.0],
                   'int':[1, 2],
                   'datetime':[pd.Timestamp('20200101'), pd.Timestamp('20210101')],
                   'string':['a','b'],
                   'bool':[True,False],
                   'object':[1,'-'], #
                   'float2':[1.0, 2] #
                  })

In [31]:
df

Unnamed: 0,float,int,datetime,string,bool,object,float2
0,1.0,1,2020-01-01,a,True,1,1.0
1,2.0,2,2021-01-01,b,False,-,2.0


## 데이터프레임의 자료형 확인

In [32]:
# 데이터프레임의 자료형 확인
df.dtypes

float              float64
int                  int64
datetime    datetime64[ns]
string              object
bool                  bool
object              object
float2             float64
dtype: object

## 시리즈의 자료형 확인

In [33]:
# int 컬럼의 자료형 확인
df['int'].dtype

dtype('int64')

## 자료형이 혼합된 컬럼의 자료형 확인

In [34]:
# 숫자형과 문자형이 혼합되어 있는 경우 각 데이터의 자료형 확인
df['object'].dtype

dtype('O')

In [37]:
# 숫자형과 문자형이 혼합되어 있는 경우 각 데이터의 자료형 확인
type(df.loc[0,'object'])

int

In [38]:
type(df.loc[1,'object'])

str

# 자료형 변환
- 데이터프레임.astype('자료형')
- 시리즈.astype('자료형')
- 자료형 변경이 불가능 한 경우 error
- pd.to_numeric(시리즈, error=에러처리옵션)

In [40]:
# 에러 처리옵션
# ignore : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음  
# coerce : 숫자로 변경할 수 없는 값은 NaN으로 설정 
# raise : 숫자로 변경할 수 없는 값이 있으면 에러 발생(default)

In [42]:
# 샘플 데이터
df = pd.DataFrame({'col1':[1,2],'col2':[3,4]})
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [43]:
df.dtypes

col1    int64
col2    int64
dtype: object

## 데이터프레임 전체 자료형 변환

In [46]:
# 실수형으로 변환
df = df.astype('float64')
df.dtypes

col1    float64
col2    float64
dtype: object

In [48]:
# 문자열로 변환
df = df.astype('str')
df.dtypes

col1    object
col2    object
dtype: object

In [49]:
df

Unnamed: 0,col1,col2
0,1.0,3.0
1,2.0,4.0


In [53]:
# 정수형으로 변환
df = df.astype('float64')
df = df.astype('int')
# df = df.astype('float64').astype('int64')
df.dtypes

col1    int32
col2    int32
dtype: object

## 컬럼의 자료형 변환

In [54]:
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [55]:
# col2의 자료형만 str로 변환 
df['col2'] = df['col2'].astype('str')
df.dtypes

col1     int32
col2    object
dtype: object

In [56]:
# col2의 자료형만 float으로 변환
df['col2'] = df['col2'].astype('float')
df.dtypes

col1      int32
col2    float64
dtype: object

In [57]:
# col2의 자료형만 int로 변환
df['col2'] = df['col2'].astype('int')
df.dtypes

col1    int32
col2    int32
dtype: object

## 자료형이 혼합된 컬럼의 자료형 변환

In [58]:
# 샘플 데이터
df = pd.DataFrame({'col1':[1, 2],'col2':[3, 4],'col3':[5,'-']})
df

Unnamed: 0,col1,col2,col3
0,1,3,5
1,2,4,-


In [59]:
df.dtypes

col1     int64
col2     int64
col3    object
dtype: object

In [61]:
# col3 컬럼을 str형으로 변환
df['col3'] = df['col3'].astype('str')
type(df.loc[0,'col3'])

str

In [62]:
# 변경할 수 없는 자료가 섞여있으면 error
df['col3'] = df['col3'].astype('int') # 문자 '-'은 숫자로 변경 불가능..
type(df.loc[0,'col3'])

ValueError: invalid literal for int() with base 10: '-'

# 자료형이 혼합된 컬럼을 숫자형으로 변경
- pd.to_numeric(컬럼,errors='ignore') : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음
- pd.to_numeric(컬럼,errors='coerce') : 숫자로 변경할 수 없는 값이 NaN으로 설정
- pd.to_numeric(컬럼,errors='raise') : 숫자로 변경할 수 없는 값이 있으면 에러발생(default)

## astype으로 변환

In [63]:
# 모든 값을 숫자로 변경할 수 있음
s1 = pd.Series(['1.0', '2', -3])
s1.astype('float')

0    1.0
1    2.0
2   -3.0
dtype: float64

In [64]:
# 숫자로 변경할 수 없는 데이터가 섞여있음
s2 = pd.Series(['1.0', '2', -3, 'a'])
s2.astype('float')

ValueError: could not convert string to float: 'a'

## to_numeric으로 변환

In [67]:
# ignore
pd.to_numeric(s2, errors='ignore')

0    1.0
1      2
2     -3
3      a
dtype: object

In [68]:
# coerce
pd.to_numeric(s2, errors='coerce')

0    1.0
1    2.0
2   -3.0
3    NaN
dtype: float64

In [69]:
# raise
pd.to_numeric(s2, errors='raise')

ValueError: Unable to parse string "a" at position 3

# 시계열 데이터로 변경
- pd.to_datetime(컬럼)

In [71]:
df = pd.read_csv('data/birth_die.csv')
df.head()

Unnamed: 0,이름,주요경력,출생,사망
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14
1,마이클잭슨,가수,1958-08-29,2009-06-25
2,스티브잡스,CEO,1955-02-24,2011-10-05
3,로빈윌리엄스,배우,1951-07-21,2014-08-11
4,앨빈토플러,미래학자,1928-10-04,2016-06-27


In [72]:
df.dtypes

이름      object
주요경력    object
출생      object
사망      object
dtype: object

## astype으로 변환

In [73]:
# 출생
df['출생'] = df['출생'].astype('datetime64')
df.dtypes

이름              object
주요경력            object
출생      datetime64[ns]
사망              object
dtype: object

## to_datetime으로 변환

In [74]:
# 사망
df['사망'] = pd.to_datetime(df['사망'])

In [75]:
df.dtypes

이름              object
주요경력            object
출생      datetime64[ns]
사망      datetime64[ns]
dtype: object