데이터에서 빠진 부분을 제거하는 방법에 대해 알아보자.  
이 예에서는 DataFrame의 일부 항목이 null 값을 가지도록 만들자.  
이 때, Numpy.nan 값은 (Not a Number), None 이런 값이 빠진 값을 의미한다.  
예를 들어 SQL에서도  
  
Insert into members(id, name, dept) values(1, '홍길동', null); // null은 Unkown, N/A (Not Applicable)  
select * from members where dept=  NULL;  
select * from members where dept is null;  
insert into members(id, name, dept) values(1, '홍길동', '소속없음');  

In [1]:
import pandas as pd
import numpy as np

In [2]:
people = {
    'first' : ['길동', '춘향', '몽룡' ,'찬호', np.nan, None, 'N/A'],
    'last' : ['홍', '성', '이' , '박', np.nan, np.nan, 'Missing'],
    'email' : ['gdhong@gamil', 'chsung@gamil.com', 'mrlee@gmail.com', np.nan, None, np.nan, 'anonymous@gmail.com'],
    'age' : [22, 18, 23, 45, None, None, 'Missing']
}

In [3]:
df = pd.DataFrame(people)

In [4]:
df

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
4,,,,
5,,,,
6,,Missing,anonymous@gmail.com,Missing


데이터프레임의 dropna()를 이용해 빠진 값을 가진 행을 제거해보자.


In [5]:
df.dropna()

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
6,,Missing,anonymous@gmail.com,Missing


dropna()는 옵션을 가진다. 옵션을 주지 않으면 다음과같은디폴트 옵션을 가진다.
dropna() == dropa(axis='index', how='any')

axis는 'index' 또는 'column'을 값으로 가진다.
axis가 'index'인 경우, 빠진 값을 가지는 행을 드롭하겠다는 의미이다
axis가 'columns'인 경우, 빠진 값을 가지는 열을 드롭하겠다는 의미이다
how가 'any'인 경우, 빠진 값이 하나라도 있으면 드롭하겠다는 의미이다.
how가 'all'인 경우, 모든 값이 빠진 경우에만 드롭하겠다는 의미이다.

In [6]:
df

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
4,,,,
5,,,,
6,,Missing,anonymous@gmail.com,Missing


In [7]:
df.dropna(axis='index', how='all')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
6,,Missing,anonymous@gmail.com,Missing


In [8]:
df.dropna(axis='columns', how='all')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
4,,,,
5,,,,
6,,Missing,anonymous@gmail.com,Missing


In [9]:
df.dropna(axis='columns', how='any')

0
1
2
3
4
5
6


# email 칼럼 값이 없는 행만 드롭(삭제) 하시오.

In [11]:
df.dropna(axis='index', subset=['email'])

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
6,,Missing,anonymous@gmail.com,Missing


In [12]:
df.dropna(axis='index', how='any')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
6,,Missing,anonymous@gmail.com,Missing


# last 칼럼 값과 eamil 칼럼 값 모두가 빠진 행을 찾아 삭제하시오.

In [13]:
df.dropna(axis='index', subset=['last','email'], how='all')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
6,,Missing,anonymous@gmail.com,Missing


In [14]:
df.dropna(axis='columns', how='all')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
4,,,,
5,,,,
6,,Missing,anonymous@gmail.com,Missing


In [15]:
df.dropna(axis='columns', how='any')

0
1
2
3
4
5
6


In [16]:
df.dropna(axis='index', subset=['email'])

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
6,,Missing,anonymous@gmail.com,Missing


last칼럼 값과 eamil 칼럼 값 모두가 빠진 경우에만 그 행을 드롭하고 싶다면

In [20]:
df.dropna(axis='index', subset=['email', 'last'], how='all')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
6,,Missing,anonymous@gmail.com,Missing


dropna() 를 통해 DataFrame 원본을 변경하고자 한다면 inplace=True 로 설정한다  
  
빠진 값을 나타내기 위해 임의로 사용한 'NA', 'Missing' 값을 다루는 방법에 대해 알아보자.  
다음과 같이 DataFrame에서 이러한 임의의 값을 np.nan 값으로 치환하자.

In [21]:
df.replace('NA', np.nan, inplace=True)

In [22]:
df

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22
1,춘향,성,chsung@gamil.com,18
2,몽룡,이,mrlee@gmail.com,23
3,찬호,박,,45
4,,,,
5,,,,
6,,Missing,anonymous@gmail.com,Missing


In [24]:
df.replace('Missing', np.nan, inplace=True)

In [25]:
df

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22.0
1,춘향,성,chsung@gamil.com,18.0
2,몽룡,이,mrlee@gmail.com,23.0
3,찬호,박,,45.0
4,,,,
5,,,,
6,,,anonymous@gmail.com,


In [26]:
df.dropna()

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22.0
1,춘향,성,chsung@gamil.com,18.0
2,몽룡,이,mrlee@gmail.com,23.0


In [27]:
df.isna()

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,True,False
4,True,True,True,True
5,True,True,True,True
6,False,True,False,True


경우에 따라, na값을 다른 값으로 치환할 필요가 있다.  
예를 들어, 과제 점수를 계산하는 경우를 고려해보자.  
  
제출이 안된 과제는 na 값을 가진다고 할 때, 그 na 값을 0으로 치환하자.  


In [28]:
df

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22.0
1,춘향,성,chsung@gamil.com,18.0
2,몽룡,이,mrlee@gmail.com,23.0
3,찬호,박,,45.0
4,,,,
5,,,,
6,,,anonymous@gmail.com,


In [29]:
df.fillna('Missing')

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22.0
1,춘향,성,chsung@gamil.com,18.0
2,몽룡,이,mrlee@gmail.com,23.0
3,찬호,박,Missing,45.0
4,Missing,Missing,Missing,Missing
5,Missing,Missing,Missing,Missing
6,,Missing,anonymous@gmail.com,Missing


In [30]:
df.fillna(0)

Unnamed: 0,first,last,email,age
0,길동,홍,gdhong@gamil,22.0
1,춘향,성,chsung@gamil.com,18.0
2,몽룡,이,mrlee@gmail.com,23.0
3,찬호,박,0,45.0
4,0,0,0,0.0
5,0,0,0,0.0
6,,0,anonymous@gmail.com,0.0
