### 누락된 데이터 처리하기

In [1]:
import numpy as np
import pandas as pd

In [2]:
#  NaN 포함한 문자열 시리즈 만들기

string_data = pd.Series(['aardvark','artichoke',np.nan,'avocado'])

In [3]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [4]:
# NaN 값 찾기

string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [5]:
# 첫번째 값 NaN으로 바꾸기

string_data[0] = None

In [6]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 누락된 데이터 골라내기

**dropna**메소드를 적용하여 null이 아닌 데이터와 색인값만 들어 있는 Series를 반환할 수 있다.

In [7]:
from numpy import nan as NA

In [8]:
data = pd.Series([1,NA,3.5,NA,7])

In [9]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

위 코드를 다음과 같이 동일하게 표현도 가능하다.

In [10]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

DataFrame 객체의 경우 dropna는 기본적으로 NA값을 하나라도 포함하고 있는 로우를 제외시킨다.

In [11]:
data = pd.DataFrame([[1,2,3,4],[1.,NA,NA,NA],[5,3,1,2],[NA,NA,NA,NA]])

In [12]:
cleaned = data.dropna()

In [13]:
cleaned

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
2,5.0,3.0,1.0,2.0


**how = 'all'** 옵션을 넘기면 모두 NA 값인 로우만 제외시킨다.

In [14]:
data.dropna(how = 'all')

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,1.0,,,
2,5.0,3.0,1.0,2.0


컬럼을 제외시키는 방법도 동일하게 동작한다. 옵션으로 axis = 1을 넣어주면 된다.

In [15]:
# data 4번째 컬럼 NA로 채우기

data[4] = NA

data

Unnamed: 0,0,1,2,3,4
0,1.0,2.0,3.0,4.0,
1,1.0,,,,
2,5.0,3.0,1.0,2.0,
3,,,,,


In [16]:
data.dropna(axis = 1 ,how = 'all')

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,1.0,,,
2,5.0,3.0,1.0,2.0
3,,,,


DataFrame의 로우를 제외시키는 방법은 시계열 데이터에 주로 사용되는 경향이 있다.

몇 개 이상의 값이 들어 있는 로우만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 된다.

In [17]:
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,0.681988,-0.445941,0.168771
1,0.536891,-1.034989,-1.77123
2,0.931905,0.42284,1.23825
3,0.810965,-0.398331,-1.038386
4,0.434888,-0.303405,1.422791
5,1.610094,0.308038,1.770602
6,-1.207701,-0.073618,0.391211


In [18]:
# df의 1번 컬럼 0부터 3번째 row 값 까지 NA

df.iloc[:4,1] = NA
df

Unnamed: 0,0,1,2
0,0.681988,,0.168771
1,0.536891,,-1.77123
2,0.931905,,1.23825
3,0.810965,,-1.038386
4,0.434888,-0.303405,1.422791
5,1.610094,0.308038,1.770602
6,-1.207701,-0.073618,0.391211


In [19]:
# 결측치 포함값 제거

df.dropna()

Unnamed: 0,0,1,2
4,0.434888,-0.303405,1.422791
5,1.610094,0.308038,1.770602
6,-1.207701,-0.073618,0.391211


In [20]:
df.dropna(thresh = 2)

Unnamed: 0,0,1,2
0,0.681988,,0.168771
1,0.536891,,-1.77123
2,0.931905,,1.23825
3,0.810965,,-1.038386
4,0.434888,-0.303405,1.422791
5,1.610094,0.308038,1.770602
6,-1.207701,-0.073618,0.391211


### 결측치 채우기

누락된 값을 제외시키지않고 데이터 상의 **구멍**을 어떻게든 메워야할 때가 있다.

**fillna**메소드를 사용한다.

In [21]:
# fillna를 통해 0으로 메꿈

df.fillna(0)

Unnamed: 0,0,1,2
0,0.681988,0.0,0.168771
1,0.536891,0.0,-1.77123
2,0.931905,0.0,1.23825
3,0.810965,0.0,-1.038386
4,0.434888,-0.303405,1.422791
5,1.610094,0.308038,1.770602
6,-1.207701,-0.073618,0.391211


In [22]:
# fillna에 사전값을 넘겨 각 컬럼마다 다른 값을 채울수도 있다.

df.fillna({1 : 0.5, 2 : 0})

Unnamed: 0,0,1,2
0,0.681988,0.5,0.168771
1,0.536891,0.5,-1.77123
2,0.931905,0.5,1.23825
3,0.810965,0.5,-1.038386
4,0.434888,-0.303405,1.422791
5,1.610094,0.308038,1.770602
6,-1.207701,-0.073618,0.391211


In [23]:
df = pd.DataFrame(np.random.randn(6,3))

df

Unnamed: 0,0,1,2
0,-0.333403,-0.190561,1.331634
1,0.972938,-0.331739,-0.471688
2,-1.294809,-1.691412,0.149118
3,-0.258332,-1.117317,-1.216837
4,-1.138271,2.277351,-0.773008
5,1.050985,1.82293,-1.330163


In [24]:
# 3번째 row부터 NA

df.iloc[2:,1] = NA
df

Unnamed: 0,0,1,2
0,-0.333403,-0.190561,1.331634
1,0.972938,-0.331739,-0.471688
2,-1.294809,,0.149118
3,-0.258332,,-1.216837
4,-1.138271,,-0.773008
5,1.050985,,-1.330163


In [25]:
# 5번째 값부터 NA

df.iloc[4:,2] = NA

df

Unnamed: 0,0,1,2
0,-0.333403,-0.190561,1.331634
1,0.972938,-0.331739,-0.471688
2,-1.294809,,0.149118
3,-0.258332,,-1.216837
4,-1.138271,,
5,1.050985,,


In [26]:
df.fillna(method = 'ffill')

Unnamed: 0,0,1,2
0,-0.333403,-0.190561,1.331634
1,0.972938,-0.331739,-0.471688
2,-1.294809,-0.331739,0.149118
3,-0.258332,-0.331739,-1.216837
4,-1.138271,-0.331739,-1.216837
5,1.050985,-0.331739,-1.216837


## 데이터 변형

### 중복 제거하기

In [27]:
data = pd.DataFrame({ 'k1' : ['one','two'] * 3 + ['two'],
                    'k2' : [1,1,2,3,3,4,4]})

data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


**duplicated**메소드는 각 로우가 중복인지 아닌지 알려주는 불리언 Series를 소환한다.

In [28]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [30]:
# drop_duplicates()를 사용
# False인 DataFrame만 반환

data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


### 함수나 매핑을 이용해서 데이터 변형하기

In [32]:
data = pd.DataFrame({'food' : ['bacon','pulled pork','bacon','Pastrami','corned beef','Bacon','pastrami','honey ham','nova lox' ],
                    'ounces' : [4.,3.,12.,6.,7.5,8.,3.,5.,6.]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [42]:
meat_to_animal = {
    'bacon' : 'pig',
    'pulled pork' : 'cow',
    'pastrami' : 'cow',
    'corned beef' : 'cow',
    'honey ham' : 'pig', 
    'nova lox' : 'salmon'
}

meat_to_animal

{'bacon': 'pig',
 'pulled pork': 'cow',
 'pastrami': 'cow',
 'corned beef': 'cow',
 'honey ham': 'pig',
 'nova lox': 'salmon'}

In [43]:
# 대소문자를 모두 소문자로

lowerdata = data['food'].str.lower()
lowerdata

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [44]:
# map 메소드를 통해 사전 객체를 받음.

data['animal'] = lowerdata.map(meat_to_animal)

data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,cow
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [45]:
# 함수를 넘겨서 수행
data['food'].map(lambda x : meat_to_animal[x.lower()])

0       pig
1       cow
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### 값 치환하기

**fillna** : 누락된 값을 채움

**map** : 한 객체 안에서 값의 부분집합을 변경하는데 사용

**replace** : 같은 작업에 대해 좀 더 간단하고 유연한 방법 제공.

In [46]:
data = pd.Series([1.,-999.,2.,-999.,-1000.,3.,])

data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

-999는 누락된 데이터를 나타내기 위한 값

replace를 통해 NA 값으로 치환한 Series를 생성할 수 있다.

In [47]:
data.replace(-999,np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [48]:
# 여러 개의 값을 치환

data.replace([-999,-1000],np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [49]:
# 치환하려는 값마다 다른 값으로 치환

data.replace([-999,-1000],[np.nan,0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [51]:
# 리스트 대신 사전도 가능함.

data.replace({-999 : np.nan ,-1000 : 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### 축 색인 이름 바꾸기

Series처럼 함수나 새롭게 바꿀 값을 이용해서, 새로운 구조 자료를 만들지 않고 그 자리에서 바로 축 이름을 변경하는 것이 가능하다.

In [57]:
data = pd.DataFrame(np.arange(12).reshape(3,4),
                   index = ['Ohio','Colo','New'],
                   columns = ['One','Two','Three','Four'])
data

Unnamed: 0,One,Two,Three,Four
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [64]:
# Series와 동일하게 map 메소드를 사용할 수 있다.

transform = lambda x : x[:4].upper()

data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW'], dtype='object')

In [61]:
# 대문자로 변경한 축 이름을 DataFrame index에 바로 대입

data.index = data.index.map(transform)

data

Unnamed: 0,One,Two,Three,Four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [65]:
# rename을 사용해 원래 객체를 변경하지않고 새로운 객체를 생성

data.rename(index = str.title, columns = str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


rename 메소드는 사전 형식의 객체를 이용해서 축 이름 중 일부만 병경하는 것도 가능하다.

In [70]:
data.rename(index = {'OHIO' : 'INDIANA'},
           columns = {'Three' : 'peekaboo'})

Unnamed: 0,One,Two,peekaboo,Four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


원본 데이터를 바로 변경하려면 inplace = True 옵션을 사용하면 된다!

In [72]:
data.rename(index = {'OHIO' : 'INDIANA'},inplace = True)

data

Unnamed: 0,One,Two,Three,Four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11
