In [1]:
# Chapter 7; 데이터 정제 및 준비

In [2]:
# 이 장에서는 결측치, 중복 데이터, 문자열 처리 그리고 다른 분석적 데이터 변환에 대한 도구들을 다룬다.

In [3]:
# 다음 장에서는 데이터를 합치고 재배열하는 다양한 방법을 알아보겠다.

In [4]:
# 7.1 누락된 데이터 처리하기

In [5]:
# 누락된 데이터를 처리하는 일은 데이터 분석 애플리케이션에서 흔히 발생하는 일이다.

In [6]:
# pandas의 설계 목표 중 하나는 누락 데이터를 가능한 한 쉽게 처리할 수 있도록 하는 것이다. 

In [7]:
# 예를 들어 pandas 객체의 모든 기술 통계는 누락된 데이터를 베제하고 처리한다.

In [8]:
# pandas 객체에서 누락된 값을 표현하는 방식은 완벽하다고 할 수 없다.

In [9]:
# 산술 데이터에 한해 pandas는 누락된 데이터를 실숫값인 NaN으로 취급한다. 

In [10]:
# 이는 누락된 값을 쉽게 찾을 수 있도록 하는 파수병 역할을 한다.

In [11]:
import numpy as np
import pandas as pd
import sqlalchemy as sqla

In [12]:
string_data = pd.Series(["aardvark", "artichoke", np.nan, "avocado"])

In [13]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [14]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [15]:
# pandas에서는 R 프로그래밍 언어에서 결측치를 NA로 취급하는 개념을 차용했다. 

In [16]:
# 여기서 결측값은 존재하지 않는(null) 값의 일종으로, 변수(variable) 등이며 값은 존재하는 것이지만, 그 시점에서 아직 정해져 있지 않은 값을 표시한다.

In [17]:
# 분석 애플리케이션에서 NA 데이터는 데이터가 존재하지 않거나, 존재하더라도 데이터를 수집하는 과정 등에서 검출되지 않았음을 의미한다. 

In [18]:
# 분석을 위해 데이터를 정제하는 과정에서 결측치 자체를 데이터 수집 과정에서의 실수나 결측치로 인한 잠재적인 편향을 찾아내는 수단으로 인식하는 것은 중요하다.

In [19]:
# 파이썬의 내장 None 값 또한 NA 값으로 취급된다.

In [20]:
string_data[0] = None

In [21]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [22]:
# pandas 프로젝트에서는 결측치를 처리하는 방법을 개선하는 작업이 진행 중이지만 pandas.isnull 같은 사용자 API 함수에서는 성가신 부분을 추상화로 제거했다.

In [23]:
# [표 7-1]에 결측치 처리와 관련된 함수를 정리해두었다. [표 7-1] NA 처리 메서드 페이지 271쪽

In [24]:
# 7.1.1 누락된 데이터 골라내기

In [25]:
# 누락된 데이터를 골라내는 몇 가지 방법이 있는데, pandas.isnull이나 불리언 색인을 사용해 직접 손으로 제거하는 것도 한 가지 방법이다.

In [26]:
# 하지만 dropna를 매우 유용하게 사용할 수 있다.

In [27]:
# Series에 dropna 메서드를 적용하면 Null이 아닌 데이터와 색인값만 들어 있는 Series를 반환한다.

In [28]:
from numpy import nan as NA

In [29]:
data = pd.Series([1, NA, 3.5, NA, 7])

In [32]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [33]:
# 위 코드는 다음과 동일하다.

In [34]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [35]:
# DataFrame 객체의 경우에는 조금 복잡한데, 모두 NA 값인 로우나 컬럼을 제외시키거나 NA 값을 하나라도 포함하고 있는 로우나 컬럼을 제외시킬 수 있다.

In [36]:
# dropna는 기본적으로 NA 값을 하나라도 포함하고 있는 로우를 제외시킨다.

In [38]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                     [NA, NA, NA], [NA, 6.5, 3.]])

In [39]:
cleaned = data.dropna()

In [40]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [41]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [42]:
# how="all" 옵션을 넘기면 모두 NA 값인 로우만 제외시킨다.

In [43]:
data.dropna(how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [44]:
# 컬럼을 제외시키는 방법도 동일하게 동작한다. 옵션으로 axis=1을 넘겨주면 된다.

In [45]:
data[4] = NA

In [46]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [47]:
data.dropna(axis=1, how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [48]:
# DataFrame의 로우를 제외시키는 방법은 시계열 데이터에 주로 사용되는 경향이 있다. 

In [49]:
# 몇 개 이상의 값이 들어 있는 로우만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 된다. 

In [50]:
df = pd.DataFrame(np.random.randn(7, 3))

In [51]:
df.iloc[:4, 1] = NA

In [52]:
df.iloc[:2, 2] = NA

In [53]:
df

Unnamed: 0,0,1,2
0,-0.506369,,
1,1.591124,,
2,-0.605895,,-0.280462
3,0.264233,,0.472731
4,0.464098,0.510504,0.306848
5,-1.350583,-0.042935,-0.137964
6,0.144134,0.217377,0.825018


In [54]:
df.dropna()

Unnamed: 0,0,1,2
4,0.464098,0.510504,0.306848
5,-1.350583,-0.042935,-0.137964
6,0.144134,0.217377,0.825018


In [55]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,-0.605895,,-0.280462
3,0.264233,,0.472731
4,0.464098,0.510504,0.306848
5,-1.350583,-0.042935,-0.137964
6,0.144134,0.217377,0.825018


In [56]:
# 7.1.2 결측치 채우기

In [57]:
# 누락된 값을 제외시키지 않고(잠재적으로 다른 데이터도 함께 버려질 가능성이 있다) 데이터 상의 "구멍"을 어떻게든 메우고 싶은 경향이 있다. 

In [58]:
# 이 경우 fillna 메서드를 활용하면 되는데, fillna 메서드에 채워 넣고 싶은 값을 넘겨주면 된다.

In [59]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.506369,0.0,0.0
1,1.591124,0.0,0.0
2,-0.605895,0.0,-0.280462
3,0.264233,0.0,0.472731
4,0.464098,0.510504,0.306848
5,-1.350583,-0.042935,-0.137964
6,0.144134,0.217377,0.825018


In [60]:
# fillna에 사전값을 넘겨서 각 컬럼마다 다른 값을 채울 수도 있다.

In [61]:
df.fillna({1:0.5, 2: 0})

Unnamed: 0,0,1,2
0,-0.506369,0.5,0.0
1,1.591124,0.5,0.0
2,-0.605895,0.5,-0.280462
3,0.264233,0.5,0.472731
4,0.464098,0.510504,0.306848
5,-1.350583,-0.042935,-0.137964
6,0.144134,0.217377,0.825018


In [62]:
# fillna는 새로운 객체를 반환하지만 다음처럼 기존 객체를 변경할 수도 있다.

In [63]:
_ = df.fillna(0, inplace=True)

In [64]:
df

Unnamed: 0,0,1,2
0,-0.506369,0.0,0.0
1,1.591124,0.0,0.0
2,-0.605895,0.0,-0.280462
3,0.264233,0.0,0.472731
4,0.464098,0.510504,0.306848
5,-1.350583,-0.042935,-0.137964
6,0.144134,0.217377,0.825018


In [65]:
# 재색인에서 사용 가능한 보간 메서드는 fillna 메서드에서도 사용가능하다.

In [66]:
df = pd.DataFrame(np.random.randn(6, 3))

In [67]:
df.iloc[2:, 1] = NA

In [68]:
df.iloc[4:, 2] = NA

In [69]:
df

Unnamed: 0,0,1,2
0,-2.70521,-1.79419,1.320506
1,-1.289175,-0.330335,0.263349
2,0.694658,,0.771377
3,1.565214,,0.623885
4,1.453628,,
5,1.210549,,


In [70]:
df.fillna(method="ffill")

Unnamed: 0,0,1,2
0,-2.70521,-1.79419,1.320506
1,-1.289175,-0.330335,0.263349
2,0.694658,-0.330335,0.771377
3,1.565214,-0.330335,0.623885
4,1.453628,-0.330335,0.623885
5,1.210549,-0.330335,0.623885


In [71]:
df.fillna(method="ffill", limit=2)

Unnamed: 0,0,1,2
0,-2.70521,-1.79419,1.320506
1,-1.289175,-0.330335,0.263349
2,0.694658,-0.330335,0.771377
3,1.565214,-0.330335,0.623885
4,1.453628,,0.623885
5,1.210549,,0.623885


In [72]:
# 조금만 창의적으로 생각하면 fillna를 이용해서 매우 다양한 일을 할 수 있는데 예를 들어 Series의 평균값이나 중간값을 전달할 수도 있다.

In [73]:
data = pd.Series([1., NA, 3.5, NA, 7])

In [74]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [76]:
# fillna에 대한 설명은 [표 7-2]를 참조하자. [표 7-2] fillna 함수 인자 - 페이지 276