### 누락된 데이터 처리하기

In [1]:
import numpy as np
import pandas as pd

In [2]:
#  NaN 포함한 문자열 시리즈 만들기

string_data = pd.Series(['aardvark','artichoke',np.nan,'avocado'])

In [3]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [4]:
# NaN 값 찾기

string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [5]:
# 첫번째 값 NaN으로 바꾸기

string_data[0] = None

In [6]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 누락된 데이터 골라내기

**dropna**메소드를 적용하여 null이 아닌 데이터와 색인값만 들어 있는 Series를 반환할 수 있다.

In [7]:
from numpy import nan as NA

In [8]:
data = pd.Series([1,NA,3.5,NA,7])

In [9]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

위 코드를 다음과 같이 동일하게 표현도 가능하다.

In [10]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

DataFrame 객체의 경우 dropna는 기본적으로 NA값을 하나라도 포함하고 있는 로우를 제외시킨다.

In [11]:
data = pd.DataFrame([[1,2,3,4],[1.,NA,NA,NA],[5,3,1,2],[NA,NA,NA,NA]])

In [12]:
cleaned = data.dropna()

In [13]:
cleaned

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
2,5.0,3.0,1.0,2.0


**how = 'all'** 옵션을 넘기면 모두 NA 값인 로우만 제외시킨다.

In [14]:
data.dropna(how = 'all')

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,1.0,,,
2,5.0,3.0,1.0,2.0


컬럼을 제외시키는 방법도 동일하게 동작한다. 옵션으로 axis = 1을 넣어주면 된다.

In [15]:
# data 4번째 컬럼 NA로 채우기

data[4] = NA

data

Unnamed: 0,0,1,2,3,4
0,1.0,2.0,3.0,4.0,
1,1.0,,,,
2,5.0,3.0,1.0,2.0,
3,,,,,


In [16]:
data.dropna(axis = 1 ,how = 'all')

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,1.0,,,
2,5.0,3.0,1.0,2.0
3,,,,


DataFrame의 로우를 제외시키는 방법은 시계열 데이터에 주로 사용되는 경향이 있다.

몇 개 이상의 값이 들어 있는 로우만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 된다.

In [17]:
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,-1.053795,-0.261923,0.749499
1,0.278311,-0.769199,1.59074
2,-0.255936,-0.711793,0.348173
3,0.405429,-1.429262,3.009921
4,-0.458115,0.897058,-0.23116
5,0.302151,-1.121295,0.871172
6,1.461378,0.545755,0.512905


In [18]:
# df의 1번 컬럼 0부터 3번째 row 값 까지 NA

df.iloc[:4,1] = NA
df

Unnamed: 0,0,1,2
0,-1.053795,,0.749499
1,0.278311,,1.59074
2,-0.255936,,0.348173
3,0.405429,,3.009921
4,-0.458115,0.897058,-0.23116
5,0.302151,-1.121295,0.871172
6,1.461378,0.545755,0.512905


In [19]:
# 결측치 포함값 제거

df.dropna()

Unnamed: 0,0,1,2
4,-0.458115,0.897058,-0.23116
5,0.302151,-1.121295,0.871172
6,1.461378,0.545755,0.512905


In [20]:
df.dropna(thresh = 2)

Unnamed: 0,0,1,2
0,-1.053795,,0.749499
1,0.278311,,1.59074
2,-0.255936,,0.348173
3,0.405429,,3.009921
4,-0.458115,0.897058,-0.23116
5,0.302151,-1.121295,0.871172
6,1.461378,0.545755,0.512905


### 결측치 채우기

누락된 값을 제외시키지않고 데이터 상의 **구멍**을 어떻게든 메워야할 때가 있다.

**fillna**메소드를 사용한다.

In [21]:
# fillna를 통해 0으로 메꿈

df.fillna(0)

Unnamed: 0,0,1,2
0,-1.053795,0.0,0.749499
1,0.278311,0.0,1.59074
2,-0.255936,0.0,0.348173
3,0.405429,0.0,3.009921
4,-0.458115,0.897058,-0.23116
5,0.302151,-1.121295,0.871172
6,1.461378,0.545755,0.512905


In [22]:
# fillna에 사전값을 넘겨 각 컬럼마다 다른 값을 채울수도 있다.

df.fillna({1 : 0.5, 2 : 0})

Unnamed: 0,0,1,2
0,-1.053795,0.5,0.749499
1,0.278311,0.5,1.59074
2,-0.255936,0.5,0.348173
3,0.405429,0.5,3.009921
4,-0.458115,0.897058,-0.23116
5,0.302151,-1.121295,0.871172
6,1.461378,0.545755,0.512905


In [23]:
df = pd.DataFrame(np.random.randn(6,3))

df

Unnamed: 0,0,1,2
0,1.023854,1.737452,0.280679
1,-0.850144,0.691491,-0.76311
2,0.187219,0.90085,-2.978535
3,0.352255,1.145441,0.001289
4,-0.815328,-0.496309,-0.328317
5,-0.087995,0.903401,1.133319


In [24]:
# 3번째 row부터 NA

df.iloc[2:,1] = NA
df

Unnamed: 0,0,1,2
0,1.023854,1.737452,0.280679
1,-0.850144,0.691491,-0.76311
2,0.187219,,-2.978535
3,0.352255,,0.001289
4,-0.815328,,-0.328317
5,-0.087995,,1.133319


In [25]:
# 5번째 값부터 NA

df.iloc[4:,2] = NA

df

Unnamed: 0,0,1,2
0,1.023854,1.737452,0.280679
1,-0.850144,0.691491,-0.76311
2,0.187219,,-2.978535
3,0.352255,,0.001289
4,-0.815328,,
5,-0.087995,,


In [26]:
df.fillna(method = 'ffill')

Unnamed: 0,0,1,2
0,1.023854,1.737452,0.280679
1,-0.850144,0.691491,-0.76311
2,0.187219,0.691491,-2.978535
3,0.352255,0.691491,0.001289
4,-0.815328,0.691491,0.001289
5,-0.087995,0.691491,0.001289


## 데이터 변형

### 중복 제거하기

In [27]:
data = pd.DataFrame({ 'k1' : ['one','two'] * 3 + ['two'],
                    'k2' : [1,1,2,3,3,4,4]})

data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


**duplicated**메소드는 각 로우가 중복인지 아닌지 알려주는 불리언 Series를 소환한다.

In [28]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [29]:
# drop_duplicates()를 사용
# False인 DataFrame만 반환

data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


### 함수나 매핑을 이용해서 데이터 변형하기

In [30]:
data = pd.DataFrame({'food' : ['bacon','pulled pork','bacon','Pastrami','corned beef','Bacon','pastrami','honey ham','nova lox' ],
                    'ounces' : [4.,3.,12.,6.,7.5,8.,3.,5.,6.]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [31]:
meat_to_animal = {
    'bacon' : 'pig',
    'pulled pork' : 'cow',
    'pastrami' : 'cow',
    'corned beef' : 'cow',
    'honey ham' : 'pig', 
    'nova lox' : 'salmon'
}

meat_to_animal

{'bacon': 'pig',
 'pulled pork': 'cow',
 'pastrami': 'cow',
 'corned beef': 'cow',
 'honey ham': 'pig',
 'nova lox': 'salmon'}

In [32]:
# 대소문자를 모두 소문자로

lowerdata = data['food'].str.lower()
lowerdata

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [33]:
# map 메소드를 통해 사전 객체를 받음.

data['animal'] = lowerdata.map(meat_to_animal)

data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,cow
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [34]:
# 함수를 넘겨서 수행
data['food'].map(lambda x : meat_to_animal[x.lower()])

0       pig
1       cow
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### 값 치환하기

**fillna** : 누락된 값을 채움

**map** : 한 객체 안에서 값의 부분집합을 변경하는데 사용

**replace** : 같은 작업에 대해 좀 더 간단하고 유연한 방법 제공.

In [35]:
data = pd.Series([1.,-999.,2.,-999.,-1000.,3.,])

data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

-999는 누락된 데이터를 나타내기 위한 값

replace를 통해 NA 값으로 치환한 Series를 생성할 수 있다.

In [36]:
data.replace(-999,np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [37]:
# 여러 개의 값을 치환

data.replace([-999,-1000],np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [38]:
# 치환하려는 값마다 다른 값으로 치환

data.replace([-999,-1000],[np.nan,0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [39]:
# 리스트 대신 사전도 가능함.

data.replace({-999 : np.nan ,-1000 : 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### 축 색인 이름 바꾸기

Series처럼 함수나 새롭게 바꿀 값을 이용해서, 새로운 구조 자료를 만들지 않고 그 자리에서 바로 축 이름을 변경하는 것이 가능하다.

In [40]:
data = pd.DataFrame(np.arange(12).reshape(3,4),
                   index = ['Ohio','Colo','New'],
                   columns = ['One','Two','Three','Four'])
data

Unnamed: 0,One,Two,Three,Four
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [41]:
# Series와 동일하게 map 메소드를 사용할 수 있다.

transform = lambda x : x[:4].upper()

data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW'], dtype='object')

In [42]:
# 대문자로 변경한 축 이름을 DataFrame index에 바로 대입

data.index = data.index.map(transform)

data

Unnamed: 0,One,Two,Three,Four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [43]:
# rename을 사용해 원래 객체를 변경하지않고 새로운 객체를 생성

data.rename(index = str.title, columns = str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


rename 메소드는 사전 형식의 객체를 이용해서 축 이름 중 일부만 병경하는 것도 가능하다.

In [44]:
data.rename(index = {'OHIO' : 'INDIANA'},
           columns = {'Three' : 'peekaboo'})

Unnamed: 0,One,Two,peekaboo,Four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


원본 데이터를 바로 변경하려면 inplace = True 옵션을 사용하면 된다!

In [45]:
data.rename(index = {'OHIO' : 'INDIANA'},inplace = True)

data

Unnamed: 0,One,Two,Three,Four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


### 개별화와 양자화

연속성 데이터는 종종 개별로 분할하거나 아니면 분석을 위해 그룹별로 나누기도 한다.

In [46]:
ages = [20,22,25,27,21,23,37,31,61,45,41,32]

pandas의 cut 함수를 이용해서 **18-25, 26-35, 35-60, 60이상** 그룹으로 나누어보자.

In [47]:
bins = [18,25,35,60,100]

In [48]:
cats = pd.cut(ages,bins)

cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [49]:
# pandas.cut 결과에 대한 그룹 수

pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

In [50]:
# right = False를 통해 중괄호 쪽은 포함하지 않고 대괄호 쪽을 포함

cats = pd.cut(ages,[18,26,36,61,100], right =False)

cats

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [51]:
# labels를 통해 그룹의 이름을 직접 넘겨줌

group_names = ['Youth', 'YoungAdult','MiddleAged','Senior']

pd.cut(ages,bins,labels = group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

### 특잇값을 찾고 제외하기

In [52]:
data = pd.DataFrame(np.random.randn(1000,4))

data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.020413,0.067855,-0.046839,-0.007645
std,0.978798,0.97539,1.007893,1.018792
min,-2.816659,-2.720846,-3.478749,-2.935155
25%,-0.62553,-0.574946,-0.737337,-0.678231
50%,0.041152,0.037943,-0.075556,0.000569
75%,0.749345,0.684081,0.667337,0.662807
max,2.790754,3.05908,3.001823,3.414542


In [53]:
# 3을 초과하는 값 찾기

col = data[2]
col

0     -0.956976
1     -0.201621
2      0.551605
3      0.046859
4     -0.215468
5      0.694773
6      0.755247
7      0.523092
8      0.546168
9     -1.665605
10     0.663354
11    -0.993781
12     0.032080
13    -0.743094
14    -0.331016
15    -2.370212
16    -0.171685
17     0.856136
18     0.229169
19     0.802011
20     0.242330
21     0.394050
22    -0.804579
23    -0.622239
24    -0.752684
25    -0.742609
26    -1.074553
27     0.916428
28    -0.547229
29    -2.031355
         ...   
970   -0.086407
971   -1.738031
972   -1.560876
973   -0.797627
974   -0.195809
975    0.409735
976   -0.375594
977   -2.043285
978   -0.420062
979   -0.958352
980   -1.154195
981    0.163860
982   -0.506882
983    2.483015
984   -0.179863
985   -0.268446
986    0.570900
987   -0.328343
988   -0.449148
989   -0.967638
990   -0.291349
991    0.759005
992   -0.518735
993    0.777024
994    0.577572
995   -0.975038
996   -0.498817
997    0.860907
998    0.415926
999    0.763249
Name: 2, Length: 1000, d

In [54]:
col[np.abs(col) > 3]

171   -3.478749
594    3.001823
968   -3.192697
Name: 2, dtype: float64

절대값이 3을 초과하는 값이 들어있는 모든 로우를 선택하려면 any메소드를 사용한다.

In [55]:
data[(np.abs(data)> 3).any(1)]

Unnamed: 0,0,1,2,3
171,0.005862,-0.65655,-3.478749,0.896957
444,-1.36618,3.05908,0.276413,-1.777005
594,0.178618,1.71152,3.001823,0.438393
773,-0.684988,0.640439,-1.014539,3.414542
968,2.550057,0.85404,-3.192697,-0.731249


In [56]:
# -3이나 3을 초과하는 값을 -3 이나 3으로 지정

data[np.abs(data) > 3] = np.sign(data) * 3

data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.020413,0.067796,-0.046169,-0.008059
std,0.978798,0.97521,1.005783,1.017482
min,-2.816659,-2.720846,-3.0,-2.935155
25%,-0.62553,-0.574946,-0.737337,-0.678231
50%,0.041152,0.037943,-0.075556,0.000569
75%,0.749345,0.684081,0.667337,0.662807
max,2.790754,3.0,3.0,3.0


**np.sign(data)**는 data 값이 양수인지 음수인지에 따라 -1이나 1이 담긴 배열을 반환한다.

In [57]:
np.sign(data).head()

Unnamed: 0,0,1,2,3
0,-1.0,-1.0,-1.0,-1.0
1,-1.0,-1.0,-1.0,1.0
2,-1.0,1.0,1.0,1.0
3,-1.0,-1.0,1.0,1.0
4,1.0,1.0,-1.0,-1.0


### 치환과 임의 샘플링

In [58]:
df = pd.DataFrame(np.arange(5 * 4).reshape(5,4))

df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [59]:
# 순서를 바꾸고 싶은 만큼의 길이를 permutation 함수로 넘기면 바뀐 순서가 담긴 정수 배열이 생성
sampler = np.random.permutation(5)

sampler

array([2, 4, 1, 0, 3])

In [60]:
# 배열 사용

df.take(sampler)

Unnamed: 0,0,1,2,3
2,8,9,10,11
4,16,17,18,19
1,4,5,6,7
0,0,1,2,3
3,12,13,14,15


In [61]:
# 치환 없이 일부만 임의로 선택

df.sample(n = 3)

Unnamed: 0,0,1,2,3
0,0,1,2,3
3,12,13,14,15
2,8,9,10,11


### 데이터 합치기

**merge(병합)**이나 **join** 연산을 통하여 하나 이상이 키를 사용해서 데이터 집합의 로우를 합칠 수 있다.

In [62]:
df1 = pd.DataFrame({'key' : ['b','b','a','c','a','a','b'],
                   'data1' : range(7)})

df2 = pd.DataFrame({'key' : ['a','b','d'],
                   'data2' : range(3)})

In [63]:
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [64]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [65]:
pd.merge(df1,df2)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


merge함수는 중복된 컬럼 이름을 키로 사용한다. 명시적으로 지정해줄 수 있다.

In [66]:
pd.merge(df1,df2,on = 'key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0
