### 누락된 데이터 처리하기

In [1]:
import numpy as np
import pandas as pd

In [2]:
#  NaN 포함한 문자열 시리즈 만들기

string_data = pd.Series(['aardvark','artichoke',np.nan,'avocado'])

In [3]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [4]:
# NaN 값 찾기

string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [5]:
# 첫번째 값 NaN으로 바꾸기

string_data[0] = None

In [6]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 누락된 데이터 골라내기

**dropna**메소드를 적용하여 null이 아닌 데이터와 색인값만 들어 있는 Series를 반환할 수 있다.

In [7]:
from numpy import nan as NA

In [8]:
data = pd.Series([1,NA,3.5,NA,7])

In [9]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

위 코드를 다음과 같이 동일하게 표현도 가능하다.

In [10]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

DataFrame 객체의 경우 dropna는 기본적으로 NA값을 하나라도 포함하고 있는 로우를 제외시킨다.

In [11]:
data = pd.DataFrame([[1,2,3,4],[1.,NA,NA,NA],[5,3,1,2],[NA,NA,NA,NA]])

In [12]:
cleaned = data.dropna()

In [13]:
cleaned

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
2,5.0,3.0,1.0,2.0


**how = 'all'** 옵션을 넘기면 모두 NA 값인 로우만 제외시킨다.

In [14]:
data.dropna(how = 'all')

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,1.0,,,
2,5.0,3.0,1.0,2.0


컬럼을 제외시키는 방법도 동일하게 동작한다. 옵션으로 axis = 1을 넣어주면 된다.

In [15]:
# data 4번째 컬럼 NA로 채우기

data[4] = NA

data

Unnamed: 0,0,1,2,3,4
0,1.0,2.0,3.0,4.0,
1,1.0,,,,
2,5.0,3.0,1.0,2.0,
3,,,,,


In [16]:
data.dropna(axis = 1 ,how = 'all')

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,1.0,,,
2,5.0,3.0,1.0,2.0
3,,,,


DataFrame의 로우를 제외시키는 방법은 시계열 데이터에 주로 사용되는 경향이 있다.

몇 개 이상의 값이 들어 있는 로우만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 된다.

In [17]:
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,1.011864,-1.836527,0.186115
1,0.401482,-1.383495,1.103127
2,-1.047123,-0.386099,0.17272
3,-0.841342,-0.127942,-0.424155
4,-0.914141,0.524154,0.103281
5,1.263438,1.109006,0.2343
6,-2.080842,-1.379893,-0.585154


In [18]:
# df의 1번 컬럼 0부터 3번째 row 값 까지 NA

df.iloc[:4,1] = NA
df

Unnamed: 0,0,1,2
0,1.011864,,0.186115
1,0.401482,,1.103127
2,-1.047123,,0.17272
3,-0.841342,,-0.424155
4,-0.914141,0.524154,0.103281
5,1.263438,1.109006,0.2343
6,-2.080842,-1.379893,-0.585154


In [19]:
# 결측치 포함값 제거

df.dropna()

Unnamed: 0,0,1,2
4,-0.914141,0.524154,0.103281
5,1.263438,1.109006,0.2343
6,-2.080842,-1.379893,-0.585154


In [20]:
df.dropna(thresh = 2)

Unnamed: 0,0,1,2
0,1.011864,,0.186115
1,0.401482,,1.103127
2,-1.047123,,0.17272
3,-0.841342,,-0.424155
4,-0.914141,0.524154,0.103281
5,1.263438,1.109006,0.2343
6,-2.080842,-1.379893,-0.585154


### 결측치 채우기

누락된 값을 제외시키지않고 데이터 상의 **구멍**을 어떻게든 메워야할 때가 있다.

**fillna**메소드를 사용한다.

In [21]:
# fillna를 통해 0으로 메꿈

df.fillna(0)

Unnamed: 0,0,1,2
0,1.011864,0.0,0.186115
1,0.401482,0.0,1.103127
2,-1.047123,0.0,0.17272
3,-0.841342,0.0,-0.424155
4,-0.914141,0.524154,0.103281
5,1.263438,1.109006,0.2343
6,-2.080842,-1.379893,-0.585154


In [22]:
# fillna에 사전값을 넘겨 각 컬럼마다 다른 값을 채울수도 있다.

df.fillna({1 : 0.5, 2 : 0})

Unnamed: 0,0,1,2
0,1.011864,0.5,0.186115
1,0.401482,0.5,1.103127
2,-1.047123,0.5,0.17272
3,-0.841342,0.5,-0.424155
4,-0.914141,0.524154,0.103281
5,1.263438,1.109006,0.2343
6,-2.080842,-1.379893,-0.585154


In [23]:
df = pd.DataFrame(np.random.randn(6,3))

df

Unnamed: 0,0,1,2
0,0.094517,-0.119982,-0.485416
1,-0.603283,-1.340543,0.241389
2,0.791302,-1.709366,1.478037
3,-2.197991,-0.977971,1.100445
4,1.010004,1.363414,-0.427775
5,-0.943204,-0.256612,-1.082514


In [24]:
# 3번째 row부터 NA

df.iloc[2:,1] = NA
df

Unnamed: 0,0,1,2
0,0.094517,-0.119982,-0.485416
1,-0.603283,-1.340543,0.241389
2,0.791302,,1.478037
3,-2.197991,,1.100445
4,1.010004,,-0.427775
5,-0.943204,,-1.082514


In [25]:
# 5번째 값부터 NA

df.iloc[4:,2] = NA

df

Unnamed: 0,0,1,2
0,0.094517,-0.119982,-0.485416
1,-0.603283,-1.340543,0.241389
2,0.791302,,1.478037
3,-2.197991,,1.100445
4,1.010004,,
5,-0.943204,,


In [26]:
df.fillna(method = 'ffill')

Unnamed: 0,0,1,2
0,0.094517,-0.119982,-0.485416
1,-0.603283,-1.340543,0.241389
2,0.791302,-1.340543,1.478037
3,-2.197991,-1.340543,1.100445
4,1.010004,-1.340543,1.100445
5,-0.943204,-1.340543,1.100445


## 데이터 변형

### 중복 제거하기

In [27]:
data = pd.DataFrame({ 'k1' : ['one','two'] * 3 + ['two'],
                    'k2' : [1,1,2,3,3,4,4]})

data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


**duplicated**메소드는 각 로우가 중복인지 아닌지 알려주는 불리언 Series를 소환한다.

In [28]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [29]:
# drop_duplicates()를 사용
# False인 DataFrame만 반환

data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


### 함수나 매핑을 이용해서 데이터 변형하기

In [30]:
data = pd.DataFrame({'food' : ['bacon','pulled pork','bacon','Pastrami','corned beef','Bacon','pastrami','honey ham','nova lox' ],
                    'ounces' : [4.,3.,12.,6.,7.5,8.,3.,5.,6.]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [31]:
meat_to_animal = {
    'bacon' : 'pig',
    'pulled pork' : 'cow',
    'pastrami' : 'cow',
    'corned beef' : 'cow',
    'honey ham' : 'pig', 
    'nova lox' : 'salmon'
}

meat_to_animal

{'bacon': 'pig',
 'pulled pork': 'cow',
 'pastrami': 'cow',
 'corned beef': 'cow',
 'honey ham': 'pig',
 'nova lox': 'salmon'}

In [32]:
# 대소문자를 모두 소문자로

lowerdata = data['food'].str.lower()
lowerdata

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [33]:
# map 메소드를 통해 사전 객체를 받음.

data['animal'] = lowerdata.map(meat_to_animal)

data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,cow
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [34]:
# 함수를 넘겨서 수행
data['food'].map(lambda x : meat_to_animal[x.lower()])

0       pig
1       cow
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### 값 치환하기

**fillna** : 누락된 값을 채움

**map** : 한 객체 안에서 값의 부분집합을 변경하는데 사용

**replace** : 같은 작업에 대해 좀 더 간단하고 유연한 방법 제공.

In [35]:
data = pd.Series([1.,-999.,2.,-999.,-1000.,3.,])

data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

-999는 누락된 데이터를 나타내기 위한 값

replace를 통해 NA 값으로 치환한 Series를 생성할 수 있다.

In [36]:
data.replace(-999,np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [37]:
# 여러 개의 값을 치환

data.replace([-999,-1000],np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [38]:
# 치환하려는 값마다 다른 값으로 치환

data.replace([-999,-1000],[np.nan,0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [39]:
# 리스트 대신 사전도 가능함.

data.replace({-999 : np.nan ,-1000 : 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### 축 색인 이름 바꾸기

Series처럼 함수나 새롭게 바꿀 값을 이용해서, 새로운 구조 자료를 만들지 않고 그 자리에서 바로 축 이름을 변경하는 것이 가능하다.

In [40]:
data = pd.DataFrame(np.arange(12).reshape(3,4),
                   index = ['Ohio','Colo','New'],
                   columns = ['One','Two','Three','Four'])
data

Unnamed: 0,One,Two,Three,Four
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [41]:
# Series와 동일하게 map 메소드를 사용할 수 있다.

transform = lambda x : x[:4].upper()

data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW'], dtype='object')

In [42]:
# 대문자로 변경한 축 이름을 DataFrame index에 바로 대입

data.index = data.index.map(transform)

data

Unnamed: 0,One,Two,Three,Four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [43]:
# rename을 사용해 원래 객체를 변경하지않고 새로운 객체를 생성

data.rename(index = str.title, columns = str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


rename 메소드는 사전 형식의 객체를 이용해서 축 이름 중 일부만 병경하는 것도 가능하다.

In [44]:
data.rename(index = {'OHIO' : 'INDIANA'},
           columns = {'Three' : 'peekaboo'})

Unnamed: 0,One,Two,peekaboo,Four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


원본 데이터를 바로 변경하려면 inplace = True 옵션을 사용하면 된다!

In [45]:
data.rename(index = {'OHIO' : 'INDIANA'},inplace = True)

data

Unnamed: 0,One,Two,Three,Four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


### 개별화와 양자화

연속성 데이터는 종종 개별로 분할하거나 아니면 분석을 위해 그룹별로 나누기도 한다.

In [46]:
ages = [20,22,25,27,21,23,37,31,61,45,41,32]

pandas의 cut 함수를 이용해서 **18-25, 26-35, 35-60, 60이상** 그룹으로 나누어보자.

In [47]:
bins = [18,25,35,60,100]

In [49]:
cats = pd.cut(ages,bins)

cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [50]:
# pandas.cut 결과에 대한 그룹 수

pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

In [52]:
# right = False를 통해 중괄호 쪽은 포함하지 않고 대괄호 쪽을 포함

cats = pd.cut(ages,[18,26,36,61,100], right =False)

cats

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [53]:
# labels를 통해 그룹의 이름을 직접 넘겨줌

group_names = ['Youth', 'YoungAdult','MiddleAged','Senior']

pd.cut(ages,bins,labels = group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

### 특잇값을 찾고 제외하기

In [55]:
data = pd.DataFrame(np.random.randn(1000,4))

data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.026114,0.018561,-0.066579,0.025234
std,0.98459,1.000485,1.027461,0.946449
min,-2.816198,-3.495221,-4.39759,-2.982359
25%,-0.702878,-0.634528,-0.720873,-0.600573
50%,-0.001161,0.052291,-0.061101,0.01894
75%,0.660648,0.685458,0.652969,0.676711
max,3.396733,3.764497,3.21802,2.952945


In [57]:
# 3을 초과하는 값 찾기

col = data[2]
col

0     -1.725390
1     -0.578297
2      0.960271
3     -1.456434
4      1.616752
5     -0.673567
6      0.202373
7      1.111286
8     -0.885154
9     -0.376886
10    -1.230425
11    -0.487353
12    -0.476828
13     2.096356
14    -0.046805
15     1.079666
16    -0.127555
17     0.791225
18    -1.099009
19     0.146354
20    -0.147785
21     1.527228
22     0.631788
23    -0.844932
24     0.229261
25     0.392001
26     0.139550
27     0.913450
28     0.149912
29    -0.984834
         ...   
970    0.822629
971   -0.049457
972    1.850952
973    0.328272
974   -0.376209
975   -2.763251
976    0.534774
977    0.768866
978    0.662531
979   -1.445529
980   -0.208007
981   -1.333587
982   -1.177538
983   -0.015522
984    1.038678
985    0.554396
986   -1.303527
987   -0.881991
988    0.066824
989   -0.248777
990   -0.250287
991   -1.051314
992   -0.213599
993    0.667577
994   -0.205830
995   -0.430779
996   -1.444455
997   -0.700551
998   -1.635486
999   -0.035435
Name: 2, Length: 1000, d

In [58]:
col[np.abs(col) > 3]

316    3.218020
537    3.068302
659   -4.397590
938   -3.175280
Name: 2, dtype: float64

절대값이 3을 초과하는 값이 들어있는 모든 로우를 선택하려면 any메소드를 사용한다.

In [59]:
data[(np.abs(data)> 3).any(1)]

Unnamed: 0,0,1,2,3
101,0.387424,-3.184855,-1.491922,-0.912869
187,0.403445,-3.388374,-0.51156,1.521805
313,0.7989,3.764497,-0.452174,-0.436385
316,-0.67298,0.870026,3.21802,-0.423626
537,-2.442005,0.523472,3.068302,-0.162665
659,-0.078078,-1.649192,-4.39759,0.996389
872,3.396733,-0.186764,-0.703163,-1.929854
938,-0.776358,0.028246,-3.17528,-0.809255
961,-0.834037,-3.495221,-0.553359,-0.003033


In [64]:
# -3이나 3을 초과하는 값을 -3 이나 3으로 지정

data[np.abs(data) > 3] = np.sign(data) * 3

data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.02651,0.018865,-0.065293,0.025234
std,0.983289,0.994451,1.021099,0.946449
min,-2.816198,-3.0,-3.0,-2.982359
25%,-0.702878,-0.634528,-0.720873,-0.600573
50%,-0.001161,0.052291,-0.061101,0.01894
75%,0.660648,0.685458,0.652969,0.676711
max,3.0,3.0,3.0,2.952945


**np.sign(data)**는 data 값이 양수인지 음수인지에 따라 -1이나 1이 담긴 배열을 반환한다.

In [65]:
np.sign(data).head()

Unnamed: 0,0,1,2,3
0,-1.0,1.0,-1.0,-1.0
1,1.0,1.0,-1.0,1.0
2,1.0,1.0,1.0,1.0
3,1.0,1.0,-1.0,1.0
4,-1.0,1.0,1.0,-1.0
