# Python for Data Analysis - part7

##### Python의 numpy, pandas 등을 정리하였으며 파이썬 라이브러리를 활용한 데이터분석(2판)을 참고하여 작성하였습니다.
##### 해당 자료는 python 3.6 기반으로 작성되었습니다.

## 7. 데이터 정제 및 준비
### 7.1 누락된 데이터 처리하기
#### - pandas의 모든 기술 통계는 누락된 데이터를 배제하고 처리

In [2]:
import pandas as pd
import numpy as np

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
print(string_data)
print('---------------------------------')

print(string_data.isnull())
print('---------------------------------')

# None 역시 NA 값으로 취급
string_data[0] = None
print(string_data.isnull())
print('---------------------------------')

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object
---------------------------------
0    False
1    False
2     True
3    False
dtype: bool
---------------------------------
0     True
1    False
2     True
3    False
dtype: bool
---------------------------------


#### - NA 처리 메서드 : dropna(누락 데이터가 있는 축을 제외), fillna(누락된 데이터를 대신할 값을 채우거나, ffill, bfill같은 보간 메서드 활용), isnull(누락 데이터 여부 확인), notnull(isnull의 반대)

#### 7.1.1 누락된 데이터 골라내기

In [4]:
from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])

print(data.dropna())
print('---------------------------------')

print(data[data.notnull()])
print('---------------------------------')

0    1.0
2    3.5
4    7.0
dtype: float64
---------------------------------
0    1.0
2    3.5
4    7.0
dtype: float64
---------------------------------


In [11]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3]])
cleaned = data.dropna()

print(data)
print('---------------------------------')

print(cleaned)
print('---------------------------------')

# how = 'all' - 모두 NA인 로우 제거 / axis = 1 주면 컬럼 제거
print(data.dropna(how = 'all'))
print('---------------------------------')

data[4] = NA
print(data)
print('---------------------------------')

print(data.dropna(how = 'all', axis = 1))
print('---------------------------------')

df = pd.DataFrame(np.random.randn(7,3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA

print(df)
print('---------------------------------')

print(df.dropna())
print('---------------------------------')

# thresh - 일정 개수 이상 누락 데이터 포함 시 제거
print(df.dropna(thresh = 2))
print('---------------------------------')

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0
---------------------------------
     0    1    2
0  1.0  6.5  3.0
---------------------------------
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0
---------------------------------
     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN
---------------------------------
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0
---------------------------------
          0         1         2
0  0.374751       NaN       NaN
1  1.151889       NaN       NaN
2 -1.086690       NaN -0.147882
3  0.430500       NaN -1.389023
4  0.415487  1.576219  0.819519
5  0.207680 -0.343668  1.200398
6  0.190374 -1.010518 -0.123868
---------------------------------
          0         1         2
4  0.415487  1.576219  0.819519
5  0.207680 -0.343668  1.200398
6  0.190374 -1.010518 -0.123868
---------------------------------
 

#### 7.1.2 결측치 채우기

In [14]:
# fillna() - 결측치에 원하는 값으로 채워줌
print(df.fillna(0))
print('---------------------------------')

# col마다 다른 값으로 결측치를 채움
print(df.fillna({1:0.5, 2:0}))
print('---------------------------------')

# 기존 객체를 변경
_ = df.fillna(0, inplace = True)
print(df)
print('---------------------------------')

          0         1         2
0  0.374751  0.000000  0.000000
1  1.151889  0.000000  0.000000
2 -1.086690  0.000000 -0.147882
3  0.430500  0.000000 -1.389023
4  0.415487  1.576219  0.819519
5  0.207680 -0.343668  1.200398
6  0.190374 -1.010518 -0.123868
---------------------------------
          0         1         2
0  0.374751  0.500000  0.000000
1  1.151889  0.500000  0.000000
2 -1.086690  0.500000 -0.147882
3  0.430500  0.500000 -1.389023
4  0.415487  1.576219  0.819519
5  0.207680 -0.343668  1.200398
6  0.190374 -1.010518 -0.123868
---------------------------------
          0         1         2
0  0.374751  0.000000  0.000000
1  1.151889  0.000000  0.000000
2 -1.086690  0.000000 -0.147882
3  0.430500  0.000000 -1.389023
4  0.415487  1.576219  0.819519
5  0.207680 -0.343668  1.200398
6  0.190374 -1.010518 -0.123868
---------------------------------


In [16]:
df = pd.DataFrame(np.random.randn(6,3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA

print(df)
print('---------------------------------')

# method = 'ffill' / 'bfill' - 직전 값으로 결측치 채움 / 직후 값으로 결측치 채움
print(df.fillna(method = 'ffill'))
print('---------------------------------')

print(df.fillna(method = 'ffill', limit = 2))
print('---------------------------------')

# 평균값으로 결측치 처리
data = pd.Series([1, NA, 3.5, NA, 7])
print(data.fillna(data.mean()))
print('---------------------------------')

          0         1         2
0 -1.157483 -0.407362  0.250195
1  0.172116 -1.673093 -0.390411
2  0.712485       NaN  0.097377
3  0.316185       NaN -0.371901
4 -0.233688       NaN       NaN
5 -1.658817       NaN       NaN
---------------------------------
          0         1         2
0 -1.157483 -0.407362  0.250195
1  0.172116 -1.673093 -0.390411
2  0.712485 -1.673093  0.097377
3  0.316185 -1.673093 -0.371901
4 -0.233688 -1.673093 -0.371901
5 -1.658817 -1.673093 -0.371901
---------------------------------
          0         1         2
0 -1.157483 -0.407362  0.250195
1  0.172116 -1.673093 -0.390411
2  0.712485 -1.673093  0.097377
3  0.316185 -1.673093 -0.371901
4 -0.233688       NaN -0.371901
5 -1.658817       NaN -0.371901
---------------------------------
0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64
---------------------------------


#### - fillna 인자 : value(비어 있는 값을 채울 스칼라값이나 사전형태 객체), method(보간 방식, 기본적으로 ffill), axis(값을 채워 넣을 축), inplace(복사본을 생성하지 않고 호출한 객체를 변경), limit(값을 앞 혹은 뒤에서부터 몇 개까지 채울 지 지정)

### 7.2 데이터 변형
#### 7.2.1 중복 제거

In [24]:
data = pd.DataFrame({'k1' : ['one', 'two'] * 3 + ['two'], 
                    'k2' : [1,1,2,3,3,4,4]})

print(data)
print('---------------------------------')

# duplicated 메서드 - 로우가 중복인지 아닌지 판단
print(data.duplicated())
print('---------------------------------')

# drop_duplicated 메서드 - 중복되지 않은 로우 반환
print(data.drop_duplicates())
print('---------------------------------')

data['v1'] = range(7)
print(data.drop_duplicates(['k1']))
print('---------------------------------')

# keep = 'last' - 마지막으로 발견된 값을 반환
print(data.drop_duplicates(['k1', 'k2'], keep = 'last'))
print('---------------------------------')

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
6  two   4
---------------------------------
0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool
---------------------------------
    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
---------------------------------
    k1  k2  v1
0  one   1   0
1  two   1   1
---------------------------------
    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
6  two   4   6
---------------------------------


#### 7.2.2 함수나 매핑을 이용해서 데이터 변형하기

In [30]:
data = pd.DataFrame({'food' : ['bacon', 'pulled pork', 'bacon', 'pastrami', 'corned beef', 'bacon', 
                              'pastrami', 'honey ham', 'nova lox'], 
                    'ounces' : [4,3,12,6,7.5,8,3,5,6]})

print(data)
print('---------------------------------')

meat_to_animal = {'bacon' : 'pig', 'pulled pork' : 'pig', 'pastrami' : 'cow', 'corned beef' : 'cow', 
                  'honey ham' : 'pig', 'nova lox' : 'salmon'}
lowercased = data['food'].str.lower()
print(lowercased)
print('---------------------------------')

data['animal'] = lowercased.map(meat_to_animal)
print(data)
print('---------------------------------')

print(data['food'].map(lambda x: meat_to_animal[x.lower()]))
print('---------------------------------')

          food  ounces
0        bacon     4.0
1  pulled pork     3.0
2        bacon    12.0
3     pastrami     6.0
4  corned beef     7.5
5        bacon     8.0
6     pastrami     3.0
7    honey ham     5.0
8     nova lox     6.0
---------------------------------
0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object
---------------------------------
          food  ounces  animal
0        bacon     4.0     pig
1  pulled pork     3.0     pig
2        bacon    12.0     pig
3     pastrami     6.0     cow
4  corned beef     7.5     cow
5        bacon     8.0     pig
6     pastrami     3.0     cow
7    honey ham     5.0     pig
8     nova lox     6.0  salmon
---------------------------------
0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object
---------------------------------


#### 7.2.3 값 치환하기

In [34]:
data = pd.Series([1, -999, 2, -999, -1000, 3])
print(data)
print('---------------------------------')

# replace 메서드 - 치환
print(data.replace(-999, np.nan))
print('---------------------------------')

print(data.replace([-999, -1000], np.nan))
print('---------------------------------')

print(data.replace([-999, -1000], [np.nan, 0]))
print('---------------------------------')

print(data.replace({-999 : np.nan, -1000 : 0}))
print('---------------------------------')

0       1
1    -999
2       2
3    -999
4   -1000
5       3
dtype: int64
---------------------------------
0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64
---------------------------------
0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64
---------------------------------
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64
---------------------------------
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64
---------------------------------


#### 7.2.4 축 색인 이름 바꾸기

In [39]:
data = pd.DataFrame(np.arange(12).reshape(3,4), 
                   index = ['ohio', 'colorado', 'new york'], 
                   columns = ['one', 'two', 'three', 'four'])

transform = lambda x: x[:4].upper()


# index에도 map 메서드 존재
print(data.index.map(transform))
print('---------------------------------')

data.index = data.index.map(transform)
print(data)
print('---------------------------------')

# rename 메서드 - 원래 객체를 변경하지 않고 새로운 객체를 생성
print(data.rename(index = str.title, columns = str.upper))
print('---------------------------------')

print(data.rename(index = {'OHIO' : 'INDIANA'}, 
                 columns = {'three' : 'peekaboo'}))
print('---------------------------------')

Index(['OHIO', 'COLO', 'NEW '], dtype='object')
---------------------------------
      one  two  three  four
OHIO    0    1      2     3
COLO    4    5      6     7
NEW     8    9     10    11
---------------------------------
      ONE  TWO  THREE  FOUR
Ohio    0    1      2     3
Colo    4    5      6     7
New     8    9     10    11
---------------------------------
         one  two  peekaboo  four
INDIANA    0    1         2     3
COLO       4    5         6     7
NEW        8    9        10    11
---------------------------------


#### 7.2.5 개별화와 양자화

In [47]:
ages = [20,22,25,27,21,23,37,31,61,45,41,32]
bins = [18,25,35,60,100]

# pd.cut() - 그룹화
cats = pd.cut(ages, bins)
print(cats)
print('---------------------------------')

print(cats.codes)
print('---------------------------------')

print(cats.categories)
print('---------------------------------')

print(pd.value_counts(cats))
print('---------------------------------')

# right = False - 중괄호가 포함 / 대괄호가 미포함으로 변경
print(pd.cut(ages, [18,26,36,61,100], right = False))
print('---------------------------------')

# labes - 그룹의 이름
group_names = ['youth', 'youngadult', 'middleaged', 'senior']
print(pd.cut(ages, bins, labels = group_names))
print('---------------------------------')

# 그룹의 경곗값이 아닌 개수를 넘겨주면 그룹을 자동 계산
data = np.random.rand(20)
print(pd.cut(data, 4, precision = 2))
print('---------------------------------')

# pd.qcut() - 표본 변위치를 기반으로 데이터 분할(분위수 활용)
data = np.random.rand(1000)
cats = pd.qcut(data, 4) # 4분위로 분류
print(cats)
print('---------------------------------')

print(pd.value_counts(cats))
print('---------------------------------')

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]
---------------------------------
[0 0 0 1 0 0 2 1 3 2 2 1]
---------------------------------
IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]],
              closed='right',
              dtype='interval[int64]')
---------------------------------
(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64
---------------------------------
[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]
---------------------------------
['youth', 'youth', 'youth', 'youngadult', 'youth', ..., 'youngadult', 'senior', 'middleaged', 'middleaged', 'youngadult']
Length: 12
Categories (4, object): ['youth' < 'youngadult' < 'middleaged' < 'senior']
-----

#### 7.2.6 특이값을 찾고 제외하기

In [53]:
data = pd.DataFrame(np.random.randn(1000, 4))
print(data.describe())
print('---------------------------------')

col = data[2]
print(col[np.abs(col) > 3])
print('---------------------------------')

print(data[(np.abs(data) > 3).any(1)])
print('---------------------------------')

data[np.abs(data) > 3] = np.sign(data) * 3
print(data.describe())
print('---------------------------------')

# np.sign() - 값의 부호 반환
print(np.sign(data).head())
print('---------------------------------')

                 0            1            2            3
count  1000.000000  1000.000000  1000.000000  1000.000000
mean      0.009561     0.017899    -0.013613     0.011566
std       0.990680     0.992127     1.039184     1.002774
min      -2.849769    -2.801580    -3.091318    -3.065822
25%      -0.641844    -0.712660    -0.718001    -0.667808
50%      -0.009727     0.031695    -0.057747    -0.009239
75%       0.695709     0.690168     0.665854     0.695732
max       2.899501     3.573844     3.097227     3.235397
---------------------------------
221    3.097227
349   -3.091318
600   -3.009794
Name: 2, dtype: float64
---------------------------------
            0         1         2         3
129  0.804367  3.573844  0.220773  0.999105
221 -1.569531 -1.803283  3.097227  0.285832
296  0.587522 -0.236405  0.462325 -3.035230
332  0.949534 -0.409344 -0.158304  3.235397
349 -0.261726 -0.608174 -3.091318 -2.276671
470 -0.288141 -0.805625  0.300146 -3.065822
577 -0.083168  3.046086  0.466

#### 7.2.7 치환과 임의 샘플링

In [55]:
# numpy.random.permutation() - series / dataframe의 로우를 임의의 순서로 재배치
df = pd.DataFrame(np.arange(5*4).reshape(5,4))
sampler = np.random.permutation(5)
print(sampler)
print('---------------------------------')

print(df)
print('---------------------------------')

# take 메서드 - 색인
print(df.take(sampler))
print('---------------------------------')

# sample 메서드 - 치환 없이 일부만 임의로 선택 / replace = True - 복원추출
print(df.sample(n=3))
print('---------------------------------')

choices = pd.Series([5,7,-1,6,4])
draws = choices.sample(n=10, replace = True)
print(draws)
print('---------------------------------')

[4 1 0 2 3]
---------------------------------
    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
4  16  17  18  19
---------------------------------
    0   1   2   3
4  16  17  18  19
1   4   5   6   7
0   0   1   2   3
2   8   9  10  11
3  12  13  14  15
---------------------------------
    0   1   2   3
1   4   5   6   7
0   0   1   2   3
3  12  13  14  15
---------------------------------
3    6
4    4
3    6
1    7
0    5
1    7
3    6
0    5
1    7
0    5
dtype: int64
---------------------------------


#### 7.2.8 표시자 / 더미 변수 계산하기

In [57]:
# pd.get_dummies() - one_hot vector 반환
df = pd.DataFrame({'key' : ['b', 'b', 'a', 'c', 'a', 'b'], 
                  'data1' : range(6)})

print(pd.get_dummies(df['key']))
print('---------------------------------')

# prefix 인자를 통해 접두어 추가 
dummies = pd.get_dummies(df['key'], prefix = 'key')
df_with_dummy = df[['data1']].join(dummies)
print(df_with_dummy)
print('---------------------------------')

   a  b  c
0  0  1  0
1  0  1  0
2  1  0  0
3  0  0  1
4  1  0  0
5  0  1  0
---------------------------------
   data1  key_a  key_b  key_c
0      0      0      1      0
1      1      0      1      0
2      2      1      0      0
3      3      0      0      1
4      4      1      0      0
5      5      0      1      0
---------------------------------


In [58]:
np.random.seed(12345)

values = np.random.rand(10)

print(values)
print('---------------------------------')

bins = [0,0.2,0.4,0.6,0.8,1]
print(pd.get_dummies(pd.cut(values, bins)))
print('---------------------------------')

[0.92961609 0.31637555 0.18391881 0.20456028 0.56772503 0.5955447
 0.96451452 0.6531771  0.74890664 0.65356987]
---------------------------------
   (0.0, 0.2]  (0.2, 0.4]  (0.4, 0.6]  (0.6, 0.8]  (0.8, 1.0]
0           0           0           0           0           1
1           0           1           0           0           0
2           1           0           0           0           0
3           0           1           0           0           0
4           0           0           1           0           0
5           0           0           1           0           0
6           0           0           0           0           1
7           0           0           0           1           0
8           0           0           0           1           0
9           0           0           0           1           0
---------------------------------


### 7.3 문자열 다루기
#### 7.3.1 문자열 객체 메서드

In [65]:
val = 'a,b, guido'

# split 메서드 - 특정 구분자를 기준으로 문자열 분리
print(val.split(','))
print('---------------------------------')

# strip 메서드 - 공백문자(줄바꿈 포함) 제거
pieces = [x.strip() for x in val.split(',')]
print(pieces)
print('---------------------------------')

first, second, third = pieces
print(first + "::" + second + "::" + third )
print('---------------------------------')

# join 메서드  - 각 문자들 사이에 추가
print('::'.join(pieces))
print('---------------------------------')

# in 메서드 - 일치하는 부분문자열 찾기 
print('guido' in val)
print('---------------------------------')

# find 메서드는 문자열이 없으면 -1 반환 / index 메서드는 문자열이 없으면 예외 발생
print(val.index(','))
print('---------------------------------')

print(val.find(':'))
print('---------------------------------')

# count 메서드 - 특정 부분문자열이 몇 건 발견되었는지 반환
print(val.count(','))
print('---------------------------------')

# replace 메서드 - 찾아낸 패턴을 다른 문자열로 치환
print(val.replace(',', '::'))
print('---------------------------------')

['a', 'b', ' guido']
---------------------------------
['a', 'b', 'guido']
---------------------------------
a::b::guido
---------------------------------
a::b::guido
---------------------------------
True
---------------------------------
1
---------------------------------
-1
---------------------------------
2
---------------------------------
a::b:: guido
---------------------------------


#### - 파이썬 내장 문자열 함수 : count(겹치지 않는 부분문자열 개수), endswith(주어진 접미사 일치), startswith(주어진 접두사 일치), join(문자열 구분자로 하여 다른 문자열을 이어 붙임), index(부분문자열의 첫 번째 글자의 위치 반환), find(첫번째 부분문자열의 첫번쨰 글자위치 반환), rfind(마지막 부분문자열의 첫번째 글자 위치 반환), replace(치환), strip/rstrip/lstrip(공백제거), split(분리), lower(소문자 변환), upper(대문자 변환), ljust/rjust(왼쪽, 오른쪽 정렬)

#### 7.3.2 정규 표현식 - 생략 
#### - 따로 정리 예정

#### 7.3.3 pandas의 벡터화된 문자열 함수
#### - 벡터화된 문자열 메서드 : cat(문자열 이어 붙임), contains(패턴, 정규 표현식 포함 여부 반환), count(일치하는 패턴 수), extract(문자열이 담긴 series에서 하나 이상의 문자열 추출하기 위해 정규 표현식 이용), endswith(x.endswith 동일), startswith(x.startswith 동일), findall(일치하는 패턴/정규표현식 전체 목록 반환), get(i번째 요소 반환), join(구분자로 연결), len(길이), lower/upper(소문자/대문자), match(주어진 정규 표현식으로 각 요소에 대한 re.match를 수행하여 일치하는 그룹을 리스트로 반환), pad(문자열 좌, 우 혹은 양쪽에 공백 추가), repeat(값 복사), replace(패턴/정규표현식과 일치하는 내용을 다른 문자열로 치환), slice(seires 안에 있는 각 문자열을 자른다), split(정규 표현식 혹은 구분자로 문자열 나눔), strip/lstrip/rstrip(공백 제거)