# **CHAPTER_7**

## **7.1 누락된 데이터 처리하기**

pandas 객체의 모든 기술 통계는 누락된 데이터를 배제하고 처리한다. NaN으로 표현된 누락 데이터는 결측치를 쉽게 찾을 수 있는 파수병 역할을 한다. NA 처리 메서드를 통해서 누락된 데이터에 대해 보간 메서드, 위치 반환 메서드를 사용할 수 있다. 또한 dropna를 이용하여 결측값을 반환할 수 있다. 결측치에 대해 특정 개수 이상의 값이 포함된 행만 살펴보고자 할 경우 thresh 인자에 원하는 값을 넘겨서 사용할 수 있다. 

In [None]:
import pandas as pd
import numpy as np
from numpy import nan as NA
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,0.603498,,
1,-1.366696,,
2,0.26747,,-0.084613
3,-0.631287,,0.602923
4,0.615495,0.720465,-0.295786
5,0.936072,0.366512,0.464747
6,1.428726,-1.729539,1.015014


In [None]:
df.dropna()

Unnamed: 0,0,1,2
4,0.615495,0.720465,-0.295786
5,0.936072,0.366512,0.464747
6,1.428726,-1.729539,1.015014


In [None]:
df.dropna(thresh = 2) # 결측이 하나 있는 경우 출력이 되는 것을 확인할 수 있다. 

Unnamed: 0,0,1,2
2,0.26747,,-0.084613
3,-0.631287,,0.602923
4,0.615495,0.720465,-0.295786
5,0.936072,0.366512,0.464747
6,1.428726,-1.729539,1.015014


### **7.1.2 결측치 채우기**

fillna를 통해 값을 채울 수 있는데 사전 값을 넘겨서 각 컬럼마다 다른 값을 채울 수 있다. 또한 inplace를 사용하여 기존 객체를 변경할 수 있다. 보간 메서드를 통해서도 값을 채울 수 있으며 이는 fillna 메서드에서 지원한다. fillna 함수 인자는 value, method, axis, inplace, limit이 있다. 

## **7.2 데이터 변형** 

### **7.2.1 중복 제거하기** 

duplicated와 drop_duplicates를 통해 중복 여부를 확인하고 특정 칼럼에 대한 중복 값을 제거할 수 있으며 keep 옵션을 사용하여 위치에 대한 값을 반환할 수 있다. 

### **7.2.2 함수나 매핑을 이용해서 데이터 변형하기** 

In [None]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
                              'Pastrami', 'corned beef', 'Bacon',
                              'pastrami', 'honey ham', 'nova lox'],
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [None]:
meat_to_animal = {
  'bacon': 'pig',
  'pulled pork': 'pig',
  'pastrami': 'cow',
  'corned beef': 'cow',
  'honey ham': 'pig',
  'nova lox': 'salmon'
}

In [None]:
# 문자형 데이터 소문자 전환
lowercased = data['food'].str.lower()

In [None]:
# 매핑 함수를 통해 데이터 변형 

data['animal'] = lowercased.map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [None]:
data['food'].map(lambda x: meat_to_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### **7.2.3 값 치환하기**

In [None]:
data = pd.Series([1., -999.,2.,  -1000., 3.])

In [None]:
# 변경 대상과 변경하여 대입할 값을 지정할 수 있으며 변경 대상은 리스트 형식으로도 지정할 수 있다 
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3   -1000.0
4       3.0
dtype: float64

### **7.2.4 축 색인 이름 바꾸기** 

객체를 변경하지 않고 새로운 객체를 생성하기 위해서는 rename 메서드를 사용할 수 있고 축 색인에 map 메서드를 적용하여 index에 바로 대입할 수도 있다. 

In [None]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

In [None]:
# upper 대문자 lower 소문자 
transform = lambda x: x[:4].upper()
data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [None]:
data.index = data.index.map(transform)

### **7.2.5 개별화와 양자화**

연속형 데이터를 개별로 분활하거나 그룹으로 나눌 때 codes 속성은 카테고리 이름을 배열에 내부적으로 담고 있다. 또한 판다스에서 지원하는 value_count르르 통해서 그룹별 수를 확인할 수 있다. 간격은 중괄호를 통해 확인할 수 있는데 중괄호 쪽 값은 포함하지 않고 대괄호 쪽의 값은 포함하는 간격을 나타낸다. right=False를 이용하면 포함 조건을 반대로 바꿀 수 있다. 또한 precision 옵션을 사용해 소수점 아래 부분의 수를 제한할 수 있다. qcut을 사용하면 표본 변위치를 기반으로 데이터를 분할할 수 있고 동일한 크기의 그룹으로 나눌 수 있다. 

In [None]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [None]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [None]:
pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

### **7.2.6 특잇값을 찾고 제외하기**

In [None]:
# 절댓값을 기준으로 조건에 해당하는 모든 행 선택(절댓값이 3 이상인 것이 하나라도 포함된 행 선택)
data = pd.DataFrame(np.random.randn(1000, 4))
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
209,0.101585,-0.832733,-0.291151,3.886977
263,-3.218439,-1.401915,-0.688124,-0.315651
294,-1.704227,3.018976,1.470729,0.374074
396,-0.6501,-0.74877,0.32845,3.064566
512,-2.339163,-1.821855,-3.034825,1.22167
528,1.287845,-0.35036,-3.065524,0.860451
722,3.173796,2.099713,0.414097,0.20135
809,-1.552257,-1.503603,3.252304,0.493005
966,-0.17223,-1.422545,3.291782,0.468367


In [None]:
# np.sign은 음수, 양수에 따라 -1, 1 값을 반환한다.
data[np.abs(data) > 3] = np.sign(data) *3

In [None]:
data

Unnamed: 0,0,1,2,3
0,0.571023,1.142138,0.637058,-1.481158
1,0.742200,-1.421498,0.467682,-0.144367
2,-2.033932,-0.080592,0.632151,0.121356
3,1.998277,-1.861057,-1.233070,1.340170
4,1.214917,-0.194039,-0.496088,-1.977147
...,...,...,...,...
995,-0.705836,-1.035110,-0.433791,-0.456138
996,-1.411754,1.327723,-1.104501,0.263573
997,-0.509437,0.541451,1.194625,-0.212026
998,1.529839,-0.965808,0.285367,-0.102350


### **7.2.7 치환과 임의 샘플링** 

permutation 함수를 이용하면 Series나 Dataframe의 로우를 쉽게 지정하고자 하는 순서대로 재배치할 수 있다. 순서를 바꾸고 싶은 길이만큼 인자로 사용하면 변경된 순서가 담긴 정수 배열이 생성된다. 이는 색인 기반의 함수 혹은 take 함수에서 사용할 수 있다. 

In [None]:
df = pd.DataFrame(np.arange(5*4).reshape((5,4)))
sampler = np.random.permutation(5)
sampler

array([1, 4, 0, 2, 3])

In [None]:
df.take(sampler)

Unnamed: 0,0,1,2,3
1,4,5,6,7
4,16,17,18,19
0,0,1,2,3
2,8,9,10,11
3,12,13,14,15


### **7.2.8 표시자/더미 변수 계산하기**

더미 행렬을 통해 값의 위치를 표현할 수 있는데 이를 위해서는 판다스의 get_dummies 함수가 사용된다. 

In [None]:
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
pd.get_dummies(df['key'])

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [None]:
dummies = pd.get_dummies(df['key'], prefix = 'key')
df[['data1']].join(dummies)

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0,1,0
1,1,0,1,0
2,2,1,0,0
3,3,0,0,1
4,4,1,0,0
5,5,0,1,0


## **7.3 문자열 다루기**

### **7.3.1 문자열 객체 메서드**

파이썬의 기본 메서드를 통해서 문자열을 분리 및 편집할 수 있으며 strip 메서드의 경우 공백 문자(줄바꿈)에 대해서도 적용할 수 있다. 또한 더하기 연산을 통해서 문자열을 합칠 수 있으며 문자열을 기준으로 값의 위치 또한 확인할 수 있다. 

### **7.3.2 정규 표현식**

정규 표현식은 텍스트에서 문자열 패턴을 찾는 방법을 제공하며 다른 방법들에 비해 유연하게 사용할 수 있다. 단일 표현식은 regex라 불리는 문자열이며 re 모듈이 내장되어 있어 정규 표현식을 통해 처리할 수 있다. re 모듈 함수를 통해 패턴 매칭, 치환, 분리 세 가지를 수행할 수 있으며 |s+ 명령어를 통해 사용할 수 있다. match 객체를 이용하여 groups 메서드로 각 패턴 컴포넌트의 튜플을 얻을 수 있다. 이때 부여된 각 패턴에 따라 문자열이 분리된 패턴을 얻을 수 있다. 



> **r'의 의미:** The r means that the string is to be treated as a raw string, which means all escape codes will be ignored



In [None]:
import re
text = "foo bar\t vas \tqux"

In [None]:
re.split("\s+", text)

['foo', 'bar', 'vas', 'qux']

In [None]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

# re.IGNORECASE makes the regex case-insensitive
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [None]:
# search는 텍스트에서 첫번째 값만 찾는다. m(첫번째 메일 인덱스)을 기준으로 기존의 text를 분할한다. 
m = regex.search(text)
text[m.start():m.end()]

'dave@google.com'

In [None]:
# 사용자 이름, 도메인 이름, 도메인 접미사 세가지 컴포넌트로 나누기 위해 각 패턴을 괄호로 묶는다. 
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
m = regex.match('wesm@bright.net')
m.groups()

('wesm', 'bright', 'net')

이외에도 sub, subn 인자를 이용하여 패턴 혹은 처음 n개의 패턴을 대체 표현할 수 있다. 표현 문자열은 별도의 기호를 사용해서 매치 그룹의 요소를 참조한다. 

### **7.3.3 pandas의 벡터화된 문자열 함수**

문자열과 정규 표현식 메서드는 data.map을 사용해서 각 값에 적용가능하지만 NA값이 포함될 경우 제대로 수행하지 못하는 경우가 발생한다. Series에 str속성을 이용하여 해당 부분에 대한 조건을 부여할 수 있으며 IGNORECASE와 같은 정규식(re) 옵션을 사용할 수도 있다. 

In [None]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

In [None]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [None]:
# re.IGNORECASE 대소문자 구분없이 매치를 할 때 사용 

data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object