# 데이터 전처리
- 데이터 분석 및 모델링 작업에서는 데이터를 불러오고, 정제하고, 변형하고, 재정렬하는 데이터 전처리 과정에 많은 시간을 소비함
- 분석 시간의 80%를 소비하는 경우도 있음
- 판다스를 사용하면 데이터를 원하는 형태로 쉽게 가공할 수 있음
- 판다스는 누락된 산술 데이터를 NaN(Not a Number)로 취급
- 결측치는 NA(Not Available)로 취급하고 NA 데이터는 데이터가 존재하지 않거나, 존재하더라도 데이터 수집과정에서 검출되지 않았음을 의미
- 분석을 위해 데이터를 정제하는 과정에서 결측치를 제거하는 것이 중요
- 파이썬의 내장 None 값 또한 NA로 취급됨

In [1]:
import numpy as np
import pandas as pd

## 누락된 데이터 처리

In [3]:
# 결측치(null, nan 등) 확인
string_data = pd.Series(['원숭이', '악어', np.nan, '고양이'])
print(string_data)
string_data.isnull() # null인지 확인

0    원숭이
1     악어
2    NaN
3    고양이
dtype: object


0    False
1    False
2     True
3    False
dtype: bool

In [4]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

### 누락된 데이터 처리

In [5]:
from numpy import nan as NA # nan을 NA로 저장
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna() # dropna() : 널이 아닌 데이터와 인덱스값만 있는 Series를 반환

0    1.0
2    3.5
4    7.0
dtype: float64

In [6]:
data[data.notnull()] # 위와 동일한 과정

0    1.0
2    3.5
4    7.0
dtype: float64

In [7]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                     [NA, NA, NA], [NA, 6.5, 3.]])
print(data)
cleaned = data.dropna() # NA 값을 하나라도 포함하고 있는 행을 제외
cleaned

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0


Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [8]:
data.dropna(how='all') # 행의 모든 값이 NA인 경우에 제외

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [9]:
data[4] = NA
print(data)
data.dropna(axis=1, how='all') # 열의 모든 값이 NA인 경우에 제외

     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [10]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
print(df)
df.dropna()
df.dropna(thresh=2) # 2개 이상의 결측치를 갖는 행만 제거

          0         1         2
0 -0.915312       NaN       NaN
1 -0.806513       NaN       NaN
2 -2.465461       NaN  0.091884
3 -0.347744       NaN  0.262244
4 -1.168309 -0.398932 -0.538282
5  1.150479  0.807672 -2.012498
6  1.479326 -0.573273 -1.471205


Unnamed: 0,0,1,2
2,-2.465461,,0.091884
3,-0.347744,,0.262244
4,-1.168309,-0.398932,-0.538282
5,1.150479,0.807672,-2.012498
6,1.479326,-0.573273,-1.471205


### 결측치 채우기

In [11]:
df.fillna(0) # 결측치를 0으로 변경

Unnamed: 0,0,1,2
0,-0.915312,0.0,0.0
1,-0.806513,0.0,0.0
2,-2.465461,0.0,0.091884
3,-0.347744,0.0,0.262244
4,-1.168309,-0.398932,-0.538282
5,1.150479,0.807672,-2.012498
6,1.479326,-0.573273,-1.471205


In [12]:
df.fillna({1: 0.5, 2: 0}) # 1열의 결측치는 0.5, 2열의 결측치는 0.0으로 변경

Unnamed: 0,0,1,2
0,-0.915312,0.5,0.0
1,-0.806513,0.5,0.0
2,-2.465461,0.5,0.091884
3,-0.347744,0.5,0.262244
4,-1.168309,-0.398932,-0.538282
5,1.150479,0.807672,-2.012498
6,1.479326,-0.573273,-1.471205


In [13]:
_ = df.fillna(0, inplace=True) # inplace : 기존 객체(df)를 변경
df

Unnamed: 0,0,1,2
0,-0.915312,0.0,0.0
1,-0.806513,0.0,0.0
2,-2.465461,0.0,0.091884
3,-0.347744,0.0,0.262244
4,-1.168309,-0.398932,-0.538282
5,1.150479,0.807672,-2.012498
6,1.479326,-0.573273,-1.471205


In [14]:
# 결측치 채우기
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
print(df)

          0         1         2
0 -0.291775 -0.317391  0.978915
1 -0.670412  0.200154 -0.295524
2  0.684213       NaN  0.737869
3  1.742731       NaN  0.893588
4  0.485905       NaN       NaN
5  2.041066       NaN       NaN


In [15]:
df.fillna(method='ffill') # ffill : 결측치를 이전 값으로 채워넣기

Unnamed: 0,0,1,2
0,-0.291775,-0.317391,0.978915
1,-0.670412,0.200154,-0.295524
2,0.684213,0.200154,0.737869
3,1.742731,0.200154,0.893588
4,0.485905,0.200154,0.893588
5,2.041066,0.200154,0.893588


In [16]:
df.fillna(method='ffill', limit=2) # 최대 2개까지 결측치 이전값으로 채워넣기

Unnamed: 0,0,1,2
0,-0.291775,-0.317391,0.978915
1,-0.670412,0.200154,-0.295524
2,0.684213,0.200154,0.737869
3,1.742731,0.200154,0.893588
4,0.485905,,0.893588
5,2.041066,,0.893588


In [17]:
data = pd.Series([1., NA, 3.5, NA, 7])
data.fillna(data.mean()) # 결측치를 평균값으로 변경

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

## 데이터 변형

### 중복 제거

In [18]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [19]:
data.duplicated() # 각 행이 중복인지 확인

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [20]:
data.drop_duplicates() # 중복행 제거

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [21]:
data['v1'] = range(7)
print(data)
data.drop_duplicates(['k1']) # k1에 기반하여 중복 제거

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6


Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


In [22]:
data.drop_duplicates(['k1', 'k2'], keep='last') # keep='last' 마지막에 발견된 값을 리턴

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


### 함수 또는 매핑을 이용해서 데이터 변형

In [23]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
                              'Pastrami', 'corned beef', 'Bacon',
                              'pastrami', 'honey ham', 'nova lox'],
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [24]:
meat_to_animal = {
  'bacon': 'pig',
  'pulled pork': 'pig',
  'pastrami': 'cow',
  'corned beef': 'cow',
  'honey ham': 'pig',
  'nova lox': 'salmon'
}

In [25]:
lowercased = data['food'].str.lower() # 데이터에서 food 열을 소문자로 변경
print(lowercased)
data['animal'] = lowercased.map(meat_to_animal) # 데이터의 요소별 변환
data

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object


Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [26]:
data['food'].map(lambda x: meat_to_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

### 값 치환하기

In [27]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [28]:
data.replace(-999, np.nan) # reaplace() : 특정 데이터를 치환

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [29]:
data.replace([-999, -1000], np.nan) # 특정 데이터 리스트를 치환

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [30]:
data.replace([-999, -1000], [np.nan, 0]) # 특정 데이터 리스트를 치환

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [31]:
data.replace({-999: np.nan, -1000: 0}) # 특정 데이터 리스트를 치환

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### 축 색인 이름 바꾸기

In [32]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [33]:
transform = lambda x: x[:4].upper() 
# 데이터 x에서 0 ~ 3인덱스의 값을 대문자로 변경 
data.index.map(transform) # 인덱스를 대문자로 변경

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [34]:
data.index = data.index.map(transform)
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [35]:
data.rename(index=str.title, columns=str.upper) 
# rename() : 새로운 객체로 생성

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [36]:
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [37]:
data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'peekaboo'}) 
# key-value 매핑 형식 인덱스 변경

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [38]:
data.rename(index={'OHIO': 'INDIANA'}, inplace=True)
# inplace = True : data 객체의 내부 데이터를 변경하여 저장. 없으면 데이터만 출력

In [39]:
data

Unnamed: 0,one,two,three,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


### 개별화와 양자화
- 연속성 데이터는 종종 개별로 분할하거나 아니면 분석을 위해 그룹별로 나눔
- 중괄호는 값을 포함하지 않고 대괄호는 값을 포함

In [40]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [41]:
bins = [18, 25, 35, 60, 100] # 그룹 범위
cats = pd.cut(ages, bins) # ages를 bins로 그룹화
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [42]:
cats.codes # age의 카테고리 그룹 인덱스 출력

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [43]:
cats.categories # age 데이터에 대한 카테고리 이름

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [44]:
pd.value_counts(cats) # 각 그룹에 데이터 수

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [45]:
pd.cut(ages, [18, 26, 36, 61, 100], right=False)
# right = False : 오른쪽 데이터가 포함되지 않도록 양자화

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [46]:
# 각 그룹에 라벨 적용
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

In [47]:
data = np.random.rand(20)
print(data)
pd.cut(data, 4, precision=2) # 소수점 아래 2자리까지 제한

[0.68076154 0.02879011 0.73269652 0.83394818 0.97328019 0.10272037
 0.15769543 0.96632681 0.0983476  0.55347603 0.31819308 0.48728964
 0.5384858  0.73648571 0.39851882 0.66195604 0.66944502 0.86369183
 0.60695479 0.94646841]


[(0.5, 0.74], (0.028, 0.26], (0.5, 0.74], (0.74, 0.97], (0.74, 0.97], ..., (0.5, 0.74], (0.5, 0.74], (0.74, 0.97], (0.5, 0.74], (0.74, 0.97]]
Length: 20
Categories (4, interval[float64, right]): [(0.028, 0.26] < (0.26, 0.5] < (0.5, 0.74] < (0.74, 0.97]]

In [48]:
data = np.random.randn(1000)  # 정규 분포 데이터 생성
cats = pd.qcut(data, 4)  # 4분위로 분류
print(cats)
pd.value_counts(cats)

[(-3.308, -0.593], (0.681, 2.92], (-0.593, 0.0542], (-0.593, 0.0542], (-0.593, 0.0542], ..., (-0.593, 0.0542], (-0.593, 0.0542], (-3.308, -0.593], (-3.308, -0.593], (-0.593, 0.0542]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.308, -0.593] < (-0.593, 0.0542] < (0.0542, 0.681] < (0.681, 2.92]]


(-3.308, -0.593]    250
(-0.593, 0.0542]    250
(0.0542, 0.681]     250
(0.681, 2.92]       250
dtype: int64

In [49]:
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(-1.199, 0.0542], (1.229, 2.92], (-1.199, 0.0542], (-1.199, 0.0542], (-1.199, 0.0542], ..., (-1.199, 0.0542], (-1.199, 0.0542], (-3.308, -1.199], (-1.199, 0.0542], (-1.199, 0.0542]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.308, -1.199] < (-1.199, 0.0542] < (0.0542, 1.229] < (1.229, 2.92]]

### 특잇값을 찾고 제외하기
- 배열 연산에서 값이 데이터의 범위보다 훨씬 크거나 훨씬 적은 것을 특잇값(Outlier)이라고 함.
- 특잇값으로 인해 분석의 데이터가 변경될 수 있으므로, 제거해주는 것이 일반적

In [50]:
data = pd.DataFrame(np.random.randn(1000, 4)) 
# 1000개의 정규분포 데이터를 4개의 열로 표현
data.describe() 
# describe() : 데이터에 대한 산술 정보 출력

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.010385,-0.038318,-0.044916,-0.030348
std,0.998385,0.991617,1.007056,0.97874
min,-3.509778,-3.288147,-3.194852,-3.051071
25%,-0.671574,-0.689438,-0.725946,-0.712895
50%,0.00756,-0.028255,-0.052462,-0.035186
75%,0.676445,0.607648,0.624866,0.612532
max,2.649553,4.086118,3.224642,3.301372


In [51]:
col = data[2]
col[np.abs(col) > 3] # 절대값이 3을 초과하는 모든 데이터

0     -3.194852
14    -3.064833
580    3.095755
728    3.224642
Name: 2, dtype: float64

In [52]:
data[(np.abs(data) > 3).any(1)] # 절대값이 3을 초과하는 값이 들어 있는 모든 행 선택

  data[(np.abs(data) > 3).any(1)] # 절대값이 3을 초과하는 값이 들어 있는 모든 행 선택


Unnamed: 0,0,1,2,3
0,2.286402,-1.051595,-3.194852,1.011062
14,-0.690881,0.639219,-3.064833,-1.398672
28,-0.892622,4.086118,-1.648938,0.842416
66,-3.503049,-0.270911,-0.388515,0.693157
367,0.829673,-0.292614,0.355098,3.301372
580,-0.549599,-1.701415,3.095755,0.12718
668,-0.69397,1.93231,0.912441,3.125377
717,-1.592973,-2.107351,-1.76468,-3.021448
728,0.625775,-0.244392,3.224642,-0.169491
828,-3.509778,-0.337811,-0.622472,-0.188615


In [53]:
# 최대 최소 값을 -3 ~ 3의 범위로 설정
data[np.abs(data) > 3] = np.sign(data) * 3
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.009372,-0.039116,-0.044976,-0.030702
std,0.995086,0.986775,1.005271,0.97714
min,-3.0,-3.0,-3.0,-3.0
25%,-0.671574,-0.689438,-0.725946,-0.712895
50%,0.00756,-0.028255,-0.052462,-0.035186
75%,0.676445,0.607648,0.624866,0.612532
max,2.649553,3.0,3.0,3.0


In [54]:
np.sign(data).head()

Unnamed: 0,0,1,2,3
0,1.0,-1.0,-1.0,1.0
1,-1.0,-1.0,-1.0,1.0
2,1.0,-1.0,1.0,-1.0
3,-1.0,1.0,1.0,1.0
4,1.0,1.0,-1.0,-1.0


## 문자열 다루기
- 파이썬은 문자열이나 텍스트 처리의 용이함 덕분에 인기 있는 언어가 되었음
- 대부분의 텍스트 연산은 문자열 객체의 내장 메소드로 처리 가능
- 복잡한 처리는 패턴 매칭이나 정규 표현식을 사용
- 판다스는 배열 데이터 전체에 쉽게 정규 표현식을 적용하고, 누락된 데이터를 편리하게 처리할 수 있는 기능을 포함

### 문자열 객체 메소드

In [55]:
# 문자열 콤마로 나누기
val = 'a b,  guido'
val.split(',') # 구분자로 문자열을 나눔

['a b', '  guido']

In [56]:
# 문자열 공백 제거
pieces = [x.strip() for x in val.split(',')] # strip() : 공백 제거
pieces

['a b', 'guido']

In [57]:
# 각 변수에 문자열 리스트 저장
first, second, third = pieces
first + '::' + second + '::' + third

ValueError: not enough values to unpack (expected 3, got 2)

In [None]:
'::'.join(pieces) # 위와 같은 기능

In [None]:
# 변수에 문자열이 포함하는지 확인
'guido' in val

In [None]:
# 콤마의 위치값 리턴
val.index(',') # index() : 특정 문자의 인덱스 위치값 리턴

In [None]:
val.find(',') # find() : 문자열을 찾지 못하면 -1. 찾으면 위치값 리턴

In [None]:
val.index(':') # 에러 발생

In [58]:
val.count(',') # count() : 문자열의 개수 출력

1

In [59]:
# 문자열 변경
val.replace(',', '::') # replace(val1, val2) : val1의 데이터를 val2로 변경
val.replace(',', '')

'a b  guido'

### 정규 표현식
- 텍스트에 문자열 패턴을 찾는 방법
- regex라고 부름
- 표현식을 조합하여 복합적으로 사용이 가능

In [60]:
import re # 정규 표현 모듈 사용
text = "foo    bar\t baz  \tqux"
print(text)
re.split('\s+', text) 
# 공백문자가 1번이상 반복되는 패턴을 기준으로 text 데이터를 분할 

foo    bar	 baz  	qux


['foo', 'bar', 'baz', 'qux']

In [61]:
regex = re.compile('\s+') # 정규표현식을 미리 설정
regex.split(text) # 위의 코드와 동일한 수행

['foo', 'bar', 'baz', 'qux']

In [62]:
regex.findall(text) # 공백문자가 1번이상 반복되는 패턴을 모드 찾아냄
# \t는 공백문자의 escape sequence

['    ', '\t ', '  \t']

In [63]:
# 전화번호 문자열에서 숫자만 출력1
text = '010-1111-1111'
re.split('-', text)

['010', '1111', '1111']

In [64]:
# 전화번호 문자열에서 숫자만 출력2
regex = re.compile('\d+')
regex.findall(text)

['010', '1111', '1111']

In [65]:
# 대소문자 구분없이 문자열만 출력
text = 'hello! my phone number is 010-1111-4444. Thanks'
regex = re.compile('[a-zA-Z0-9]+')
regex.findall(text)

['hello', 'my', 'phone', 'number', 'is', '010', '1111', '4444', 'Thanks']

In [66]:
# 이름과 이메일이 혼합되어 있는 문자열에서 이메일 정보만 변경
text = """Dave dave@google.net
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = '\w+@[a-z]+\.[a-z]{2,4}' 
# '@'문자열을 찾기 전까지 문자와 숫자로 이루어진 문자열이 연속으로 존재하고,
# '.'문자열을 찾기 전까지 문자만 연속적으로 이루어지며, 
# '.' 이후에 문자열은 길이가 2~4개인 패턴

# re.IGNORECASE : 대소문자 구분없이
regex = re.compile(pattern, flags=re.IGNORECASE)

In [67]:
test = regex.findall(text) # regex 패턴을 갖는 모든 문자열을 리스트로 리턴
print(test)
list = []
for x in test:
    if x.find('.com') != -1 : 
        list.append(x)
list

['dave@google.net', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']


['steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [68]:
# 첫 번째 패턴 매칭 문자열을 찾아서 인덱싱 
m = regex.search(text) # 첫 번째 패턴 매칭
print(m)
text[m.start():m.end()] # 텍스트에서 인덱스로 접근하여 데이터 추출

<re.Match object; span=(5, 20), match='dave@google.net'>


'dave@google.net'

In [69]:
# 소괄호로 묶으면 각 패턴을 도메인별로 나눠줌
pattern = '(\w+)@([a-z]+)\.([a-z]{2,4})' 
regex = re.compile(pattern, flags=re.IGNORECASE)

In [70]:
m = regex.match('wesm@bright.net')
print(m)
m.groups() 

<re.Match object; span=(0, 15), match='wesm@bright.net'>


('wesm', 'bright', 'net')

In [71]:
regex.findall(text)

[('dave', 'google', 'net'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

### 연습문제

#### 연습문제1(결측치 채우기)
- 아래 데이터프레임에서 누락된 데이터를 확인하고, '가격'열의 누락된 데이터는 평균값으로, '수량'열의 누락된 데이터는 0으로 변경하시오.

In [72]:
data = pd.DataFrame([['사과', 2000, 10], ['배', NA, 20],
                     ['수박', NA, NA], ['바나나', 1500, 10]],
                   columns=['상품이름', '가격', '수량'], index=[1, 2, 3, 4])
data

Unnamed: 0,상품이름,가격,수량
1,사과,2000.0,10.0
2,배,,20.0
3,수박,,
4,바나나,1500.0,10.0


In [73]:
data.isnull()

Unnamed: 0,상품이름,가격,수량
1,False,False,False
2,False,True,False
3,False,True,True
4,False,False,False


In [74]:
price_data = pd.Series(data['가격'])
data.fillna({ '가격' : price_data.mean(), 
            '수량' : 0})

Unnamed: 0,상품이름,가격,수량
1,사과,2000.0,10.0
2,배,1750.0,20.0
3,수박,1750.0,0.0
4,바나나,1500.0,10.0


#### 연습문제2 
- 다음 문자열 str에서 '데이터'라는 문자의 개수를 출력하시오.
- '데이터 분석'을 'Data Analysis'로 변경하고, 문단별로 나누어 출력하시오.

In [75]:
str = """데이터 분석은 수집된 데이터를 가공, 처리, 분석하여 유용한 정보를 추출하고 의사 결정에 도움을 주는 과정입니다.
데이터 분석은 비즈니스, 과학, 사회과학 분야 등 다양한 분야에서 사용되고 있습니다.
특히, 광고, 마케팅 분야에서 데이터 분석 능력이 많이 요구되고 있습니다."""

In [76]:
str.count('데이터')

4

In [77]:
str.replace('데이터 분석', 'Data Analysis')

'Data Analysis은 수집된 데이터를 가공, 처리, 분석하여 유용한 정보를 추출하고 의사 결정에 도움을 주는 과정입니다.\nData Analysis은 비즈니스, 과학, 사회과학 분야 등 다양한 분야에서 사용되고 있습니다.\n특히, 광고, 마케팅 분야에서 Data Analysis 능력이 많이 요구되고 있습니다.'

In [78]:
str.split('\n') # str은 개행(\n)문자로 문단이 나누어져 있음.

['데이터 분석은 수집된 데이터를 가공, 처리, 분석하여 유용한 정보를 추출하고 의사 결정에 도움을 주는 과정입니다.',
 '데이터 분석은 비즈니스, 과학, 사회과학 분야 등 다양한 분야에서 사용되고 있습니다.',
 '특히, 광고, 마케팅 분야에서 데이터 분석 능력이 많이 요구되고 있습니다.']