# 데이터 전처리

1. 정규표현식으로 데이터는 제거하거나 변환하기
2. 파이썬 라이브러리의 데이터 전처리하기

In [4]:
import re
import pandas as pd

In [5]:
train_data = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', sep='\t', encoding='utf8')
test_data = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt', sep='\t', encoding='utf8')

## 정규표현식으로 데이터 전처리하기

정규표현식 미리 보기 : https://regexr.com/

* 예시 데이터 : 010-1111-3456 016-345-1853 02-345-1234 136-25   
  
* 문제 : 다음 아래 데이터에서 전화번호 추출하기  
  * 정답1  
    1단계 : ([0-9]+)-([0-9]+)-([0-9]+)  
    2단계 : ([0-9]+-){2}([0-9]+)   
  * 정답2  
    \d{3}-\d{3,4}-\d{4}

In [6]:
phone_numbers = """010-1111-3456 016-345-1853 02-345-1234 136-25"""
str_samples = """abcd apple banana"""

* 예시 데이터 : abcd apple banana  
  
* 문제1 : a로 시작하는 단어 찾기
  * 정답 : (^a)\w+  
  
* 문제2 : a로 끝나는 단어 찾기
  * 정답 : \w+(a$)
  
* 문제3 : p나 n이 들어가 있는 단어 찾기
  * 정답 : \w+[pn]\w+

# 파이썬 re 모듈 사용하기

In [7]:
pn_p = re.compile('([0-9]+)-([0-9]+)-([0-9]+)')
s_p_start_a = re.compile('(^a)\w+')
s_p_end_a = re.compile('\w+(a$)')
s_p_inside_pn = re.compile('\w+[pn]\w+')

## match 메서드 사용하기
* 문자열의 처음부터 정규식과 매치되는지 조사한다. 
* match 객체의 메서드
  * group() : 매치된 문자열을 리턴한다.
  * start() : 매치된 문자열의 시작 위치를 리턴한다.
  * end() : 매치된 문자열의 끝 위치를 리턴한다.
  * span() : 매치된 문자열의 (시작, 끝)에 해당하는 위치를 튜플로 리턴한다.

In [8]:
pn_p.match(phone_numbers)

<re.Match object; span=(0, 13), match='010-1111-3456'>

In [9]:
pn_p_rs = pn_p.match(phone_numbers)
if pn_p_rs :
    print(pn_p_rs.group())
    print(pn_p_rs.start())
    print(pn_p_rs.end())
    print(pn_p_rs.span())
    
else :
    print("일치하는 패턴이 없습니다.")

010-1111-3456
0
13
(0, 13)


### match 관련 추가

In [10]:
# 패턴의 순서만 데이터를 추출할 수 있다.
print(pn_p_rs.group(0))
print(pn_p_rs.group(1))
print(pn_p_rs.group(2))
print(pn_p_rs.group(3))


010-1111-3456
010
1111
3456


In [11]:
re.match("(?P<first>[0-9]+)-(?P<middle>[0-9]+)-(?P<end>[0-9]+)", phone_numbers).groupdict()

{'first': '010', 'middle': '1111', 'end': '3456'}

In [12]:
def patRS(p):
    if p :
        print(p.group())
    else:
        print("일치하는 패턴이 없습니다.")

In [13]:
spsa = s_p_start_a.match(str_samples)
spsa

<re.Match object; span=(0, 4), match='abcd'>

In [14]:
patRS(spsa)

abcd


In [15]:
spea = s_p_end_a.match(str_samples)
spea

In [16]:
patRS(spea)

일치하는 패턴이 없습니다.


In [17]:
spipn = s_p_inside_pn.match(str_samples)
spipn

In [18]:
patRS(spipn) # 주의 사항 '공백문자' 때문에 검색이 안 됨

일치하는 패턴이 없습니다.


## search 메서드 사용하기
* 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.

In [19]:
pn_p_rs = pn_p.search(phone_numbers)
pn_p_rs

<re.Match object; span=(0, 13), match='010-1111-3456'>

## findall 메서드 사용하기

In [20]:
pn_p_rs = pn_p.findall(phone_numbers)
pn_p_rs

[('010', '1111', '3456'), ('016', '345', '1853'), ('02', '345', '1234')]

## finditer메서드 사용하기

In [21]:
pn_p_rs = pn_p.finditer(phone_numbers)
pn_p_rs

<callable_iterator at 0x7f2d093737c0>

In [22]:
for r in pn_p_rs:
    print(r)

<re.Match object; span=(0, 13), match='010-1111-3456'>
<re.Match object; span=(14, 26), match='016-345-1853'>
<re.Match object; span=(27, 38), match='02-345-1234'>


## sub로 데이터 바꾸기

In [23]:
print(str_samples)
s_p_start_a.sub('zzz', str_samples)

abcd apple banana


'zzz apple banana'

# 파이썬 pandas 사용하기

In [24]:
phone_numbers_df = pd.DataFrame(data=phone_numbers.split())
str_samples_df = pd.DataFrame(data=str_samples.split())

In [25]:
phone_numbers_df

Unnamed: 0,0
0,010-1111-3456
1,016-345-1853
2,02-345-1234
3,136-25


In [26]:
str_samples_df

Unnamed: 0,0
0,abcd
1,apple
2,banana


In [27]:
phone_numbers_df[0].str.replace("016", "010")

0    010-1111-3456
1     010-345-1853
2      02-345-1234
3           136-25
Name: 0, dtype: object

In [28]:
phone_numbers_df[0].str.split("-")

0    [010, 1111, 3456]
1     [016, 345, 1853]
2      [02, 345, 1234]
3            [136, 25]
Name: 0, dtype: object

In [29]:
phone_numbers_df[0].str.split("-", expand=True)

Unnamed: 0,0,1,2
0,10,1111,3456.0
1,16,345,1853.0
2,2,345,1234.0
3,136,25,


In [30]:
phone_numbers_df[0].str.contains('([0-9]+)-([0-9]+)-([0-9]+)', regex=True)

  phone_numbers_df[0].str.contains('([0-9]+)-([0-9]+)-([0-9]+)', regex=True)


0     True
1     True
2     True
3    False
Name: 0, dtype: bool

In [31]:
phone_numbers_df[0].str.contains('([0-9]+)-([0-9]+)-([0-9]+)', regex=True)

  phone_numbers_df[0].str.contains('([0-9]+)-([0-9]+)-([0-9]+)', regex=True)


0     True
1     True
2     True
3    False
Name: 0, dtype: bool

In [32]:
phone_numbers_df[0].str.findall('([0-9]+)-([0-9]+)-([0-9]+)')

0    [(010, 1111, 3456)]
1     [(016, 345, 1853)]
2      [(02, 345, 1234)]
3                     []
Name: 0, dtype: object

In [33]:
phone_numbers_df[0].str.fullmatch('([0-9]+)-([0-9]+)-([0-9]+)')

0     True
1     True
2     True
3    False
Name: 0, dtype: bool

### train_data로 연습하기