# 정규표현식

## 0. Data Loading

In [1]:
import pandas as pd
import re

In [2]:
df = pd.read_csv('data/참가자.csv', engine='python', encoding='euc-kr')
df.head()

Unnamed: 0,이름,이메일,연락처,담당,차량,동반자
0,아이언맨,아이언맨\niron@gmail.com,010 1234 1111,진행자 소개(10m),네,4명
1,캡틴아메리카,캡틴아메리카\ncaptain@gmail.com,010.1234.2222,소그룹 형성(10m),아니오,1명
2,토르,토르\nthor@gmail.com,010-1234-3333,1차 토론(1h 20m),아니요,4명 (애 2명)
3,호크아이,호크아이\neye@gmail.com,1012344444,휴식(15m),네니요,1명
4,블랙위도우,블랙위도우\nblack@gmail.com,010 1234 5555,발표(1h),네니오,3명 - 애 2명 (30일 저녁 귀가 예정)


## 1. 확인

In [3]:
v = df['차량']

In [4]:
re.match(r'네', v[0])

<_sre.SRE_Match object; span=(0, 1), match='네'>

In [5]:
re.match(r'네', v[1])

In [6]:
for i in v:
    if re.match(r'네$|아니[오요]?', i):
        print(i, 'ok')
    else:
        print(i, 'not ok')

네 ok
아니오 ok
아니요 ok
네니요 not ok
네니오 not ok
모름 not ok
아니 ok
아니네 ok
내 not ok
네 ok
아니요 ok


## 2. 추출

In [7]:
c = df['동반자']

In [8]:
matched = re.match(r'(\d+)명', c[0])

In [9]:
matched.group(0)

'4명'

In [10]:
matched.group(1)

'4'

In [11]:
int(matched.group(1))

4

In [12]:
total = 0
for i in c:
    matched = re.match(r'(\d+)명', i)
    num = int(matched.group(1))
    total += num
total

21

## 3. 교체

In [13]:
comp = re.compile(r'\((?:(?P<hour>\d+)h ?)?(?:(?P<minute>\d+)m)?\)')
comp

re.compile(r'\((?:(?P<hour>\d+)h ?)?(?:(?P<minute>\d+)m)?\)', re.UNICODE)

In [14]:
search = comp.search(df['담당'][2])
search

<_sre.SRE_Match object; span=(5, 13), match='(1h 20m)'>

In [15]:
search.groupdict()

{'hour': '1', 'minute': '20'}

In [16]:
search.group('hour')

'1'

In [17]:
search.group('minute')

'20'

In [18]:
re.sub('(\d+)h (\d+)m', '\g<1>시간 \g<2>분', '1h 20m')

'1시간 20분'

In [19]:
re.sub('(?P<hour>\d+)h (?P<minute>\d+)m', '\g<hour>시간 \g<minute>분', '1h 20m')

'1시간 20분'

## 4. 기타

In [20]:
re.split('[^가-힣 ]', '가, 나, 다')

['가', ' 나', ' 다']

In [21]:
re.findall('\d+', 'A01, A02, A03')

['01', '02', '03']

## 5. 실습

### 5.1. 추출

df['담당'] 에서 총 진행 시간의 합을 구해보자.

### 5.2. 교체

re.sub 를 이용해 "김철수\nkim@gmail.com" 형태의 문장을 "김철수\tkim@gmail.com" 형태로 교체해 출력해보자.

### 5.3. 기타

re.split 을 이용해 df['구성원'] 을 사람 이름이 요소 담긴 리스트를 만들어보자

re.findall 을 이용해 df['연락처'] 의 각 연락처를 '010XXXXXXXX'형태로 담은 리스트를 만들어보자.