# 텍스트 전처리

#### 전처리 과정

- 클렌징(cleansing)
- 토큰화(Tokenization)
- 필터링/ 스톱 워드(불용어) 제거 / 철자 수정
- 어간 추출(Stemming & Lemmatization)

## 1. 클렌징(Cleansing)

- 결측치 처리 및 텍스트 분석에 방해되는 불필요한 문자, 기호 등을 사전에 제거하는 작업
- 예. HTML, XML 태그나 특정 기호 등을 사전에 제거
- 정규표현식 사용

### 1-1. 결측치 확인 및 처리

#### **결측치 확인**
- df.isnull()
- df.isna()
- df.isnull().sum()

#### **결측치 처리**

① 결측치 삭제
   - df.dropna()
   - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html
    
    

```python
DataFrame.dropna(*, axis=0, how=_NoDefault.no_default, 
                 thresh=_NoDefault.no_default, subset=None, inplace=False)
```

② 결측치 대체
- df.fillna()
  - 평균값이나 다른 특정한 값으로 결측치 대체
  - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html
```python
DataFrame.fillna(value=None, *, method=None, axis=None,
                 inplace=False, limit=None, downcast=None)
```

- df.bfill()
   - 뒤에 있는 값으로 결측치 대체
   - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.bfill.html

```python
DataFrame.bfill(*, axis=None, inplace=False, limit=None, 
                limit_area=None, downcast=_NoDefault.no_default)
```

- df.ffill()
    - 앞에 있는 값으로 결측치 대체
    - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.ffill.html
```python
DataFrame.ffill(*, axis=None, inplace=False, limit=None, 
                limit_area=None, downcast=_NoDefault.no_default)
```

- df.interpolate()
  - 선형보간법(linear)을 이용하여 결측치 대체
  - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html

```python
DataFrame.interpolate(method='linear', *, axis=0, limit=None, inplace=False, 
                      limit_direction=None, limit_area=None, 
                      downcast=_NoDefault.no_default, **kwargs)
```

In [1]:
import pandas as pd
import numpy as np

In [4]:
df = pd.DataFrame([[np.nan,2,np.nan,np.nan,0],
                   [3,4,1,np.nan,np.nan],
                   [np.nan,np.nan,np.nan,np.nan,np.nan],
                   [np.nan,np.nan,3,np.nan,4]],columns = list('ABCDE'))
df

Unnamed: 0,A,B,C,D,E
0,,2.0,,,0.0
1,3.0,4.0,1.0,,
2,,,,,
3,,,3.0,,4.0


In [5]:
df.bfill()

Unnamed: 0,A,B,C,D,E
0,3.0,2.0,1.0,,0.0
1,3.0,4.0,1.0,,4.0
2,,,3.0,,4.0
3,,,3.0,,4.0


In [7]:
df.ffill()

Unnamed: 0,A,B,C,D,E
0,,2.0,,,0.0
1,3.0,4.0,1.0,,0.0
2,3.0,4.0,1.0,,0.0
3,3.0,4.0,3.0,,4.0


In [8]:
df.fillna(0)

Unnamed: 0,A,B,C,D,E
0,0.0,2.0,0.0,0.0,0.0
1,3.0,4.0,1.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,3.0,0.0,4.0


In [9]:
df.fillna({'A':2,'B':3,'C':0,'D':2,'E':1})

Unnamed: 0,A,B,C,D,E
0,2.0,2.0,0.0,2.0,0.0
1,3.0,4.0,1.0,2.0,1.0
2,2.0,3.0,0.0,2.0,1.0
3,2.0,3.0,3.0,2.0,4.0


In [None]:
df

In [10]:
df.interpolate()

Unnamed: 0,A,B,C,D,E
0,,2.0,,,0.0
1,3.0,4.0,1.0,,1.333333
2,3.0,4.0,2.0,,2.666667
3,3.0,4.0,3.0,,4.0


In [11]:
# default linear -> 일차
df.interpolate(method='linear',axis=1)

Unnamed: 0,A,B,C,D,E
0,,2.0,1.333333,0.666667,0.0
1,3.0,4.0,1.0,1.0,1.0
2,,,,,
3,,,3.0,3.5,4.0


In [16]:
df['B'].interpolate(method='polynomial',order=2)

ValueError: The number of derivatives at boundaries does not match: expected 1, got 0+0

### 1-2. 정규표현식(regular expression)

- 정규표현식은 복잡한 문자열을 처리할 때 사용하는 기법
- 문자열을 처리하는 모든 곳에 사용하는 일종의 형식 언어

#### 1) 정규표현식의 필요성

문제. 주민등록번호를 포함하고 있는 텍스트에서 모든 주민등록번호 뒷자리를 * 문자로 변경하시오.

In [3]:
data = '''park 700105-1049118
choi 901010-1234103
kim  800905-2039104
kang 650192-1029310
seo  001023-3019301
han  020113-4029481'''

정규표현식을 모르는 경우 프로그램 작성 과정

1. 전체텍스트를 공백 문자로 나눈다(split)
2. 나뉜 단어가 주민등록번호 형식인지 조사한다
3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다
4. 나뉜 단어를 다시 조립한다

In [4]:
num = data.split()
for i in range(len(num)):
    if len(num[i]) == 14:
        num[i] = num[i][:7] + '*'*7
data1 = ' '.join(num)
data1

'park 700105-******* choi 901010-******* kim 800905-******* kang 650192-******* seo 001023-******* han 020113-*******'

정규표현식을 사용하는 경우

In [2]:
import re

In [30]:
# complie -> 찾기, sub-> 바꾸기 / \d -> 숫자
pattern = re.compile('(\d{6})[-]\d{7}')
pattern.sub('\g<1>-*******', data)

'park 700105-*******\nchoi 901010-*******\nkim  800905-*******\nkang 650192-*******\nseo  001023-*******\nhan  020113-*******'

#### 2) 정규표현식 모듈 **re**

- re(regular expression) 모듈
- 파이썬 내장 표준 라이브러리
- https://docs.python.org/ko/3/library/re.html

- `re` 모듈 임포트

```python
import re
```

#### 3) re.compile() 함수

```python
re.compile(pattern, flags=0)
```

- 정규식 패턴을 정규식 객체로 컴파일 
```python
pattern = re.compile('ab*')
```

- compile로 생성된 정규식 패턴 객체는 match(), search(), findall(), finditer() 등 문자열 검색을 위한 메서드를 사용할 수 있음.

#### 4) 문자열 검색 메서드

re.compile()로 생성된 패턴 객체를 이용하여 문자열을 검색하는 메서드

**match()**
- 문자열의 처음부터 정규식과 매칭되는지 조사
- 정규식에 부합되면 match 객체 반환

```python
Pattern.match(string[, pos[, endpos]])
```

In [32]:
p=re.compile('[a-z]')
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [33]:
p.match('a v 3 d')

<re.Match object; span=(0, 1), match='a'>

**search()**

- match() 메서드와 동일
- 문자열 전체를 검색하여 정규식과 패치되는지 조사

```python
Pattern.search(string[, pos[, endpos]])
```

In [36]:
p=re.compile('d')
p.search('dog')

<re.Match object; span=(0, 1), match='d'>

In [37]:
print(p.search('dog',1))

None


In [40]:
p=re.compile('[a-z]')
p.search('python',1)

<re.Match object; span=(1, 2), match='y'>

In [43]:
# match -> 첫 글자가 패턴과 일치한지
print(p.match('3 python'))

None


In [44]:
# search -> 패턴과 일치한 문자 찾아주기
p.search('3 python')

<re.Match object; span=(2, 3), match='p'>

**findall()**

- 정규식과 매치되는 모든 문자열(substring)을 리스트로 반환
```python
Pattern.findall(string[, pos[, endpos]])
```

In [46]:
# findall -> 일치한 문자 다 찾아서 리스트로 반환
p = re.compile('[a-z]+')
result = p.findall('Life is too short')
result

['ife', 'is', 'too', 'short']

**finditer()**

- 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 반환
```python
Pattern.finditer(string[, pos[, endpos]])
```

In [50]:
# findall -> 일치한 문자 다 찾아서 리스트로 반환
p = re.compile('[a-z]+')
result = p.finditer('Life is too short')
result

<callable_iterator at 0x1ddfa08b9a0>

In [51]:
for r in result:
    print(r)

<re.Match object; span=(1, 4), match='ife'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


#### 5) match 객체의 메서드

match 객체 : match(), search(), findall(), finditer() 메서드에 의해 반환된 매치 객체(match object)

- group() : 매치된 문자열을 반환
- start() : 매치된 문자열의 시작 위치 반환
- end() : 매치된 문자열이 끝 위치 반환
- span() : 매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환

In [52]:
p = re.compile('[a-z]+')
result = p.search('Life is too short')
result

<re.Match object; span=(1, 4), match='ife'>

In [53]:
result.group()

'ife'

In [54]:
result.start()

1

In [55]:
result.end()

4

In [56]:
result.span()

(1, 4)

#### 6) 정규 표현식 기초 : 메타문자(meta character)

**메타문자(meta character)¶**
- 원래 그 문자가 가진 뜻이 아닌 특별한 의미를 가진 문자
- 정규표현식에서 사용하는 메타문자 : . ^ $ * + ? { } [ ] \ | ( )

**① 메타 문자 [ ]**
- 의미 :  [ ] 사이의 문자들과 매치(match)
- `[ ]` 사이에는 어떤 문자도 들어갈 수 있음
- 예. 정규식 [abc] : a, b, c 중 한 개의 문자와 매치

- `[ ]`안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자사이의 범위를 의미
    - 예. [a-c]  : [abc]와 동일한 의미
    - 예. [0-5] : [012345]와 동일한 의미
    - 예. `[a-zA-Z]` : 모든 알파벳
    - 예. `[0-9]` : 모든 숫자
    - 예. `[ㄱ-ㅎ가-힣]` : 모든 한글

In [7]:
p= re.compile('[a-c]')
p.search('apple')

<re.Match object; span=(0, 1), match='a'>

In [9]:
print(p.match('delta'))

None


In [10]:
p.match('3 apple')

In [11]:
p.match('3 apple', 2)

<re.Match object; span=(2, 3), match='a'>

In [12]:
p.findall('3 apple')

['a']

In [13]:
p = re.compile('[ㄱ-ㅎ가-힣]')
p.findall('한as글ㅇㄴds')

['한', '글', 'ㅇ', 'ㄴ']

In [14]:
# +-> 단어형식으로 찾기
p2 = re.compile('[ㄱ-ㅎ가-힣]+')
p2.findall('한as글ㅇㄴds')

['한', '글ㅇㄴ']

- `[^문자]` : 해당 문자를 제외한 문자를 매치

In [17]:
# ^ -> 한글이 아닌 나머지 찾기
p3 = re.compile('[^ㄱ-ㅎ가-힣]+')
p3.findall('한as글ㅇㄴds')

['as', 'ds']

##### 한글과 영문 단어 검색

In [18]:
p4 = re.compile('[ㄱ-ㅎ가-힣a-zA-Z]+')
p4.findall('apple 사과 banna 바나나 123')

['apple', '사과', 'banna', '바나나']

**② 메타 문자 .**

- \n을 제외한 모든 문자와 매치됨
- 예. a.b : a와 b라는 문자 사이에 어떤 문자가 들어가도 모두 매치됨 

- 주의. a[.]b : [ ]안에 있는 .은 메타문자가 아니라 .문자 그자체를 의미함

In [26]:
p=re.compile('a.c')
p.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [21]:
print(p.search('ac'))

None


In [25]:
# .의 개수가 동일해야한다
print(p.search('aㅇㄴㄴㅇc'))

<re.Match object; span=(0, 6), match='aㅇㄴㄴㅇc'>


In [27]:
# [ ]안에 있는 문자는 문자열 그자체를 의미
p=re.compile('a[.]c')
p.search('a.c')

<re.Match object; span=(0, 3), match='a.c'>

**③ 메타 문자** *
- 반복을 의미
- 0부터 무한대까지 반복될 때 사용 (실제로는 메모리 제한으로 무한대가 아닌 2억개 정도만 가능)
- 예. ca*t : * 바로 앞에 있는 문자 a가 0부터 무한대까지 반복될 수 있다는 의미

In [38]:
# '*' ->  앞에 문자가 개수 상관없이 찾기
p=re.compile('ca*t')
print(p.search('ct'))
print(p.search('caaaaaaaaaaaaaaaaaaaaaaaat'))

<re.Match object; span=(0, 2), match='ct'>

**④ 메타 문자 +**

- 반복을 의미
- 최소 1번 이상 반복될 때 사용
- *가 반복횟수가 -부터라면 +는 반복횟수가 1부터
- 예. ca+t : + 앞에 있는 문자 a가 1부터 무한대까지 반복될 수 있음

In [32]:
# '+' ->  앞에 문자가 1번 이상있는 문자 찾기
p=re.compile('ca+t')
print(p.search('ct'))
print(p.search('caaaaaaaaaat'))

**⑤ 메타 문자 { }**

- 빈복 횟수를 고정
- {m} : 반복횟수가 m
- {m, n} : 반복횟수가 m부터 n까지인 문자와 매치
- m 또는 n은 생략 가능
- 예. {3, } : 반복횟수가 3이상인 경우
- 예. {, 3} : 반복횟수가 3이하인 경우
- 생략된 m은 0과 동일, 생략된 n은 무한대(2억개 미만)를 의미
- 예. ca{2}t

In [33]:
# { } ->  앞에 문자가 반복횟수 정하기
p=re.compile('ca{2}t')
print(p.search('cat'))
print(p.search('caat'))

<re.Match object; span=(0, 4), match='caat'>

- 예. ca{2, 5}t

In [36]:
# 2~5번 반복
p=re.compile('ca{2,5}t')
print(p.search('cat'))
print(p.search('caaat'))

<re.Match object; span=(0, 5), match='caaat'>

**⑥ 메타문자 ?**

- {0, 1}을 의미
- ab?c : b가 있어도 되고 없어도 됨

In [40]:
# ? -> 0~1반복
p=re.compile('ca?t')
print(p.search('caaat'))
print(p.search('cat'))
print(p.search('ct'))

<re.Match object; span=(0, 2), match='ct'>

**⑦ 메타문자 |**
- or 의미
- 예. A|B  : A 또는 B

In [45]:
# | -> or
p=re.compile('ca|t')
print(p.search('caaat'))
print(p.search('cat')) 
print(p.search('ct'))
print(p.search('c'))
print(p.search('ca'))

<re.Match object; span=(0, 2), match='ca'>
<re.Match object; span=(0, 2), match='ca'>
<re.Match object; span=(1, 2), match='t'>
None
<re.Match object; span=(0, 2), match='ca'>


In [47]:
p=re.compile('apple|banana')
p.findall('Apple apple Banana banana coconut')

['apple', 'banana']

**⑧ 메타문자 ^**
- 문자열의 맨처음과 일치함을 의미
- 예. ^Life : Life 문자열이 처음에 온 경우 매치되나, 처음 위치가 아닌 경우 매치되지 않음

In [49]:
# ^ -> match
p = re.compile('^apple banana')
print(p.findall('Apple apple Banana banana coconut'))

[]


In [51]:
# ^ -> 처음 위치만 가능
p = re.compile('^apple')
print(p.findall('apple Banana banana coconut'))

['apple']


**⑨ 메타문자 $**

- 문자열의 끝과 일치함을 의미
- 예. short$ : 검색할 문자열이 short로 끝난 경우 매치되나 그 외의 경우는 매치되지 않음

In [52]:
# $ -> 마지막 위치가 일치한 문자
p = re.compile('coconut$')
print(p.findall('apple Banana banana coconut'))

['coconut']


**⑩ 메타문자 \A**
- 문자열의 처음과 일치함을 의미
- ^ 문자와 동일하나 re.MULTILINE 옵션을 사용할 경우 다르게 해석됨
    - ^ : 각 줄의 문자열의 처음과 매치
    - \A : 줄과 상관없이 전체 문자열의 처음하고만 매치

In [68]:
p=re.compile('^python')

In [69]:
text = '''python one
life is too short
python two
you need a money
python three
'''

In [70]:
p.findall(text)

['python']

In [71]:
p=re.compile('\Apython')
p.findall(text)

['python']

In [72]:
# \A + re.MULTILINE -> 줄과 상관없이 전체 문자열의 처음하고만 매치
p=re.compile('\Apython',re.MULTILINE)
p.findall(text)

['python']

In [73]:
# ^ + re.MULTILINE -> 각 행마다 매치
p=re.compile('^python',re.MULTILINE)
p.findall(text)

['python', 'python', 'python']

**⑪ 메타문자 \Z**

- 문자열의 끝과 매치됨을 의미
- \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 문자와 다르게 해석됨
    - `$` : 각 줄의 문자열의 끝과 매치
    - \Z : 줄과 상관없이 전체 문자열의 끝하고만 매치

**⑫ 메타문자 \b**

- 단어 구분자
- 보통 whitespace에 의해 구분됨
- 예. \bclass\b  : 앞 뒤가 whitespace로 구분된 class라는 단어와 매치
- 파이썬 리터럴 규칙에 의해 \b는 백스페이스(backspace)를 의미하므로, 정규식에서 사용할 때 단어구분자라는 것을 알리기 위해 raw string임을 알려주는 구분 기호 r' '을 반드시 사용해야 함
    - 예. r'\bclass\b'

In [76]:
# \b -> 공백 / r이 없으면 \b를 문자로 봐서 적용x
p=re.compile('\bpython\b')
print(p.findall('python is good programing language'))

['python']


In [80]:
# r -> raw string
p=re.compile(r'\bpython\b')
print(p.findall('python is good programing language'))

['python']


**⑬ 메타문자 \B**

- \b 메타문자와 반대의 경우
- whitespace로 구분된 단어가 아닌 경우에만 매치

In [81]:
# \B -> 공백이 아닌 다른 문자로 구분된 경우 매치
p=re.compile(r'\Bclass\B')
print(p.search(' no class all'))
print(p.search('the declassified algorithm'))
print(p.search('one subclass id'))

None
<re.Match object; span=(6, 11), match='class'>
None


#### 7) 그룹핑(grouping) 메타문자  ( )

- 그룹을 만들어 주는 메타문자

In [86]:
p=re.compile('abc')
p.search('abcabcabc')

<re.Match object; span=(0, 3), match='abc'>

In [87]:
p=re.compile('(abc)')
p.search('abcabcabc')

<re.Match object; span=(0, 3), match='abc'>

In [92]:
# = -> (abc)
p=re.compile('(abc)+')
p.search('abcabcabc')

<re.Match object; span=(0, 9), match='abcabcabc'>

In [90]:
# + -> 'c'
p=re.compile('abc+')
p.findall('abcabcabc')

['abc', 'abc', 'abc']

In [95]:
# \d = [0-9]
p=re.compile('\d{6}')
m = p.search('34 123456 32334')
m

<re.Match object; span=(3, 9), match='123456'>

In [96]:
m.group()

'123456'

In [108]:
p=re.compile('\d{6}')
m = p.finditer('34 123456 32334 345671 232556')
m

<callable_iterator at 0x2bb262fa350>

In [109]:
for i in m:
    print(i)

<re.Match object; span=(3, 9), match='123456'>
<re.Match object; span=(16, 22), match='345671'>
<re.Match object; span=(23, 29), match='232556'>


#### 8) 컴파일 옵션

정규식을 컴파일할 때 사용할 수 있는 옵션

- re.DOTALL : 약어는 `S`, `.` 메타문자가 줄바꿈 문자를 포함해 모든 문자와 매치될 수 있게 함
- re.IGNORECASE : 약어는 `I`, 대소문자에 관계없이 매치될 수 있게 함
- re.MULTILINE : 약어는 `M`, 여러 줄과 매치될 수 있게 함. `^, $` 메타문자 사용과 관계있는 옵션
- re.VERBOSE : 약어는 `X`, verbose 모드는 사용할 수 있게 함. 정규식을 보기 편하게 만들수 있고 주석 등을 사용할 수 있게 함

**re.DOTALL**

- 여러 줄로 이루어진 문자열에서 줄바꿈 문자에 상관없이 검색할 때 많이 사용

In [110]:
p=re.compile('a.b')
print(p.match('a\nb'))

None


In [111]:
# re.DOTALL -> \n도 포함하기
p=re.compile('a.b',re.DOTALL)
print(p.match('a\nb'))

<re.Match object; span=(0, 3), match='a\nb'>


In [112]:
# DOTALL = S
p=re.compile('a.b',re.S)
print(p.match('a\nb'))

<re.Match object; span=(0, 3), match='a\nb'>


**re.IGNORECASE**

In [114]:
p=re.compile('[a-z]+')
print(p.match('Python'))

None


In [116]:
# re.IGNIRECASE -> 대소문자에 관계없이 매치
p=re.compile('[a-z]+',re.IGNORECASE)
print(p.match('Python'))

<re.Match object; span=(0, 6), match='Python'>


In [117]:
# re.IGNIRECASE = I
p=re.compile('[a-z]+',re.I)
print(p.match('Python'))

<re.Match object; span=(0, 6), match='Python'>


In [122]:
# 맨앞, 중간, 맨뒤 상관x
print(p.match('pYthon'))
print(p.match('PYTHON'))
print(p.match('PythoN'))

<re.Match object; span=(0, 6), match='pYthon'>
<re.Match object; span=(0, 6), match='PYTHON'>
<re.Match object; span=(0, 6), match='PythoN'>


**re.MULTILINE**

In [125]:
p=re.compile('^Life')
p.match('''Life is too short
Life is good''')

<re.Match object; span=(0, 4), match='Life'>

In [130]:
# 각 줄마다 match
p=re.compile('^Life', re.MULTILINE)
p.findall('''Life is too short
Life is good''')

['Life', 'Life']

In [134]:
# 각 줄마다 match
p=re.compile('Life$', re.MULTILINE)
p.findall('''Life is too short Life
Life is good Life''')

['Life', 'Life']

In [131]:
result = p.finditer('''Life is too short
Life is good''')
for r in result:
    print(r)

<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(18, 22), match='Life'>


**re.VERBOSE**

- 정규식이 복잡한 경우 주석을 적고 여러 줄로 표현하여 가독성을 높이기 위한 옵션
- VERBOSE 옵션을 사용하면 문자열에 사용된 whitespace는 컴파일할 때 제거됨

In [141]:
p= re.compile(r'&[#]([0-9])+|(x[0-9a-fA-F])+')

In [155]:
# 주석을 사용하여 가독성을 높일수 있다.
pattern1= re.compile(r'''
[0-9]+           # Dcimal form
|x[0-9a-fA-F]+   # Hexadecimal form
''',re.VERBOSE)

In [147]:
text = '34 #ff33f apple 33 34.5'

In [152]:
p.findall(text)

[('4', ''), ('3', ''), ('3', ''), ('4', ''), ('5', '')]

In [156]:
pattern1.findall(text)

['34', '33', '33', '34', '5']

#### 9) 역슬래시(\) 문제

- `\s, \t, \n, \r, \f, \v `는 공백을 의미하는 escape 문자이므로 정규표현식에서 역슬래시 한번 사용하면 공백문자로 인식할 수 있음 
- 역슬래시를 두 번 사용하거나 raw string 표현을 사용

In [157]:
re.compile('\\section')

re.compile(r'\section', re.UNICODE)

In [158]:
re.compile(r'\section')

re.compile(r'\section', re.UNICODE)

#### 10) 문자 규칙

- 역슬래시를 이용한 문자 규칙
- `\\\` : 역슬래스 문자 자체
- `\\d` : 모든 숫자를 의미. `[0-9]`와 동일
- `\\D` : 숫자를 제외한 모든 문자. `[^0-9]`와 동일
- `\\s` : 공백문자. `[ \t\n\r\f\v]`와 동일
- `\\S` : 공백을 제외한 문자. `[^ \t\n\r\f\v]`와 동일
- `\\w` : 문자 또는 숫자. `[a-zA-Z0-9]`와 동일
- `\\W` : 알파벳 문자 또는 숫자가 아닌 문자.  `[^a-zA-Z0-9]`와 동일

In [None]:
r'\w+\s+\d+[-]\d+[-]\d+'
park 010-1234-1234

#### 11) 문자열 분리 re.split()

- 정규표현식을 기준으로 문자열들을 분리하여 리스트로 반환
- 토큰화에 유용하게 사용함

In [159]:
re.split(' ', '사과 배 딸기 바나나')

['사과', '배', '딸기', '바나나']

In [163]:
re.split('\+', '사과+배+딸기+바나나')

['사과', '배', '딸기', '바나나']

#### 12) 문자열 바꾸기 : re.sub()

- 정규식과 매치되는 부분을 다른 문자로 변경
- 태그나 특수문자, 기호 제거를 위해 사용

```python
Pattern.sub(repl, string, count=0)
```

In [169]:
text = 'AA**BB#@$CC 가나다-123'
re.sub(r'[^\wㄱ-ㅎ가-힣\s]','',text)

'AABBCC 가나다123'

- 문자열에서 특수문자만 제거

In [None]:
re.sub(r'[^\wㄱ-ㅎ가-힣\s]','',text)

- 문자열에서 숫자만 남기기

In [170]:
re.sub(r'[^\d]','',text)

'123'

- 문자열에서 숫자만 제거

In [171]:
re.sub(r'[\d]','',text)

'AA**BB#@$CC 가나다-'

- 문자열에서 알파벳만 남기기

In [173]:
re.sub(r'[^a-zA-Z]','',text)

'AABBCC'

- 문자열에서 한글문자만 남기기

In [174]:
re.sub(r'[^ㄱ-ㅎ가-힣]','',text)

'가나다'

- HTML 태그 제거

In [175]:
html_tag = '''   <main id="kakaoContent" class="doc-main"> 
    <section class="inner-main"> 
     <h2 class="screen_out">경제</h2> 
     <div class="main-content" data-cloud-area="addition"> 
      <article id="mArticle" class="box_view" data-cloud-area="article"> 
       <div class="head_view" data-tiara-layer="article_head" data-cloud="newsview_article_head"> 
        <h3 class="tit_view">서울 집값 역대 세 번째로 많이 떨어졌다</h3> 
        <div class="info_view"> <span class="txt_info">이송렬</span> <span class="txt_info">입력 <span class="num_date">2022. 10. 20. 14:01</span></span> 
        </div>  
        <div class="util_wrap"> <button type="button" class="btn_cmt" data-tiara-action-name="헤드댓글수_클릭" data-tiara="댓글버튼"> <span class="ico_view ico_cmt">댓글</span> <span class="num_cmt alex-count-area">0</span> </button>  
         <div class="util_view"> 
          <div class="item_util" data-tiara-action-name="헤드음성_클릭"> <button type="button" class="btn_util btn_tts" data-tiara="음성버튼"> <span class="ico_view">음성으로 듣기</span> </button>  
           <div id="ttsViewLayer" class="view_layer"> 
            <div class="inner_view_layer inner_tts_layer"> 
             <div class="layer_head"> <strong class="tit_layer">음성재생 설정</strong>
              <p dmcf-pid="Qj3F8kJG0n" dmcf-ptype="general"><br>노원구도 0.4% 하락해 도봉구에 이어 두 번째로 많이 내렸다. 상계동 ‘임광’ 전용 122㎡는 지난 4일 10억8000만원에 매매 계약을 맺었다. 지난 5월 거래된 13억1000만원보다 2억3000만원 하락했다.</p>
          <p dmcf-pid="xA036EiHzi" dmcf-ptype="general">중계동에 있는 ‘중계무지개’ 전용 49㎡도 지난 12일 5억1500만원에 손바뀜해 직전 거래 6억2900만원(6월)보다 1억1400만원 내렸고, 월계동 ‘한진한화그랑빌’ 전용 75㎡도 지난 1일 8억5000만원에 팔려 올해 1월(9억6000만원)보다 1억1000만원 몸값이 낮아졌다.</p>
          <p dmcf-pid="yUNaSzZd0J" dmcf-ptype="general">노원구 상계동에 있는 A 공인 중개 관계자는 “노원, 도봉, 강북 등은 최근 수년, 특히 지난해 급등했던 곳”이라면서 “너무 급하게 오른 영향으로 요즘엔 매수 문의조차 뜸한 가운데 급매물 위주로 거래되는 중”이라고 했다.</p>
          <p dmcf-pid="WHRMD5lfFd" dmcf-ptype="general">이 밖에도 △송파구(-0.38%) △성북구(-0.37%) △은평구(-0.36%) △강동구(-0.31%) △금천구(-0.3%) 등도 매물이 쌓이면서 하락률이 높아졌다.</p>
          <figure class="figure_frm origin_fig" dmcf-pid="YXeRw1S40e" dmcf-ptype="figure">
           <p class="link_figure"><img alt="매매 및 전세가격지수 변동률 사진=한국부동산원" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202210/20/ked/20221020140119337feul.jpg" data-org-width="630" dmcf-mid="KBbBJCA0pk" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202210/20/ked/20221020140119337feul.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            매매 및 전세가격지수 변동률 사진=한국부동산원
           </figcaption>
          </figure>
          <p dmcf-pid="GXeRw1S4FR" dmcf-ptype="general"><br>전셋값도 빠르게 하향 조정되고 있다. 서울 전셋값은 0.3% 내려 전주(-0.22%)보다 더 내렸다. 송파구 전셋값이 0.76% 내리면서 서울 내 자치구 가운데 가장 큰 폭으로 하락했다.</p>
          <p dmcf-pid="HZdertv8UM" dmcf-ptype="general">가락동에 있는 ‘가락(1차)쌍용아파트’ 전용 84㎡는 지난 23일 6억3000만원에 세입자를 들였다. 이달 초 7억8000만원에도 계약이 맺어졌던 면적대인데 불과 며칠 만에 전셋값이 크게 내렸다. 같은 아파트 전용 59㎡도 지난 7일 5억7000만원에 거래됐는데 현장엔 5억원까지 하락한 매물도 나와 있는 것으로 전해졌다.</p>
          <p dmcf-pid="X5JdmFT6px" dmcf-ptype="general">가락동 B 공인 중개 관계자는 “세입자를 찾지 못한 집주인들이 마음이 급하다 보니 가격을 빠르게 낮추고 있다”며 “불과 한 달 새 전셋값이 많이 내린 상황”이라고 했다.</p>
          <p dmcf-pid="ZT68jYsbuQ" dmcf-ptype="general">송파를 제외한 강남권에선 강동구(-0.45%)가 고덕, 상일, 암사동 위주로 하락했고 양천구(-0.3%)는 신정동과 목동 대단지 아파트를 중심으로 전셋값이 내렸다. 강북권에선 강북구(-0.54%)가 가장 큰 폭으로 내렸다. 미아동에 있는 선호도가 높은 단지 위주로 매물이 쌓이면서다. 성북구(-0.34%)도 길음동과 돈암동을 중심으로 전셋값이 내렸고 은평구(-0.42%), 종로구(-0.33%)도 큰 폭으로 빠졌다.</p>
          <p dmcf-pid="5yP6AGOKpP" dmcf-ptype="general">한편 최근 아파트 매매 심리는 악화하고 있다. 국토연구원 부동산시장연구센터가 발표한 부동산시장 소비자 심리조사 결과에 따르면 수도권 소비자심리지수는 89.0으로 전달보다 1.4포인트 올랐지만 석 달 연속 하강 국면을 기록했다. 전세시장에서 수도권 지수는 82.8로 전달보다 4.4포인트 하락했다. 주택시장 소비심리지수는 95 미만이면 하강 국면, 95∼114는 보합, 115 이상은 상승 국면으로 구분한다.</p>
          <p dmcf-pid="1WQPcHI9p6" dmcf-ptype="general">이송렬 한경닷컴 기자 yisr0203@hankyung.com</p>
             
             '''

In [176]:
re.sub('(<([^>]+)>)','',html_tag)

'    \n     \n     경제 \n      \n       \n        \n        서울 집값 역대 세 번째로 많이 떨어졌다 \n         이송렬 입력 2022. 10. 20. 14:01 \n          \n          댓글 0   \n          \n            음성으로 듣기   \n            \n             \n              음성재생 설정\n              노원구도 0.4% 하락해 도봉구에 이어 두 번째로 많이 내렸다. 상계동 ‘임광’ 전용 122㎡는 지난 4일 10억8000만원에 매매 계약을 맺었다. 지난 5월 거래된 13억1000만원보다 2억3000만원 하락했다.\n          중계동에 있는 ‘중계무지개’ 전용 49㎡도 지난 12일 5억1500만원에 손바뀜해 직전 거래 6억2900만원(6월)보다 1억1400만원 내렸고, 월계동 ‘한진한화그랑빌’ 전용 75㎡도 지난 1일 8억5000만원에 팔려 올해 1월(9억6000만원)보다 1억1000만원 몸값이 낮아졌다.\n          노원구 상계동에 있는 A 공인 중개 관계자는 “노원, 도봉, 강북 등은 최근 수년, 특히 지난해 급등했던 곳”이라면서 “너무 급하게 오른 영향으로 요즘엔 매수 문의조차 뜸한 가운데 급매물 위주로 거래되는 중”이라고 했다.\n          이 밖에도 △송파구(-0.38%) △성북구(-0.37%) △은평구(-0.36%) △강동구(-0.31%) △금천구(-0.3%) 등도 매물이 쌓이면서 하락률이 높아졌다.\n          \n           \n           \n            매매 및 전세가격지수 변동률 사진=한국부동산원\n           \n          \n          전셋값도 빠르게 하향 조정되고 있다. 서울 전셋값은 0.3% 내려 전주(-0.22%)보다 더 내렸다. 송파구 전셋값이 0.76% 내리면서 서울 내 자치구 가운데 가장 큰 폭으로 하락했다

In [177]:
re.sub('(<.+?>)','',html_tag)

'    \n     \n     경제 \n      \n       \n        \n        서울 집값 역대 세 번째로 많이 떨어졌다 \n         이송렬 입력 2022. 10. 20. 14:01 \n          \n          댓글 0   \n          \n            음성으로 듣기   \n            \n             \n              음성재생 설정\n              노원구도 0.4% 하락해 도봉구에 이어 두 번째로 많이 내렸다. 상계동 ‘임광’ 전용 122㎡는 지난 4일 10억8000만원에 매매 계약을 맺었다. 지난 5월 거래된 13억1000만원보다 2억3000만원 하락했다.\n          중계동에 있는 ‘중계무지개’ 전용 49㎡도 지난 12일 5억1500만원에 손바뀜해 직전 거래 6억2900만원(6월)보다 1억1400만원 내렸고, 월계동 ‘한진한화그랑빌’ 전용 75㎡도 지난 1일 8억5000만원에 팔려 올해 1월(9억6000만원)보다 1억1000만원 몸값이 낮아졌다.\n          노원구 상계동에 있는 A 공인 중개 관계자는 “노원, 도봉, 강북 등은 최근 수년, 특히 지난해 급등했던 곳”이라면서 “너무 급하게 오른 영향으로 요즘엔 매수 문의조차 뜸한 가운데 급매물 위주로 거래되는 중”이라고 했다.\n          이 밖에도 △송파구(-0.38%) △성북구(-0.37%) △은평구(-0.36%) △강동구(-0.31%) △금천구(-0.3%) 등도 매물이 쌓이면서 하락률이 높아졌다.\n          \n           \n           \n            매매 및 전세가격지수 변동률 사진=한국부동산원\n           \n          \n          전셋값도 빠르게 하향 조정되고 있다. 서울 전셋값은 0.3% 내려 전주(-0.22%)보다 더 내렸다. 송파구 전셋값이 0.76% 내리면서 서울 내 자치구 가운데 가장 큰 폭으로 하락했다

- BeautifulSoup 패키지 모듈의 get_text() 사용하여 태그 제거

In [178]:
import requests
from bs4 import BeautifulSoup

In [181]:
url = 'https://co-no.tistory.com/entry/Linux-%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9DRegex%EC%9D%98-%EA%B0%9C%EB%85%90%EA%B3%BC-%EA%B8%B0%EC%B4%88-%EB%AC%B8%EB%B2%95'
text = requests.get(url).content
text

b'<!DOCTYPE html>\n<html lang="ko">\n\n\t                                                                                <head>\n                <script type="text/javascript">if (!window.T) { window.T = {} }\nwindow.T.config = {"TOP_SSL_URL":"https://www.tistory.com","PREVIEW":false,"ROLE":"guest","PREV_PAGE":"","NEXT_PAGE":"","BLOG":{"id":5011151,"name":"co-no","title":"\xec\xbd\x94\xeb\x94\xa9\xed\x95\x98\xeb\x8a\x94 \xec\xa3\xbc\xeb\x85\xb8 \xec\x9d\xb4\xec\x95\xbc\xea\xb8\xb0","isDormancy":false,"nickName":"\xec\xbd\x94_\xeb\x85\xb8","status":"open","profileStatus":"normal"},"NEED_COMMENT_LOGIN":false,"COMMENT_LOGIN_CONFIRM_MESSAGE":"","LOGIN_URL":"https://www.tistory.com/auth/login/?redirectUrl=https://co-no.tistory.com/entry/Linux-%25EC%25A0%2595%25EA%25B7%259C%25ED%2591%259C%25ED%2598%2584%25EC%258B%259DRegex%25EC%259D%2598-%25EA%25B0%259C%25EB%2585%2590%25EA%25B3%25BC-%25EA%25B8%25B0%25EC%25B4%2588-%25EB%25AC%25B8%25EB%25B2%2595","DEFAULT_URL":"https://co-no.tistory.com","USER

In [180]:
result = BeautifulSoup(text, 'html.parser').get_text()
result

'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n정규표현식(Regex)의 개념과 기초 문법 - 코딩하는 주노 이야기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n코딩하는 주노 이야기\n\n\n\n홈\n코딩 이야기\n\n\n\n\n\n 코딩 이야기 (115) \n DB (32) \n SQL Server (MSSQL) (24) \n MongoDB (2) \n Hadoop Ecosystem (0) \n SQLP 공부 (2) \n\n\n 데이터 엔지니어링 (0) \n Spark (0) \n\n\n Middleware (21) \n 웹서버 (7) \n WAS (6) \n WSGI (3) \n 기타 (5) \n\n\n OS (9) \n Linux (6) \n Windows (3) \n\n\n Network (8) \n Cloud (1) \n AWS (1) \n\n\n DevOps (6) \n Github (2) \n Ansible (1) \n Terraform (3) \n\n\n Security (3) \n Observability (5) \n CS 지식 | 기초 용어,개념 (7) \n Python (1) \n Flask (0) \n\n\n Java (7) \n JPA (0) \n\n\n 안드로이드 (1) \n 알고리즘 공부 (14) \n\n\n\n\n글작성\n방명록\n환경설정\n메뉴 닫기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n정규표현식(Regex)의 개념과 기초 문법\n\n\n\nOS/Linux\n / \n\t\t\t\t\t\t\t코_노 / \n\n\t\t\t\t\t\t\t2022. 8. 23. 10:49\n\n\n\n\n\n\n정규표현식이란?\n: Regular Expressio

### 정규표현식 연습문제

#### 1. 날짜 표현 탐색

- DD/MM/YY 형태로 작성된 날짜를 탐지하는 정규표현식 작성
- day는 01-31, month는 01-12, year는 1000-2999까지 있다고 가정
- 1,2,3 등의 한자리 숫자의 경우 0을 앞에 붙임

In [183]:
r'0[1-9]|[1-2][0-9]|3[0-1][/]0[1-9]|1[0-2][/][1-2][0-9]{3}'

'0[1-9]|[1-2][0-9]|3[0-1][/]0[1-9]|1[0-2][/][1-2][0-9]{3}'

#### 2. 강력한 비밀번호 탐색

- 비밀번호 길이가 8자리 이상, 영문 대문자와 소문자를 포함하며, 적어도 하나의 숫자가 있어야함

In [None]:
r'^(?=*[A-Z])(?=*[a-z])(?=*\d).{8,}$'

#### 3. 다음 조건에 맞는 정규표현식 지정

- 문장 끝에 마침표가 없어야 할 때
- 소수(실수) 표현

In [None]:
r'\d*[.]\d*|[.][1-9]'

-------------