## [1] 문법

* 정규 표현식 문법
  
| 특수문자 | 설명 |
| - | - |
| `.` | 문자 1개를 표현 |
| `?` | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개) |
| `*` | 앞의 문자가 0개 이상 |
| `+` | 앞의 문자가 최소 1개 이상 |
| `^` | 뒤의 문자로 문자열이 시작 |
| `\$` | 앞의 문자로 문자열이 끝남 |
| `\{n\}` | `n`번만큼 반복 |
| `\{n1, n2\}` | `n1` 이상, `n2` 이하만큼 반복, n2를 지정하지 않으면 `n1` 이상만 반복 |
| `\[ abc \]` | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능 |
| `\[ ^a \]` | 해당 문자를 제외하고 매치 |
| `a\|b` | `a` 또는 `b`를 나타냄 |

* 정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙

| 문자 | 설명 |
| - | - |
| `\\` | 역슬래시 자체를 의미 |
| `\d` | 모든 숫자를 의미, [0-9]와 동일 |
| `\D` | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일 |
| `\s` | 공백을 의미, [ \t\n\r\f\v]와 동일|
| `\S` | 공백을 제외한 모든 문자를 의미, [^ \t\n\r\f\v]와 동일 |
| `\w` | 문자와 숫자를 의미, [a-zA-Z0-9]와 동일 |
| `\W` | 문자와 숫자를 제외한 다른 문자를 의미, [^a-zA-Z0-9]와 동일 |

## [2] 기본정보

+ r의 활용 이유
    + r''은 raw string으로 만들어서, 이스케이프 시퀀스와 정규 표현식 사이의 충돌을 방지할 수 있음
    + 원래 '\b'가 backsapce이지만, r'\b' 는 문자 그대로 '\b' 를 의미하게 됨

In [43]:
# \d 인 문자 자체를 찾고 싶다면
print(re.findall(r'\d', '\d'))
print(re.findall(r'\\d', '\d'))

[]
['\\d']


## [3] 함수예시

In [1]:
# 정규표현식
import re
import string
def clean_text(title):
    title = str(title).lower()
    title = re.sub('_\(.*?\)', '', title) # _() 소괄호 없애기
    title = re.sub('\(.*?\)', '', title) # () 소괄호 없애기
    title = re.sub('<.*?>+','',title)  # < , >없애기
    title = re.sub('[%s]' % re.escape(string.punctuation), '', title) # 구두점제거 !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
    title = re.sub('°|－|ʻ|·', '',title)
    title = re.sub('\d{1,}년', '',title)  # 1994년 과 같은 xxxxx년 삭제
    title = re.sub('[^a-zA-Z0-9ㄱ-ㅣ가-힣]', '',title)   # 알파벳, 한글, 숫자 제외하고 모두 없애기
    title = re.sub('[\s]', '',title)   # 공백모두 제거
   
    # 숫자로만 이루어진 것들 삭제
    if title.isdigit():
        title = ''

    return title

In [13]:
# 1. 들어가기
import re

print(re.search('flower', 'field of flowers, flowerrrrr'))
print(re.findall('flower', 'field of flowers, flowerrrrr'))

<re.Match object; span=(9, 15), match='flower'>
['flower', 'flower']


### (1) \ 문자

In [70]:
# 2. 메타문자
import re
## [1] 모든 숫자 : \d
print('모든 숫자  : \d ')
print(re.findall('\d', '1234567abcd890efg10'))
print(re.findall('\d{3,}', '1234567abcd890efg10')) # 연속 3글자 이상 숫자인 것 모두 찾기
print(re.findall('\d{4,}', '1234567abcd890efg10')) # 연속 4글자 이상 숫자인 것 모두 찾기
print(re.findall('\d{2,3}', '1234567abcd890efg10')) # 연속 2이상 3글자이하인 숫자인 것 모두 찾기  : 
print(re.findall('\d{1,}m', '1234567abcd890efg10')) # 연속 1글자 이상의 숫자 + m 찾기
print()

## [2] 숫자가 아닌 모든 문자 : \D
print('숫자가 아닌 모든 문자  : \D ')
print(re.findall(r'\D', '1234567abcd890efg10\D'))
print()



모든 숫자  : \d 
['1', '2', '3', '4', '5', '6', '7', '8', '9', '0', '1', '0']
['1234567', '890']
['1234567']
['123', '456', '890', '10']
[]

숫자가 아닌 모든 문자  : \D 
['a', 'b', 'c', 'd', 'e', 'f', 'g', '\\', 'D']



In [76]:
## [3] (문자, 숫자, 밑줄) : \w
print(r'(문자, 숫자, 밑줄) : \w ')
print(re.findall(r'\w', '1234567abcd890efg10\D.ㄱ'))
print()


## [4] (문자, 숫자, 밑줄) 제외 : \W
print(r'(문자, 숫자, 밑줄) 제외 : \W ')
print(re.findall(r'\W', '1234567abcd890efg10\D.ㄱ'))
print()


## [5] 공백 : \s
print(r'공백 : \s')
print(re.findall(r'\s', '1234567 abcd890efg1 0\D.ㄱ'))
print()


## [6] 공백아닌문자 : \S
print(r'공백아닌문자 : \S')
print(re.findall(r'\S', '1234567 abcd890efg1 0\D.ㄱ')) # 공백아닌 문자
print(re.findall(r'\S{2,}', '1234567 abcd890efg1 0\D.ㄱ')) # 공백아닌 문자 2개 이상 뭉치
print()

(문자, 숫자, 밑줄) : \w 
['1', '2', '3', '4', '5', '6', '7', 'a', 'b', 'c', 'd', '8', '9', '0', 'e', 'f', 'g', '1', '0', 'D', 'ㄱ']

(문자, 숫자, 밑줄) 제외 : \W 
['\\', '.']

공백 : \s
[' ', ' ']

공백아닌문자 : \S
['1', '2', '3', '4', '5', '6', '7', 'a', 'b', 'c', 'd', '8', '9', '0', 'e', 'f', 'g', '1', '0', '\\', 'D', '.', 'ㄱ']
['1234567', 'abcd890efg1', '0\\D.ㄱ']



In [89]:
## [7] 특정문자 검색
print('특정문자 검색 ')
print(re.findall(r't', 'I want to study more about reg expression'))
print()

## [8] 단어의 경게의 모든 문자 : \b   
print(r'단어의 경게의 모든 문자 : \b ')
print('단어의 시작이 t : ',re.findall(r'\bt', 'I to'))
print('단어의 마지막이 문자 o : ',re.findall(r'o\b', 'I to'))
print('단어의 마지막이 문자 I : ',re.findall(r'I\b', 'I to'))
print()

## [8] 단어의 경게가 아닌 모든 문자 : \B   
print(r'단어의 경게가 아닌 모든 문자 : \B ')
print('단어의 시작이 o가 아닌 것 : ',re.findall(r'\Bo', 'I more'))
print('단어의 시작이 o가 아닌 것 : ',re.findall(r'\Bo', 'I ore'))
print('단어의 마지막이 문자 o가 아닌 것 : ',re.findall(r'o\B', 'I toom'))
print('단어의 마지막이 문자 o가 아닌 것 : ',re.findall(r'o\B', 'I ot'))
print('단어의 마지막이 문자 o가 아닌 것 : ',re.findall(r'o\B', 'I to'))

특정문자 검색 
['t', 't', 't', 't']

단어의 경게의 모든 문자 : \b 
단어의 시작이 t :  ['t']
단어의 마지막이 문자 o :  ['o']
단어의 마지막이 문자 I :  ['I']

단어의 경게가 아닌 모든 문자 : \B 
단어의 시작이 o가 아닌 것 :  ['o']
단어의 시작이 o가 아닌 것 :  []
단어의 마지막이 문자 o가 아닌 것 :  ['o', 'o']
단어의 마지막이 문자 o가 아닌 것 :  ['o']
단어의 마지막이 문자 o가 아닌 것 :  []


### (2) 특수문자
+ `.`
+ `[]`


In [100]:
# [1] 문자(공백포함) 1개 : .
print('문자(공백포함) 1개 : .')
print('문자 1개 : ',re.findall(r'.', 'hello world'))
print('l + 문자 1개 ',re.findall(r'l.', 'hello world'))
print('리터럴 .',re.findall(r'\.', 'hello world.'))
print()

## [2] 문자열 집합(내부의 순서는 상관없음) : []  
print('문자열 집합) : []  ')
print('[] 내부의 순서는 상관없음 : ',re.findall(r'[a-e]','abcdefghij'))
print('[] 내부의 순서는 상관없음 : ', re.findall(r'[edcba]','abcdefghij'))
print()

문자(공백포함) 1개 : .
문자 1개 :  ['h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd']
l + 문자 1개  ['ll', 'ld']
리터럴 . ['.']

문자열 집합) : []  
[] 내부의 순서는 상관없음 :  ['a', 'b', 'c', 'd', 'e']
[] 내부의 순서는 상관없음 :  ['a', 'b', 'c', 'd', 'e']



## [2] 함수 예시


### (1) 삭제 및 교체

In [None]:
import re
### 전체 text에서 공백 없애기
df0['no_space'] = df0['description'].apply(lambda description : re.sub(' ', '', description))

In [None]:
import re
title = 'afnewkj2nbnjfkd2'


## 출처들
+ 이수안컴퓨터연구소
+ https://bonita-sy.tistory.com/174
+ 기타 검색
+ https://regexr.com/

In [None]:
✍(◔◡◔)