* 정규 표현식 문법
  
| 특수문자 | 설명 |
| - | - |
| `.` | 문자 1개를 표현 |
| `?` | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개) |
| `*` | 앞의 문자가 0개 이상 |
| `+` | 앞의 문자가 최소 1개 이상 |
| `^` | 뒤의 문자로 문자열이 시작 |
| `\$` | 앞의 문자로 문자열이 끝남 |
| `\{n\}` | `n`번만큼 반복 |
| `\{n1, n2\}` | `n1` 이상, `n2` 이하만큼 반복, n2를 지정하지 않으면 `n1` 이상만 반복 |
| `\[ abc \]` | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능 |
| `\[ ^a \]` | 해당 문자를 제외하고 매치 |
| `a\|b` | `a` 또는 `b`를 나타냄 |

* 정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙

| 문자 | 설명 |
| - | - |
| `\\` | 역슬래시 자체를 의미 |
| `\d` | 모든 숫자를 의미, [0-9]와 동일 |
| `\D` | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일 |
| `\s` | 공백을 의미, [ \t\n\r\f\v]와 동일|
| `\S` | 공백을 제외한 모든 문자를 의미, [^ \t\n\r\f\v]와 동일 |
| `\w` | 문자와 숫자를 의미, [a-zA-Z0-9]와 동일 |
| `\W` | 문자와 숫자를 제외한 다른 문자를 의미, [^a-zA-Z0-9]와 동일 |

In [None]:
# 정규표현식
import re
import string
def clean_text(title):
    title = str(title).lower()
    title = re.sub('_\(.*?\)', '', title) # _() 소괄호 없애기
    title = re.sub('\(.*?\)', '', title) # () 소괄호 없애기
    title = re.sub('<.*?>+','',title)  # < , >없애기
    title = re.sub('[%s]' % re.escape(string.punctuation), '', title) # 구두점제거 !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
    title = re.sub('°|－|ʻ|·', '',title)
    title = re.sub('\d{1,}년', '',title)  # 1994년 과 같은 xxxxx년 삭제
    title = re.sub('[^a-zA-Z0-9ㄱ-ㅣ가-힣]', '',title)   # 알파벳, 한글, 숫자 제외하고 모두 없애기
    title = re.sub('[\s]', '',title)   # 공백모두 제거
   
    # 숫자로만 이루어진 것들 삭제
    if title.isdigit():
        title = ''

    return title

### 예시


In [None]:
import re
### 전체 text에서 공백 없애기
df0['no_space'] = df0['description'].apply(lambda description : re.sub(' ', '', description))

## 출처들
+ 이수안컴퓨터연구소
+ https://bonita-sy.tistory.com/174
+ 기타 검색