# 3.정규표현식

정규표현식(Regular Expression, regex)  
프로그래밍에서 문자열을 다룰 때, 문자열의 일정 패턴을 표현하는 형식  
보통 정규식이라고 부르며, regex, regexp라고 많이 씀

정규식 테스트 사이트: https://regexr.com/  
연습문제 사이트: https://regexone.com/

## 3.1. 정규표현식 정리
메타문자: 원래 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;ex) . ^ $ * + ? { } [ ] \ | ( )

### 3.1.1 기본 메타문자

|기호  |설명                                      |
|------|------------------------------------------|
|.     |\n을 제외한 모든 문자 일치                |
|\|    |OR 왼쪽 혹은 오른쪽 문자와 일치           |
|()    |문자 집합 캡처, 캡처된 문자는 재참조 가능 |
|[]    |문자 집합 구성원 중 하나와 일치           |
|[^]   |문자 집합 구성을 제외하고 일치            |
|-     |범위 정의                                 |
|\     |다음에 오는 문자를 이스케이프             |


### 3.1.2 수량자

|기호  |설명                                                     |
|------|---------------------------------------------------------|
|*     |앞의 문자나 부분식이 0개 이상 greedy 찾기                |
|*?    |앞의 문자나 부분식이 0개 이상 lazy 찾기                  |
|+     |앞의 문자나 부분식이 1개 이상 greedy 찾기                |
|+?    |앞의 문자나 부분식이 1개 이상 lazy 찾기                  |
|?     |앞의 문자나 부분식을 0개나 1개 찾기                      |
|{n}   |앞의 문자나 부분식이 n번 일치하는 경우 찾기              |
|{m,n} |앞의 문자나 부분식이 m번 이상 n번 이하 일치하는 경우 찾기|
|{n,}  |앞의 문자나 부분식이 n번 이상인 경우 greedy 찾기         |
|{n,}? |앞의 문자나 부분식이 n번 이상인 경우 lazy 찾기           |

*는 0개 이상  
+는 1개 이상

greedy: 조건이 맞는 모든 것을 하나의 패턴으로 인식  
lazy:   조건이 맞는 1개를 하나의 패턴으로 인식

### 3.1.3 위치지정

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|^     |입력 문자열의 시작에서 다음에 나오는 문자나 부분식과 일치하는지 검사 |
|\$    |문자열의 끝과 일치                                                   |
|\b    |단어의 경계(공백 등)와 일치                                          |
|\B    |\b와 반대(비단어 경계)로 일치                                        |
|\A    |multiline 사용 시 줄과 관계 없이 처음 문자열에 매칭                  |
|\Z    |multiline 사용 시 줄과 관계 없이 마지막 문자열에                     |

### 3.1.4 특수문자

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|[\b]  |역스페이스                                                           |
|\d    |모든 숫자와 일치, [0-9]                                              |
|\D    |\d와 반대, [^0-9] , 글자나 공백 등                                                   |
|\w    |영숫자 문자나 밑줄과 일치, [a-zA-Z0-9]  영어랑 숫자만                             |
|\W    |\w와 반대, [^a-zA-Z0-9]  영어 숫자 말고
                                          |
|\n    |줄 바꿈 문자                                                         |
|\t    |탭 문자                                                              |
|\v    |세로 탭                                                              |
|\s    |공백, 탭, 용지 공급 등과 같은 문자 찾기, [\f\n\r\t\v]                |
|\S    |\s와 반대, [^\f\n\r\t\v] 공백 문자가 아닌것                                           |
|\cx   |x로 표시된 제어문자                                                  |

### 3.1.5 역참조와 전후방탐색

|기호            |설명                                                         |
|----------------|-------------------------------------------------------------|
|(pattern)       |하위 표현식 정의. 패턴을 찾아 일치하는 항목 캡처             |
|                |캡처 내에 ?:를 사용 (?:)시 캡처하지 않음,                    | 
|                |캡처된 문자는 재참조 가능                     |
|                |?P<name>으로 이름 부여 가능
|\1              |첫 번째 일치한 하위 표현식, 두 번째 일치한 표현식은 \2로 표시|
|(?=pattern)     |전방탐색                                                     |
|(?!pattern)     |부정형 전방탐색                                              |
|(?<=pattern)    |후방탐색                                                     |
|(?<!pattern)    |부정형 후방탐색                                              |
|?(BR)true       |조건 지정                                                    |
|?(BR)true|false |else 표현식 조건 지정                                        |

### 3.1.6 옵션

|기호 |설명                                                           |
|-----|---------------------------------------------------------------|
|\i   |IGNORECASE, 대소문자를 구분하지 않고 탐색                      |
|\g   |GLOBAL, 패턴을 계속 찾음.                                      |
|     |greedy처럼 일치하는 구간을 늘리는 것이 아닌 패턴 개수가 늘어남 |
|\m   |MULTILINE, 입력 문자열에 줄바꿈이 있어도 이를 문자로 간주      |
|\s   |DOTALL, .이 줄바꿈 문자를 포함한 모든 문자를 매치              |
|\x   |VERBOSE, verbose 모드 사용                                     |

## 3.2 정규표현식 기본 예제

### 3.2.1 기본 예

|정규표현식   |설명                                                           |
|-------------|---------------------------------------------------------------|
|abc          |abc가 있는 경우                                                |
|^abc         |abc로 시작하는 경우                                            |
|abc\$        |abc로 끝나는 경우                                              |
|^abc$        |abc로 시작하고 끝나는 경우                                     |
|[abc]        |a,b,c 중 하나를 포함하는 경우                                  |
|[a-z]        |a에서 z중 하나를 포함하는 경우                                 |
|^[0-9]       |0~9 중 하나로 시작하는 경우                                    |
|[^0-9]       |0~9가 아닌 경우                                                |
|^[^0-9]      |0~9가 아닌 것으로 시작하는 경우                                |
|a{3}         |a가 3번 반복되는 경우, aaa                                     |
|a{3,}        |a가 3번 이상 반복되는 경우                                     |
|[0-9]{2}     |0~9가 두 번 반복되는 경우, 두 자리 숫자                        |
|abc[7-9]{2}  |abc를포함하고 7~9까지 숫자 중 2자리가 함되는 경우              |

### 3.2.2 많이 사용하는 정규식

|설명         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|이메일       |[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}                |
|전화번호     |(070\|02\|031\|032\|033\|041\|042\|043\|051\|052\|053\|054\|055\|061\|062\|063\|064)-\d{3,4}-\d{4}                                             |
|휴대폰번호   |(010\|011\|016\|017\|018\|019)-\d{3,4}-\d{4}                   |
|우편번호     |\d{3}-?\d{3}                                                   |
|주민등록번호 |\d{2}[0-1]\d[0-3]\d-?[1-6]\d{6}                                |

### 3.2.3 태그 제거

|패턴         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|\&nbsp;      |\&nbsp;                                                        |
|복수 공백    |\s{2,}                                                         |
|ifram        |<iframe(.*?)<\/iframe>                                         |
|style=       |style=(\"\|\')?([^\"\']+)(\"\|\')?/"                           |
|width=       |width=(\"\|\')?\d+(\"\|\')?                                    |
|height=      |height=(\"\|\')?\d+(\"\|\')?/"                                 |

## 3.3 re 모듈
파이썬에서 정규표현식을 지원하기 위해 사용하는 모듈  
내장 라이브러리로 별도로 설치할 필요 없음



```python
import re
```




In [1]:
import re

### re.match
```python
re.match('ell', 'hello')
```
문자열의 시작에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 있어 매칭되는 게 없음  

match 객체에는 다음의 메서드가 존재

|기호        |설명                                                         |
|------------|-------------------------------------------------------------|
|group()     |매치된 문자열 반환                                           |
|groupdict() |매치된 문자열의 이름과 결과 쌍 반환 (?P<이름>)사용           |
|start()     |매치된 문자열의 시작 위치 반환                               |
|end()       |매치된 문자열의 끝 위치 반환                                 |
|span()      |매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환              |

### re.fullmatch
```python
re.fullmatch('ell', 'hello')
```
문자열에 시작과 끝이 정확하게 패턴과 일치하는지 확인  

### re.search
```python
re.search('ell', 'hello')
```
문자열 내에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 매칭

In [7]:
re.search('ell', 'hello')

<re.Match object; span=(1, 4), match='ell'>

In [5]:
if re.search('v', 'hello'):
    print(1)
else:
    print(0)

0


### re.compile
```python
regex = re.compile('ell')
regex.search('hello')
```
정규식 패턴을 정규식 객체로 컴파일  
객체에는 match, search 등의 메서드 사용 가능

### re.split
```python
re.split('\s', 'hello world')
```
주어진 패턴을 기준으로 분할 후 리스트로 반환  
maxsplit을 이용하면 최대 n개의 분할 개수 설정 가능

In [9]:
re.split('\s', 'hello world')

['hello', 'world']

### re.findall
```python
re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 리스트로 반환

In [14]:
re.findall('(\w+=\d+)', 'set width=20 and height=10')

['width=20', 'height=10']

In [13]:
re.findall('(\w+)=(\d+)', 'set width=20 and height=10')

[('width', '20'), ('height', '10')]

In [11]:
re.findall('\w+=(\d+)', 'set width=20 and height=10')

['20', '10']

### re.finditer
```python
re.finditer(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 이터레이터로 반환

### re.sub
```python
re.sub('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
subn과 마찬가지로 변경되는 최대 글자를 제한할 수 있음

In [15]:
re.sub('\d+', '0', 'width=20 and height=10')

'width=0 and height=0'

In [16]:
re.sub('\d+', '0', 'width=20 and height=10', 1)

'width=0 and height=10'

### re.subn
```python
re.subn('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
sub와 동일하나 (결과, 변환된 갯수)로 반환

# 6.텍스트 데이터 분석

## 6.1 텍스트 전처리

### 6.1.1 토큰화 (Tokenization)
주어진 코퍼스 내에서 분석 대상이 되는 유의한 단위인 토큰으로 나누는 작업 <br>
아래 예시에서 토큰은 단어
<br>

ex)
I like apple <br>
-> token: I, like, apple

<br>

주의사항: 단순히 특수문자 등을 제외하고 공백 기준으로 잘라내는 작업이라고는 할 수 없음 <br>
> ex) 
- 36.5, Ph.D, AT&T <br>
- 줄임말
- 야민정음
- 기타



### 6.1.2 정제 (Cleaning)
가지고 있는 단어 집합에서 불필요한 데이터를 제거하는 것 <br>
토큰화 작업 전후로 적용 <br>

> example
- 등장 빈도가 적은 단어
- 길이가 짧은 단어

### 6.1.3 정규화 (Normalization)
표현방법이 다른 단어를 하나의 단어로 통합

> example
- 대소문자 (covid == COVID)
- 동의어 (covid == 코로나)

#### 표제어 추출 (Lemmatization)
단어의 어근을 찾아 추출

> example
- am, are, is -> be
- apples -> apple


### 6.1.4 불용어 (Stopword)

가지고 있는 데이터 중 불필요한 토큰을 제거하는 작업 <br>
자주 등장하지만 분석에 큰 도움이 되지 않는 단어를 의미 <br>

> example <br>
- and, am, I, about 

<br>

```python
# 영문 불용어
from nltk.corpus import stopwords

stop_words_list = stopwords.words('english')
[word for word in word_tokens if word not in stop_words]

# 한국어 불용어
# https://www.ranks.nl/stopwords/korean
```

## 6.2 텍스트 데이터 분석

### 6.2.1 WordCloud
데이터의 태그들을 분석하여 중요도나 인기도 등을 고려하여 시각적으로 표시하는 것 <br>
주로 단어의 빈도를 이용하며, 중요도에 따라 글자의 색상이나 굵기 등 형태를 변화시킬 수 있음
<br>

```python
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

counter = Counter(word_list)

word_cloud = WordCloud(
    background_color="black", 
    max_font_size=60,
    colormap='prism'
    ).generate_from_frequencies(counter)

plt.figure(figsize=(10, 8))
plt.imshow(word_cloud)
plt.axis('off')
```
<br>

아래의 방법을 통해 특정 이미지 모양으로 시각화 가능
```python
import numpy as np
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt
from PIL import Image

mask = Image.new('RGBA', (2048, 2048), (255, 255, 255))
image = Image.open('./data/heart.png').convert('RGBA')
x, y = image.size
mask.paste(image, (0, 0, x, y), image)
mask = np.array(mask)

counter = Counter(word_list)

word_cloud = WordCloud(
    background_color="black", 
    max_font_size=60,
    colormap='prism',
    mask=mask,
    ).generate_from_frequencies(counter)

plt.figure(figsize=(10, 8))
plt.imshow(word_cloud)
plt.axis('off')
```

### 6.2.2 TF-IDF
TF-IDF는 단어 빈도와 역 문서 빈도를 사용하여 문서 단어 행렬(DTM) 내의 각 단어 

#### 문서 단어 행렬 (Document-Term Matrix, DTM)
다수의 문서에 등장하는 각 단어들의 빈도를 행렬로 표현한 것

문서1: I like apple and also like samsung<br>
문서2: I like apple watch <br>
문서3: I do like samsumg smart phone <br>
문서4: I hate phone <br>
<br>

|문서|I|like|do|hate|apple|watch|samsung|smart|phone|and|also
|-|-|-|-|-|-|-|-|-|-|-|-|
|문서1|1|2|0|0|1|0|0|0|0|1|1|
|문서2|1|1|0|0|1|1|0|0|0|0|0|
|문서3|1|1|1|0|0|0|1|1|1|0|0|
|문서4|1|0|0|1|0|0|0|0|1|0|0|

<br>

위의 방법으로 행렬 구성 시, 단어가 column이 되는데, 등장하는 단어가 많을수록, 대부분의 벡터가 0을 가지게 됨 <br>

이를 **희소 벡터, 행렬**이라 부름 <br>

이는 많은 저장 공간과 높은 계산 비용을 필요로 하기에, 전처리를 통하여 크기를 줄이는 작업이 중요 <br>


#### Term Fequency (TF)
tf(d, t): 특정 문서 d에서 단어 t의 등장 횟수 <br>
<br>

> ex)
tf(1, 'like') = 2

```python
def term_frequency(term, document):
  return document.count(term)
```

```python
import itertools
import pandas as pd

documents = ['I like apple and also like samsung', 'I like apple watch', 'I do like samsumg smart phone', 'I hate phone']
vocab = list(set(word for document in documents for word in document.split()))
tf = []

for i in range(len(documents)):
  tf.append([])
  document = documents[i]
  for j in range(len(vocab)):
    term = vocab[j]
    tf[-1].append(term_frequency(term, document))

tf = pd.DataFrame(tf, columns=vocab)
```

#### IDF
df(d, t) = $log(\frac{n}{1+df(t)})$: 특정 단어 t가 등장한 문서의 수 <br>
<br>

> ex) idf

```python
def inverse_document_frequency(term, documents):
  N = len(documents)
  document_frequency = 0

  for document in documents:
    if term in document.split():
      document_frequency += 1
  
  return np.log(N/(document_frequency+1))
```

```python
import pandas as pd
import itertools

documents = ['I like apple and also like samsung', 'I like apple watch', 'I do like samsumg smart phone', 'I hate phone']
vocab = list(set(word for document in documents for word in document.split()))
idf = []

result = []
for i in range(len(vocab)):
    term = vocab[i]
    result.append(inverse_document_frequency(term, documents))

idf = pd.DataFrame(result, index=vocab, columns=["IDF"])
```

#### TF-IDF
단어의 빈도와 역 문서 빈도의 곱 <br>
단어의 중요도를 가중치로 주는 방법 <br>

```python
def tf_idf(term, document, documents):
  return term_frequency(term, document) * inverse_document_frequency(t, documents)
```
```python
import pandas as pd
import itertools

documents = ['I like apple and also like samsung', 'I like apple watch', 'I do like samsumg smart phone', 'I hate phone']
vocab = list(set(word for document in documents for word in document.split()))
tf_idf_result = []

for i in range(len(documents)):
  tf_idf_result.append([])
  document = documents[i]
  for j in range(len(vocab)):
    term = vocab[j]
    tf_idf_result[-1].append(tf_idf(term, document, documents))

tfidf_ = pd.DataFrame(tf_idf_result, columns=vocab)
tfidf_
```

#### CountVectorizer

```python
from sklearn.feature_extraction.text import CountVectorizer

documents=['I like apple and also like samsung', 'I like apple watch', 'I do like samsumg smart phone', 'I hate phone']

vector = CountVectorizer()
vector.fit_transform(documents).toarray()   # tf
vector.vocabulary_                      # word count
```

#### TfidfVectorizer

```python
from sklearn.feature_extraction.text import TfidfVectorizer

documents=['I like apple and also like samsung', 'I like apple watch', 'I do like samsumg smart phone', 'I hate phone']

vector = TfidfVectorizer().fit(documents)
vector.fit_transform(documents).toarray()   # tf
vector.vocabulary_                          # word count
```

### 6.2.3 Association Rule
항목 간 관계를 규칙 기반으로 분석하는 방법 <br>
마케팅 등에서 고객 상품 구매 데이터를 활용해 품목 간 연관성을 본다는 의미에서 장바구니 분석이라고도 불림 <br>

> example <br>
- 삼겹살, 소주 -> 삼겹살을 사는 고객은 소주도 같이 구매한다

```python
from apyori import apriori

```

### 분석 방법
거래 내역이 아래와 같이 주어져 있다고 가정

|번호|품목|
|-|-|
|1|삼겹살, 상추, 소주|
|2|삼겹살, 소주|
|3|삼겹살, 깻잎|
|4|닭고기, 비누|
|5|닭고기, 상추, 고추|

<br>
<br>

위의 거래 내역을 이용하여 다음의 구매 행렬을 만들 수 있음 <br>

||삼겹살|상추|소주|깻잎|닭고기|비누|고추|
|-|-|-|-|-|-|-|-|
|삼겹살|3|1|2|0|0|1|1|
|상추 |1|2|1|0|1|0|1|
|소주|2|1|2|0|0|0|0|
|깻잎|0|0|0|1|0|0|0|
|닭고기|0|1|0|0|2|1|1|
|비누|1|0|0|0|1|1|0|
|고추|1|1|0|0|1|0|1|

<br>
위의 규칙을 보면 삼겹살을 사는 고객은 소주를 산다는 것을 확인할 수 있음 <br>
그러나 이는 정성적이므로, 정량적 평가 지표를 도입하여 이러한 연관 규칙이 유효한지 판단 <br>

1. Confidence <br>
X가 포함하는 거래 내역 중 Y가 포함된 비율이 높아야 함 <br>
$P(소주|삼겹살) = \frac{\frac{2}{5}}{\frac{3}{5}} = \frac{2}{3} $
2. Support <br>
X와 Y를 동시에 포함하는 비율이 높아야 함 $P(X \cap Y)$ <br>
신뢰도 $P(삼겹살|소주) = \frac{\frac{1}{5}}{\frac{2}{5}} = \frac{1}{2} $이나 거래 건수가 5개 중 1개<br>
이는 아직 발생 횟수가 충분하지 않아 소주를 사면 삼겹살을 샀다라는 규칙을 지지하기 위해 실질적으로는 $P(X \cap Y)$가 높아야 함을 의미
3. Lift <br>
신뢰도가 만약 $P(Y|X)=0.8$이었고 이는 충분히 높은 수치라고 판단하여 X -> Y라는 규칙이 의미 있다고 판단 할 수 있을 것 <br>
하지만 Y가 발생한 비율이 0.8이었다고 하면 $P(Y|X) = P(Y)$가 되어 X는 Y를 설명하는데 아무런 도움이 되지 못함 <br>
따라서 $P(Y|X)/P(Y)를 계산하는데 이를 향상도(Lift)라고 함 <br>
- Lift = 1: X와 Y는 독립
- Lift > 1: X가 Y 발생 확률을 X를 고려하지 않았을 때보다 증가시킴 (X가 Y 증가 예측에 도움을 줌)
- Lift < 1: X가 Y 발생 확률을 X를 고려하지 않았을 때보다 감소시킴 (X가 Y 감소 예측에 도움을 줌) 

<br>
<br>

```python
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

documents = ['I like apple and also like samsung', 'I like apple watch', 'I do like samsumg smart phone', 'I hate phone']
words = list(itertools.chain(*[document.split() for document in documents]))
items = [words[i:i+3] for i in range(len(words)-3)]

transaction_encoder = TransactionEncoder()
te_result = transaction_encoder.fit(items).transform(items)
data = pd.DataFrame(te_result, columns=np.unique(words))
itemset = apriori(data
association_rules(itemset, metric='confidence', min_threshold=0.5)
```



## 6.3 영어 자료 분석

## 6.4 한국어 자료 전처리