참고자료: 딥 러닝을 이용한 자연어 처리 입문      
https://wikidocs.net/21667

# [토큰화(Tokenization)]
크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전치리 되지 않은 상태라면, 용도에 맞게 토큰화, 정제, 정규화를 해줘야 한다. 그 중 토큰화에 대해 학습해보자.

## 1. 단어 토큰화(Word Tokenization)
보통 토큰화 작업은 단순히 구두점이나 특수문자를 전부 제거하는 정제(Cleaning) 작업을 수행하는 것만으로 해결되지 않음.     
구두점이나 특수문자를 모두 제거해버리면 의미를 잃어버리는 경우가 많기 때문임.

## 2. 토큰화 중 생기는 선택의 순간
예상하지 못하는 경우가 있어 토큰화의 기준을 생각해봐야 함.    
예) Don't, Don t, Dont, Don, ... 

In [1]:
import nltk
nltk.__version__

'3.7'

In [2]:
# lookup error 시 다운로드하기 
# nltk.download()

In [3]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer    # 어포스트로피 처리 확인하기 위함
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [5]:
text = "Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery goes for a pastry shop."
print("word_tokenize 이용 단어 토큰화: ", word_tokenize(text))
print("")
print("WordPunctTokenizer 이용 단어 토큰화: ", WordPunctTokenizer().tokenize(text))
print("")
print("Keras의 text_to_word_sequendce 이용 단어 토근화: ", text_to_word_sequence(text))

word_tokenize 이용 단어 토큰화:  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']

WordPunctTokenizer 이용 단어 토큰화:  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']

Keras의 text_to_word_sequendce 이용 단어 토근화:  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 3. 토큰화에서 고려해야할 사항
1) 구두점이나 특수 문자를 단순 제외해서는 안 됨     
2) 줄임말과 단어 내에 띄어쓰기가 있는 경우    

#### 표준 토큰화 예제: Treebank Tokenization
- 하이픈으로 구성된 단어는 하나로 유지함 
- doesn't와 같이 아포스트로피 접어가 함께하는 단어는 분리함

In [6]:
from nltk.tokenize import TreebankWordTokenizer
text = "Starting a home-based restaurant may be an ideal. It doesn't have a food chain or restaurant of their own."
tokenizer = TreebankWordTokenizer()
print("treebank workTokenizer 이용 단어 토큰화: ", tokenizer.tokenize(text))

treebank workTokenizer 이용 단어 토큰화:  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'It', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 4. 문장 토큰화(Sentence Tokenization)
갖고있는 corpus 내에서 문장 단위로 구분하는 작업, sentence segmentaion이라고도 함     
단순히 마침표로만 문장을 구분짓지 않음.     
예) Ph.D, IP 110.123.123.345 와 같은 단어 때문

In [7]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He lookeds about, to make sure no one was near."
print("sent_tokenize를 이용한 문장 토큰화: ", sent_tokenize(text))

sent_tokenize를 이용한 문장 토큰화:  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He lookeds about, to make sure no one was near.']


In [8]:
# 한국어 문장 토큰화
!pip install kss

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting kss
  Downloading kss-3.6.4.tar.gz (42.4 MB)
[K     |████████████████████████████████| 42.4 MB 109 kB/s 
[?25hCollecting emoji==1.2.0
  Downloading emoji-1.2.0-py3-none-any.whl (131 kB)
[K     |████████████████████████████████| 131 kB 12.6 MB/s 
Building wheels for collected packages: kss
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-3.6.4-py3-none-any.whl size=42448613 sha256=ca3848b066d92a9a9b5d59cb873fb7d65a4626ea4c3ee53a2891eef440cd1ab0
  Stored in directory: /root/.cache/pip/wheels/32/53/7c/76bdf098c2a6c5cd4c4c29648da30ad4793d604314b2aeb26f
Successfully built kss
Installing collected packages: emoji, kss
Successfully installed emoji-1.2.0 kss-3.6.4


In [9]:
import kss 
text = "딥러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?"
print("한국어 문장 토큰화: ", kss.split_sentences(text))

# 그치만 한국어 자연어처리는 굉장히 어렵다

한국어 문장 토큰화:  ['딥러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


## 6. 품사 태깅(Part-of-Speech tagging)과 실습

In [10]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [11]:
from nltk.tokenize import word_tokenize  # 토크나이저
from nltk.tag import pos_tag   # 품사 태깅 

text = "I am actively looking for Ph.D. students. And you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print("단어 토큰화: ", tokenized_sentence)
print("품사 태깅: ", pos_tag(tokenized_sentence))

단어 토큰화:  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'And', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('And', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


- PRP: 인칭대명사
- VBP: 동사
- RB: 부사
- VBG: 현재부사
- IN: 전치사
- NNP: 고유명사
- NNS: 복수형 명사
- CC: 접속사
- DT: 관사

In [14]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 2.9 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[K     |████████████████████████████████| 465 kB 72.1 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [15]:
# 한국어 형태소 분석하려면 KoNLPy 패키지 설치 후 Okt, Mecab, Komoran, Hannanum, Kkma 등 사용
from konlpy.tag import Okt
from konlpy.tag import Kkma  

okt = Okt()
kkma = Kkma()

text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print("OKT 형태소 분석: ", okt.morphs(text))
print("OKT 품사 태깅: ", okt.pos(text))
print("OKT 명사 추출: ", okt.nouns(text))

OKT 형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출:  ['코딩', '당신', '연휴', '여행']


# [정제(Cleanign)와 정규화(Normalization)]
토큰화 작업 전후에는 텍스트 데이터를 용도에 맞게 정제(cleaning)과 정규화(normalization)가 필요함. 
1. 정제: 갖고 있는 코퍼스로부터 노이즈 데이터를 제거 
2. 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

## 1. 규칙에 기반한 표기가 다른 단어들의 통합

## 2. 대소문자 통합

## 3. 불필요한 단어의 제거
1. 등장 빈도가 적은 단어
2. 길이가 짧은 단어 

정규표현식으로 추출 가능

## 4. 정규 표현식

# [어간 추출(Stemming)과 표제어 추출(Lemmatization)]
정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법

## 1. 표제어 추출(Lemmatization)
표제어 또는 기본 사전형 단어.     
단어들이 다른 형태를 가지더라도 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단.     
예) am, are, is의 표제어는 be     

1. 어간(Stem): 단어의 의미를 담고 있는 단어의 핵심 부분
2. 접사(affix): 단어에 추가적인 의미를 주는 부분

In [16]:
# lemmatize lookup 에러 시 다운로드 필요
nltk.download("wordnet")
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [17]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('표제어 추출 전: ', words)
print("")
print('표제어 추출 후: ', 
      [lemmatizer.lemmatize(word) for word in words])
# 여기선 ing/ed 표현 안없어지네

표제어 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

표제어 추출 후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [18]:
# 동사라는 거 알려주면 뽑아줌
print(lemmatizer.lemmatize('dies', 'v'))  
print(lemmatizer.lemmatize('watched', 'v'))  
print(lemmatizer.lemmatize('has', 'v'))

die
watch
have


## 2. 어간 추출(Stemming)
형태학적 분석을 단순화한 버전 또는 정해진 규칙을 이용해 단어의 어미를 자르는 어림짐작의 작업.    
Porter Algorithm은 어간 추출 알고리즘 중 하나.

#### Porter 알고리즘

In [19]:
text = "This was not the map we found in Billy Bone's chest, but an accurate copy, complete in all things -- names and heights amd soundings -- with the single exception of the red crosses and the written notes."

In [20]:
# lookup 에러시 
import nltk
nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [21]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bone's chest, but an accurate copy, complete in all things -- names and heights amd soundings -- with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print("어간 추출 전 토큰화만 진행: ", tokenized_sentence)
print("어간 추출 후: ", [stemmer.stem(word) for word in tokenized_sentence])
# 규칙기반의 알고리즘이므로 어간 추출 후의 결과는 사전에 없는 단어들도 포함되어 있음. 

어간 추출 전 토큰화만 진행:  ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bone', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'amd', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후:  ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'amd', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [22]:
# 포터 알고리즘의 규칙 기반 어간 추출 시 
words = ['formalize', 'allowance', 'electricical']
print('어간 추출 전: ', words )
print('어간 추출 후: ', [stemmer.stem(word) for word in words])

어간 추출 전:  ['formalize', 'allowance', 'electricical']
어간 추출 후:  ['formal', 'allow', 'electric']


#### Porter 알고리즘 vs. Lancaster 알고리즘

In [23]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print("Porter stemmer의 어간 추출 후: ", [porter_stemmer.stem(word) for word in words])
print("Lancaster stemmer의 어간 추출 후: ", [lancaster_stemmer.stem(word) for word in words])

Porter stemmer의 어간 추출 후:  ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
Lancaster stemmer의 어간 추출 후:  ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 3. 한국어에서의 어간 추출

#### 한국어의 5언 9품

|언|품사|
|-----|----------|
|체언|명사, 대명사, 수사|
|수식언|관형사, 부사|
|관계언|조사|
|독립언|감탄사|
|용언|동사, 형옹사|

# [불용어(Stopword)]    
갖고있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해 불용어는 제거해야함.     
자주 등장하지만 분석을 하는 것에 있어서 큰 도움이 되지 않는 단어.    
  -  예) I, my, over, 조사, 접미사 등

In [24]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 
!pip install konlpy
from konlpy.tag import Okt

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## 1. NLTK에서 불용어 확인하기

In [27]:
nltk.download("stopwords")
stop_words_list = stopwords.words("english")
print("불용어 개수: ", len(stop_words_list))
print("불용어 출력: ", stop_words_list[:10])

불용어 개수:  179
불용어 출력:  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 2. NLTK를 통해서 불용어 제거하기

In [28]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [29]:
text = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))
print("불용어 개수: ", len(stop_words))

불용어 개수:  179


In [30]:
word_tokens = word_tokenize(text)

result = []
for word in word_tokens: 
  if word not in stop_words:
    result.append(word)

print("불용어 제거 전: ", word_tokens)
print("불용어 제거 후: ", result)

불용어 제거 전:  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후:  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 3. 한국어에서 불용어 제거하기

In [31]:
okt = Okt()
text = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 에컨데 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(text)

result = [word for word in word_tokens if not word in stop_words]
print('불용어 제거 전: ', word_tokens)
print('불용어 제거 후: ', result)

불용어 제거 전:  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '에컨데', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후:  ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '에컨데', '삼겹살', '을', '중요한', '있지', '.']


# [정규표현식(Regular Expression)]
- 파이썬 정규 표현식 모듈: re

## 2. 정규 표현식 실습

#### 1) . 기호: 한 개의 임의의 문자

In [32]:
import re
# re.compile: 정규표현식을 컴파일하는 함수

#### 1) . 기호: 한 개의 임의의 문자

In [33]:
r = re.compile("a.c")
print(r.search("kkk"))
print(r.search("abc")) # match

None
<re.Match object; span=(0, 3), match='abc'>


#### 2) ? 기호: 물음표 앞의 문자가 있을 수도 있고 없을 수도 있음

In [34]:
r = re.compile("ab?c")
print(r.search("abbc"))
print(r.search("abc")) # match
print(r.search("ac"))  # match

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>


#### 3) * 기호: * 바로 앞의 문자가 0개 이상일 경우

In [35]:
r = re.compile("ab*c")  # * 앞에있는 가 0개 이상일 경우
print(r.search("a"))
print(r.search("ab"))    # match
print(r.search('abc'))   # match
print(r.search('abbbc')) # match

None
None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 5), match='abbbc'>


#### 4) + 기호: + 바로 앞의 문자가 1개 이상인 경우

In [36]:
r = re.compile("ab+c")
print(r.search('ac'))
print(r.search('abc'))     # match
print(r.search('abbbbc'))  # match

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 6), match='abbbbc'>


#### 5) ^기호: 시작되는 문자열을 지정

In [37]:
r = re.compile('^ab')
print(r.search('bbc'))
print(r.search('zab'))
print(r.search('abzz'))  # match
print(r.search('abzmkdflkajkntkjnlknhet')) # match

None
None
<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 2), match='ab'>


#### 6) {숫자} 기호: 문자에 해당 기호를 붙이면 해당 숫자만큼 반복한 것을 나타냄

In [38]:
r = re.compile("ab{2}c") # a와 c 사이에 b가 존재하면서 b가 두 개인 문자열
print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbc')) # match

None
None
<re.Match object; span=(0, 4), match='abbc'>


#### 7) {숫자1, 숫자2} 기호: 숫자 1 이상 숫자 2이하 반복

In [39]:
r = re.compile("ab{2,8}c")
print(r.search('abbc'))

<re.Match object; span=(0, 4), match='abbc'>


In [40]:
r = re.compile("ab{2,8}c")  # 헐 {2, 8}처럼 띄어쓰기 하면 안됨
print(r.search('abc')) 
print(r.search('abbc')) # match
print(r.search('abbbbbbbbbbbbbbbbc')) 

None
<re.Match object; span=(0, 4), match='abbc'>
None


#### 8) {숫자, } 기호: 

In [41]:
r = re.compile("a{2,}bc") # 띄어쓰기 안됨

print(r.search("abc"))
print(r.search("aabc"))  # match
print(r.search("aaab"))
print(r.search("aaabc"))  # match

None
<re.Match object; span=(0, 4), match='aabc'>
None
<re.Match object; span=(0, 5), match='aaabc'>


#### 9) [ ] 기호 : 안에 문자들 중 한 개의 문자와 매치
※ [a-zA-Z]는 알파벳 전부를 뜻함

In [42]:
r = re.compile("[abc]")
print(r.search("zzz"))
print(r.search("zza"))  # match
print(r.search(""))
print(r.search("baac"))  # match

None
<re.Match object; span=(2, 3), match='a'>
None
<re.Match object; span=(0, 1), match='b'>


In [43]:
r = re.compile("[a-z]")
print(r.search("AAA"))
print(r.search("111F"))
print(r.search("1f1f")) # match

None
None
<re.Match object; span=(1, 2), match='f'>


## 3. 정규 표현식 모듈 함수 예제

#### 1. re.match()와 re.search()

In [46]:
r = re.compile('ab.') 
print(r.match('kkkabc'))
print(r.match('abckkk')) # match는 처음 시작하는 부분과 비교

None
<re.Match object; span=(0, 3), match='abc'>


In [47]:
print(r.search('kkkabc'))
print(r.search('abckkk'))

<re.Match object; span=(3, 6), match='abc'>
<re.Match object; span=(0, 3), match='abc'>


#### 2. re.split()

In [48]:
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [49]:
text = """사과
딸기
수박
메로 ㄴ
바나나ㅏ"""
re.split("\n", text)

['사과', '딸기', '수박', '메로 ㄴ', '바나나ㅏ']

#### 3. re.findall()  
매치되는 모든 문자열을 리스트로 반환

In [51]:
text = """이름: 황소
전화번호: 010-1111-2222 
나이: 30
성별: 여"""

text2 = "안녕하세염????"
print(re.findall('\d+', text))   # d는 숫자 
print(re.findall('\d+', text2))

['010', '1111', '2222', '30']
[]


#### 4. re.sub()
패턴과 일치하는 부분을 대체

In [52]:
text = "Regular Expression: A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)  # 알파벳이 아닌 것들을 공백으로 치환
print(preprocessed_text)

Regular Expression  A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


#### 5. 예제

In [54]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

print(re.findall('[A-Z]{4}', text)) # 대문자 연속으로 네 글자

['PROF', 'STUD', 'STUD']
