## 정규표현식(regular expression, Regexp)

- 특정 문자들을 지정, 추가, 삭제 가능
- 데이터 전처리에서 정규표현식을 많이 사용
- re: 파이썬에서 정규표현식을 지원하는 패키지 

### 정규표현식 문법
특수 문자 | 설명 
------|--------
. | 앞의 문자 1개 표현
? | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 1개)
$*$ | 앞의 문자가 0개 이상
$+$ | 앞의 문자가 최소 1개 이상
^ | 뒤의 문자로 문자열이 시작
\$ | 앞의 문자로 문자열이 끝남
\{n\} | n번만큼 반복
\{n1, n2\} | n1이상, n2이하만큼 반복, n2를 지정하지 않으면 n1 이상만 반복
\[ abc \] | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능
\[ ^a \] | 해당 문자를 제외하고 매치
a:b | a 또는 b를 나타냄
 

### 정규 표현식에 자주 사용하는 역슬래시를 이용한 문자 규칙

문자 | 설명
------|--------
\\\ | 역슬래시 자체를 의미
\d | 모든 숫자를 의미, [0-9]와 동일
\D | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일
\s | 공백을 의미, [\t\n\r\f\v]와 동일
\S | 공벡을 제외한 모든 문자를 의미, [^\t\n\r\f\v]와 동일
\w | 문자와 숫자를 의미, [a-ZA-Z0-9]와 동일
\W | 문자와 숫자를 제외한 다른 문자를 의미, [a-ZA-Z0-9]와 동일

In [17]:
import re

In [18]:
빅통분 = """이 강의에서는 Windows 10, 11 하에서 Apache에서 제공하는 다양한 빅데이터처리 툴(Hadoop, Spark, Kafka 등)을 
설치하고 환경 설정하는 작업을 직접 수행하기 때문에 컴퓨터에 대한 사전 지식이 없는 경우 수강하기 어려움. 
빅데이터의 특징인 3V와 같이 이 교과에서는 상당한 양과 다양한 내용을 빠르게 강의하기 때문에
강의를 수강하는데 필요한 통계 지식(회귀분석, 다변량분석 등)을 사전에 알고 있어야 함. 
일부 R이나 scala도 사용하는 경우도 있으나 기본 프로그램 언어는 python이며 python에 대해 기본적인 내용은 알고 있어야 함.
모든 프로젝트는 개인별로 평가를 받으며 별도의 팀프로젝트 없음.
모든 프로그램은 직접 코딩해야 함(소스 코드는 워터마크가 숨겨진 이미지 형태로 제공).
"""

예제문장 =  ['This is the first document.', 'This document is the second document.', 
         'And this is the third one.', 'Is this the first document?']


### split

In [19]:
빅통분.split() # 지정하지 않으면 스페이스바 기준으로 자름

['이',
 '강의에서는',
 'Windows',
 '10,',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴(Hadoop,',
 'Spark,',
 'Kafka',
 '등)을',
 '설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기',
 '어려움.',
 '빅데이터의',
 '특징인',
 '3V와',
 '같이',
 '이',
 '교과에서는',
 '상당한',
 '양과',
 '다양한',
 '내용을',
 '빠르게',
 '강의하기',
 '때문에',
 '강의를',
 '수강하는데',
 '필요한',
 '통계',
 '지식(회귀분석,',
 '다변량분석',
 '등)을',
 '사전에',
 '알고',
 '있어야',
 '함.',
 '일부',
 'R이나',
 'scala도',
 '사용하는',
 '경우도',
 '있으나',
 '기본',
 '프로그램',
 '언어는',
 'python이며',
 'python에',
 '대해',
 '기본적인',
 '내용은',
 '알고',
 '있어야',
 '함.',
 '모든',
 '프로젝트는',
 '개인별로',
 '평가를',
 '받으며',
 '별도의',
 '팀프로젝트',
 '없음.',
 '모든',
 '프로그램은',
 '직접',
 '코딩해야',
 '함(소스',
 '코드는',
 '워터마크가',
 '숨겨진',
 '이미지',
 '형태로',
 '제공).']

In [20]:
r = re.compile(" ")
r.split(빅통분)

['이',
 '강의에서는',
 'Windows',
 '10,',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴(Hadoop,',
 'Spark,',
 'Kafka',
 '등)을',
 '\n설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기',
 '어려움.',
 '\n빅데이터의',
 '특징인',
 '3V와',
 '같이',
 '이',
 '교과에서는',
 '상당한',
 '양과',
 '다양한',
 '내용을',
 '빠르게',
 '강의하기',
 '때문에\n강의를',
 '수강하는데',
 '필요한',
 '통계',
 '지식(회귀분석,',
 '다변량분석',
 '등)을',
 '사전에',
 '알고',
 '있어야',
 '함.',
 '\n일부',
 'R이나',
 'scala도',
 '사용하는',
 '경우도',
 '있으나',
 '기본',
 '프로그램',
 '언어는',
 'python이며',
 'python에',
 '대해',
 '기본적인',
 '내용은',
 '알고',
 '있어야',
 '함.\n모든',
 '프로젝트는',
 '개인별로',
 '평가를',
 '받으며',
 '별도의',
 '팀프로젝트',
 '없음.\n모든',
 '프로그램은',
 '직접',
 '코딩해야',
 '함(소스',
 '코드는',
 '워터마크가',
 '숨겨진',
 '이미지',
 '형태로',
 '제공).\n']

In [21]:
r = re.compile("[0-9]")
r.split(빅통분)

['이 강의에서는 Windows ',
 '',
 ', ',
 '',
 ' 하에서 Apache에서 제공하는 다양한 빅데이터처리 툴(Hadoop, Spark, Kafka 등)을 \n설치하고 환경 설정하는 작업을 직접 수행하기 때문에 컴퓨터에 대한 사전 지식이 없는 경우 수강하기 어려움. \n빅데이터의 특징인 ',
 'V와 같이 이 교과에서는 상당한 양과 다양한 내용을 빠르게 강의하기 때문에\n강의를 수강하는데 필요한 통계 지식(회귀분석, 다변량분석 등)을 사전에 알고 있어야 함. \n일부 R이나 scala도 사용하는 경우도 있으나 기본 프로그램 언어는 python이며 python에 대해 기본적인 내용은 알고 있어야 함.\n모든 프로젝트는 개인별로 평가를 받으며 별도의 팀프로젝트 없음.\n모든 프로그램은 직접 코딩해야 함(소스 코드는 워터마크가 숨겨진 이미지 형태로 제공).\n']

In [22]:
r = re.compile("\s")
r.split(빅통분)

['이',
 '강의에서는',
 'Windows',
 '10,',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴(Hadoop,',
 'Spark,',
 'Kafka',
 '등)을',
 '',
 '설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기',
 '어려움.',
 '',
 '빅데이터의',
 '특징인',
 '3V와',
 '같이',
 '이',
 '교과에서는',
 '상당한',
 '양과',
 '다양한',
 '내용을',
 '빠르게',
 '강의하기',
 '때문에',
 '강의를',
 '수강하는데',
 '필요한',
 '통계',
 '지식(회귀분석,',
 '다변량분석',
 '등)을',
 '사전에',
 '알고',
 '있어야',
 '함.',
 '',
 '일부',
 'R이나',
 'scala도',
 '사용하는',
 '경우도',
 '있으나',
 '기본',
 '프로그램',
 '언어는',
 'python이며',
 'python에',
 '대해',
 '기본적인',
 '내용은',
 '알고',
 '있어야',
 '함.',
 '모든',
 '프로젝트는',
 '개인별로',
 '평가를',
 '받으며',
 '별도의',
 '팀프로젝트',
 '없음.',
 '모든',
 '프로그램은',
 '직접',
 '코딩해야',
 '함(소스',
 '코드는',
 '워터마크가',
 '숨겨진',
 '이미지',
 '형태로',
 '제공).',
 '']

In [24]:
r = re.compile(" ")
r.split(예제문장) # 하나의 문자열이어야한다. 

TypeError: expected string or bytes-like object

In [25]:
결합문장 = "\n".join(예제문장)
결합문장

'This is the first document.\nThis document is the second document.\nAnd this is the third one.\nIs this the first document?'

In [26]:
r = re.compile("\s")
r.split(결합문장)

['This',
 'is',
 'the',
 'first',
 'document.',
 'This',
 'document',
 'is',
 'the',
 'second',
 'document.',
 'And',
 'this',
 'is',
 'the',
 'third',
 'one.',
 'Is',
 'this',
 'the',
 'first',
 'document?']

### 단어 토큰화

- split
- nltk 패키지의 tokenized 모듈 내 word_tokenize() 함수

In [27]:
import nltk

In [29]:
# 토큰화 작업을 위해 'punkt' 파일이 필요(한번만 실행)
# nltk.download('punkt')

[nltk_data] Downloading package punkt to C:\Users\SM-
[nltk_data]     PC\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [30]:
from nltk.tokenize import word_tokenize

In [31]:
토큰 = word_tokenize(결합문장)
토큰

['This',
 'is',
 'the',
 'first',
 'document',
 '.',
 'This',
 'document',
 'is',
 'the',
 'second',
 'document',
 '.',
 'And',
 'this',
 'is',
 'the',
 'third',
 'one',
 '.',
 'Is',
 'this',
 'the',
 'first',
 'document',
 '?']

### 문장 토큰화

- re.compile("\s")
- nltk 패키지의 tokenized 모듈 내 sent_tokenize() 함수

In [32]:
from nltk.tokenize import sent_tokenize

토큰 = sent_tokenize(결합문장)
토큰

['This is the first document.',
 'This document is the second document.',
 'And this is the third one.',
 'Is this the first document?']

### 정규표현식을 이용한 토큰화

- re.compile
- nltk 패키지의 tokenized 모듈 내 RegexpTokenizer 

In [33]:
from nltk.tokenize import RegexpTokenizer

예시 = "Python's favorite food is perl. \"Python is very easy.\" he says."
예시

'Python\'s favorite food is perl. "Python is very easy." he says.'

In [35]:
토큰화 = RegexpTokenizer("[\w]+") # \w 는 모든 문자,숫자에 매칭. +는 1개 이상이라는 뜻.
토큰 = 토큰화.tokenize(예시)
토큰

['Python',
 's',
 'favorite',
 'food',
 'is',
 'perl',
 'Python',
 'is',
 'very',
 'easy',
 'he',
 'says']

In [36]:
## 특수문자 포함
토큰화 = RegexpTokenizer("[\w]+")
토큰 = 토큰화.tokenize(빅통분)
토큰[0:30]

['이',
 '강의에서는',
 'Windows',
 '10',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴',
 'Hadoop',
 'Spark',
 'Kafka',
 '등',
 '을',
 '설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기']

In [37]:
토큰화 = RegexpTokenizer("[가-힣]+") # 한글만. 영어도 빠짐.
토큰 = 토큰화.tokenize(빅통분)
토큰[0:30]

['이',
 '강의에서는',
 '하에서',
 '에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴',
 '등',
 '을',
 '설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기',
 '어려움',
 '빅데이터의',
 '특징인',
 '와',
 '같이',
 '이']

In [38]:
## 특수문자 포함
토큰화 = RegexpTokenizer("[\s]+",gaps=True)
토큰 = 토큰화.tokenize(예시)
토큰

["Python's",
 'favorite',
 'food',
 'is',
 'perl.',
 '"Python',
 'is',
 'very',
 'easy."',
 'he',
 'says.']

#### 기타 Tokenizer
- WhiteSpaceTokenizer : 공백 기준으로 토큰화
- WordPunktTokenizer : Text를 알파벳 문자, 숫자, 알파벡 이외의 문자 리스트로 토큰화
- MWETokenizer : 여러 단어를 하나의 개체(Multi-Word Expression)로 토큰화, 예 United States of America
-TweetTokenizer : 트위터에서 사용되는 문장을 토큰화 

### n-gram 

In [39]:
from nltk import ngrams

bigram = ngrams(결합문장.split(),2)
bigram

<zip at 0x2d5473d1200>

In [40]:
list(bigram) # 리스트로 바꿔줘야함

[('This', 'is'),
 ('is', 'the'),
 ('the', 'first'),
 ('first', 'document.'),
 ('document.', 'This'),
 ('This', 'document'),
 ('document', 'is'),
 ('is', 'the'),
 ('the', 'second'),
 ('second', 'document.'),
 ('document.', 'And'),
 ('And', 'this'),
 ('this', 'is'),
 ('is', 'the'),
 ('the', 'third'),
 ('third', 'one.'),
 ('one.', 'Is'),
 ('Is', 'this'),
 ('this', 'the'),
 ('the', 'first'),
 ('first', 'document?')]

### PoS(Parts of Speech) 태킹: 품사


In [41]:
## 한번만 실행
# nltk.download("averaged_perceptron_tagger") # 영어 품사 데이터

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\SM-PC\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [42]:
nltk.pos_tag(word_tokenize(결합문장)) 

[('This', 'DT'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('first', 'JJ'),
 ('document', 'NN'),
 ('.', '.'),
 ('This', 'DT'),
 ('document', 'NN'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('second', 'JJ'),
 ('document', 'NN'),
 ('.', '.'),
 ('And', 'CC'),
 ('this', 'DT'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('third', 'JJ'),
 ('one', 'NN'),
 ('.', '.'),
 ('Is', 'VBZ'),
 ('this', 'DT'),
 ('the', 'DT'),
 ('first', 'JJ'),
 ('document', 'NN'),
 ('?', '.')]