## 정규표현식(regular expression, Regexp)

- 특정 문자들을 지정, 추가, 삭제 가능
- 데이터 전처리에서 정규표현식을 많이 사용
- re: 파이썬에서 정규표현식을 지원하는 패키지 

### 정규표현식 문법
특수 문자 | 설명 
------|--------
. | 앞의 문자 1개 표현
? | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 1개)
$*$ | 앞의 문자가 0개 이상
$+$ | 앞의 문자가 최소 1개 이상
^ | 뒤의 문자로 문자열이 시작
\$ | 앞의 문자로 문자열이 끝남
\{n\} | n번만큼 반복
\{n1, n2\} | n1이상, n2이하만큼 반복, n2를 지정하지 않으면 n1 이상만 반복
\[ abc \] | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능
\[ ^a \] | 해당 문자를 제외하고 매치
a:b | a 또는 b를 나타냄
 

### 정규 표현식에 자주 사용하는 역슬래시를 이용한 문자 규칙

문자 | 설명
------|--------
\\\ | 역슬래시 자체를 의미
\d | 모든 숫자를 의미, [0-9]와 동일
\D | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일
\s | 공백을 의미, [\t\n\r\f\v]와 동일
\S | 공벡을 제외한 모든 문자를 의미, [^\t\n\r\f\v]와 동일
\w | 문자와 숫자를 의미, [a-ZA-Z0-9]와 동일
\W | 문자와 숫자를 제외한 다른 문자를 의미, [a-ZA-Z0-9]와 동일

In [1]:
import re # 정규 표현식 패키지 사용

In [2]:
빅통분 = """이 강의에서는 Windows 10, 11 하에서 Apache에서 제공하는 다양한 빅데이터처리 툴(Hadoop, Spark, Kafka 등)을 
설치하고 환경 설정하는 작업을 직접 수행하기 때문에 컴퓨터에 대한 사전 지식이 없는 경우 수강하기 어려움. 
빅데이터의 특징인 3V와 같이 이 교과에서는 상당한 양과 다양한 내용을 빠르게 강의하기 때문에
강의를 수강하는데 필요한 통계 지식(회귀분석, 다변량분석 등)을 사전에 알고 있어야 함. 
일부 R이나 scala도 사용하는 경우도 있으나 기본 프로그램 언어는 python이며 python에 대해 기본적인 내용은 알고 있어야 함.
모든 프로젝트는 개인별로 평가를 받으며 별도의 팀프로젝트 없음.
모든 프로그램은 직접 코딩해야 함(소스 코드는 워터마크가 숨겨진 이미지 형태로 제공).
"""

예제문장 =  ['This is the first document.', 'This document is the second document.', 
         'And this is the third one.', 'Is this the first document?']


### split

In [3]:
빅통분.split()

['이',
 '강의에서는',
 'Windows',
 '10,',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴(Hadoop,',
 'Spark,',
 'Kafka',
 '등)을',
 '설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기',
 '어려움.',
 '빅데이터의',
 '특징인',
 '3V와',
 '같이',
 '이',
 '교과에서는',
 '상당한',
 '양과',
 '다양한',
 '내용을',
 '빠르게',
 '강의하기',
 '때문에',
 '강의를',
 '수강하는데',
 '필요한',
 '통계',
 '지식(회귀분석,',
 '다변량분석',
 '등)을',
 '사전에',
 '알고',
 '있어야',
 '함.',
 '일부',
 'R이나',
 'scala도',
 '사용하는',
 '경우도',
 '있으나',
 '기본',
 '프로그램',
 '언어는',
 'python이며',
 'python에',
 '대해',
 '기본적인',
 '내용은',
 '알고',
 '있어야',
 '함.',
 '모든',
 '프로젝트는',
 '개인별로',
 '평가를',
 '받으며',
 '별도의',
 '팀프로젝트',
 '없음.',
 '모든',
 '프로그램은',
 '직접',
 '코딩해야',
 '함(소스',
 '코드는',
 '워터마크가',
 '숨겨진',
 '이미지',
 '형태로',
 '제공).']

In [4]:
#re 방법을 통해서 "스페이스" 기준으로 텍스트를 분리 => '\n'을 포함해서 단어를 분리
r = re.compile(" ")
r.split(빅통분)

['이',
 '강의에서는',
 'Windows',
 '10,',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴(Hadoop,',
 'Spark,',
 'Kafka',
 '등)을',
 '\n설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기',
 '어려움.',
 '\n빅데이터의',
 '특징인',
 '3V와',
 '같이',
 '이',
 '교과에서는',
 '상당한',
 '양과',
 '다양한',
 '내용을',
 '빠르게',
 '강의하기',
 '때문에\n강의를',
 '수강하는데',
 '필요한',
 '통계',
 '지식(회귀분석,',
 '다변량분석',
 '등)을',
 '사전에',
 '알고',
 '있어야',
 '함.',
 '\n일부',
 'R이나',
 'scala도',
 '사용하는',
 '경우도',
 '있으나',
 '기본',
 '프로그램',
 '언어는',
 'python이며',
 'python에',
 '대해',
 '기본적인',
 '내용은',
 '알고',
 '있어야',
 '함.\n모든',
 '프로젝트는',
 '개인별로',
 '평가를',
 '받으며',
 '별도의',
 '팀프로젝트',
 '없음.\n모든',
 '프로그램은',
 '직접',
 '코딩해야',
 '함(소스',
 '코드는',
 '워터마크가',
 '숨겨진',
 '이미지',
 '형태로',
 '제공).\n']

In [5]:
#re 패키지를 사용하여 "숫자" 기준으로 텍스트 분리 -> 숫자가 없는 데이터들로 구성 
r = re.compile("[0-9]")
r.split(빅통분)

['이 강의에서는 Windows ',
 '',
 ', ',
 '',
 ' 하에서 Apache에서 제공하는 다양한 빅데이터처리 툴(Hadoop, Spark, Kafka 등)을 \n설치하고 환경 설정하는 작업을 직접 수행하기 때문에 컴퓨터에 대한 사전 지식이 없는 경우 수강하기 어려움. \n빅데이터의 특징인 ',
 'V와 같이 이 교과에서는 상당한 양과 다양한 내용을 빠르게 강의하기 때문에\n강의를 수강하는데 필요한 통계 지식(회귀분석, 다변량분석 등)을 사전에 알고 있어야 함. \n일부 R이나 scala도 사용하는 경우도 있으나 기본 프로그램 언어는 python이며 python에 대해 기본적인 내용은 알고 있어야 함.\n모든 프로젝트는 개인별로 평가를 받으며 별도의 팀프로젝트 없음.\n모든 프로그램은 직접 코딩해야 함(소스 코드는 워터마크가 숨겨진 이미지 형태로 제공).\n']

In [None]:
# 공백 (\t \n \r \f \v)을 기준으로 데이터 분리
r = re.compile("\s")
r.split(빅통분)

In [6]:
#re 패키지는 리스트에서는 적용이 되지 않고, 하나로 이어진 문자열에 대해서만 실행됨
r = re.compile(" ")
r.split(예제문장) 

TypeError: expected string or bytes-like object

In [7]:
#리스트의 각 문장들을 join 함수를 통해 "\n"을 붙여 결합 -> 하나의 데이터로 생성
결합문장 = "\n".join(예제문장)
print(결합문장)

This is the first document.
This document is the second document.
And this is the third one.
Is this the first document?


In [8]:
r = re.compile("\s") #스페이스 기준으로 데이터 분리
r.split(결합문장)

['This',
 'is',
 'the',
 'first',
 'document.',
 'This',
 'document',
 'is',
 'the',
 'second',
 'document.',
 'And',
 'this',
 'is',
 'the',
 'third',
 'one.',
 'Is',
 'this',
 'the',
 'first',
 'document?']

### 단어 토큰화

- split
- nltk 패키지의 tokenized 모듈 내 word_tokenize() 함수

In [9]:
import nltk

In [12]:
# 토큰화 작업을 위해 'punkt' 파일이 필요("한번만 실행")
#nltk.download('punkt')

[nltk_data] Downloading package punkt to C:\Users\SM-
[nltk_data]     PC\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [10]:
from nltk.tokenize import word_tokenize #토큰화 하기 위해 선언

In [14]:
토큰 = word_tokenize(결합문장) # 결합문장에서 "단어" 단위로 토큰화 -> 토큰 생성
토큰

['This',
 'is',
 'the',
 'first',
 'document',
 '.',
 'This',
 'document',
 'is',
 'the',
 'second',
 'document',
 '.',
 'And',
 'this',
 'is',
 'the',
 'third',
 'one',
 '.',
 'Is',
 'this',
 'the',
 'first',
 'document',
 '?']

### 문장 토큰화

- re.compile("\s")
- nltk 패키지의 tokenized 모듈 내 sent_tokenize() 함수

In [15]:
from nltk.tokenize import sent_tokenize

토큰 = sent_tokenize(결합문장) # "문장" 자체를 하나씩 가져오도록 토큰화 
토큰

['This is the first document.',
 'This document is the second document.',
 'And this is the third one.',
 'Is this the first document?']

### 정규표현식을 이용한 토큰화

- re.compile
- nltk 패키지의 tokenized 모듈 내 RegexpTokenizer 

In [16]:
# 토큰화할 때 "불용어"(특수기호)까지 삭제하고 싶은 경우 해당 패키지 사용
from nltk.tokenize import RegexpTokenizer

예시 = "Python's favorite food is perl. \"Python is very easy.\" he says."
예시

'Python\'s favorite food is perl. "Python is very easy." he says.'

In [17]:
토큰화 = RegexpTokenizer("[\w]+") # 문자와 숫자를 제외한 나머지는 다 제거
토큰 = 토큰화.tokenize(예시)
토큰

['Python',
 's',
 'favorite',
 'food',
 'is',
 'perl',
 'Python',
 'is',
 'very',
 'easy',
 'he',
 'says']

In [18]:
## 특수문자 포함 -> # 문자와 숫자를 제외한 나머지는 다 제거
토큰화 = RegexpTokenizer("[\w]+")
토큰 = 토큰화.tokenize(빅통분) # 토큰화해주는 함수에 적용
토큰[0:30]

['이',
 '강의에서는',
 'Windows',
 '10',
 '11',
 '하에서',
 'Apache에서',
 '제공하는',
 '다양한',
 '빅데이터처리',
 '툴',
 'Hadoop',
 'Spark',
 'Kafka',
 '등',
 '을',
 '설치하고',
 '환경',
 '설정하는',
 '작업을',
 '직접',
 '수행하기',
 '때문에',
 '컴퓨터에',
 '대한',
 '사전',
 '지식이',
 '없는',
 '경우',
 '수강하기']

In [21]:
토큰화 = RegexpTokenizer("[a-zA-Z]+") # 첫글자부터 마지막 글자까지 전체 한글만 뽑아냄 (영어, 숫자 다 제거) 
#ㅋㅋㅋ 을 출력하려면 [ㄱ -ㅎ ] 를 작성 # "[a-zA-Z]"  , "[가-힣]+"
토큰 = 토큰화.tokenize(빅통분)
토큰[0:30]

['Windows',
 'Apache',
 'Hadoop',
 'Spark',
 'Kafka',
 'V',
 'R',
 'scala',
 'python',
 'python']

In [20]:
## 특수문자 포함 - RegexpTokenizer() 을 사용하면 원하는 옵션으로 데이터를 split할 수 있음 
토큰화 = RegexpTokenizer("[\s]+",gaps=True)
토큰 = 토큰화.tokenize(예시)
토큰

["Python's",
 'favorite',
 'food',
 'is',
 'perl.',
 '"Python',
 'is',
 'very',
 'easy."',
 'he',
 'says.']

#### 기타 Tokenizer
- WhiteSpaceTokenizer : 공백 기준으로 토큰화
- WordPunktTokenizer : Text를 알파벳 문자, 숫자, 알파벡 이외의 문자 리스트로 토큰화
- MWETokenizer : 여러 단어를 하나의 개체(Multi-Word Expression)로 토큰화, 예 United States of America
-TweetTokenizer : 트위터에서 사용되는 문장을 토큰화 

### n-gram 

In [22]:
from nltk import ngrams # 데이터를 2개씩 묶어서 표현

bigram = ngrams(결합문장.split(),2)
bigram

<zip at 0x1df9872c040>

In [23]:
list(bigram) # 다른 데이터와 합쳤을 때 의미가 생기는 데이터가 있기 때문에 ngrams를 이용

[('This', 'is'),
 ('is', 'the'),
 ('the', 'first'),
 ('first', 'document.'),
 ('document.', 'This'),
 ('This', 'document'),
 ('document', 'is'),
 ('is', 'the'),
 ('the', 'second'),
 ('second', 'document.'),
 ('document.', 'And'),
 ('And', 'this'),
 ('this', 'is'),
 ('is', 'the'),
 ('the', 'third'),
 ('third', 'one.'),
 ('one.', 'Is'),
 ('Is', 'this'),
 ('this', 'the'),
 ('the', 'first'),
 ('first', 'document?')]

### PoS(Parts of Speech) 태킹: 품사


In [24]:
## 한번만 실행
#nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\SM-PC\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [25]:
nltk.pos_tag(word_tokenize(결합문장)) #태깅하여 정보 출력

[('This', 'DT'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('first', 'JJ'),
 ('document', 'NN'),
 ('.', '.'),
 ('This', 'DT'),
 ('document', 'NN'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('second', 'JJ'),
 ('document', 'NN'),
 ('.', '.'),
 ('And', 'CC'),
 ('this', 'DT'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('third', 'JJ'),
 ('one', 'NN'),
 ('.', '.'),
 ('Is', 'VBZ'),
 ('this', 'DT'),
 ('the', 'DT'),
 ('first', 'JJ'),
 ('document', 'NN'),
 ('?', '.')]

- 앞으로 맞춤법이 틀렸을 때 처리하는 작업이 더 필요 -> 처리해야지 분석이 가능
- 예를들어 줄임말들을 자동으로 바꾸는 작업들 