<a href="https://colab.research.google.com/github/shp7408/Natural_Language_processing/blob/main/Natural_Language_Processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 자연어 처리(Natural Language Processing)
- 자연어는 일상 생활에서 사용하는 언어
- 자연어 처리는 자연어의 의미를 분석 처리하는 일
- 텍스트 분류, 감성 분석, 문서 요약, 번역, 질의 응답, 음성 인식, 챗봇과 같은 응용

# 텍스트 처리

In [None]:
s = 'No pain no gain'
'pain' in s

True

In [None]:
s.split()

['No', 'pain', 'no', 'gain']

In [None]:
s.split().index('gain')

3

In [None]:
s[-4:]

'gain'

In [None]:
 s.split()[2][::-1]

'on'

In [None]:
s = '한글도 처리 가능'

In [None]:
'처리' in s

True

In [None]:
s.split()

['한글도', '처리', '가능']

In [None]:
s.split()[0]

'한글도'

# 정규화(Normalization)

In [1]:
s = "I visited UK from US on 22-09-20"
print(s)

I visited UK from US on 22-09-20


In [2]:
new_s = s.replace("UK", "United Kingdom").replace("US", "United States").replace("-20", "-2020")
print(new_s)

I visited United Kingdom from United States on 22-09-2020


# 정규표현식
- 정규 표현식은 특정 문자들을 편리하게 지정하고 추가, 삭제 가능
- 데이터 전처리에서 정규 표현식을 많이 사용
- 파이썬에서는 정규 표현식을 지원하는 **re** 패키지 지원

```
  앞의 문자 1개를 표현 =>.
  문자 한 개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개) =>?
  앞의 문자가 0개 이상 =>*
  앞의 문자가 최소 1개 이상 =>+
  뒤의 문자로 문자열이 시작 =>^
  앞의 문자로 문자열이 끝남 =>\$
  n번 만큼 반복 =>\{n\}
  n1이상, n2이하만큼 반복, n2를 지정하지 않으면, n1 이상만 반복 =>\{n1, n2\}
  안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능 =>\[ abc \]
  해당 문자를 제외하고 매치 =>\[ ^a \]
  a 또는 b를 나타냄 =>a|b
```
- 정규 표현식에서 자주 사용하는 역슬래시(\)를 이용한 문자 규칙

```
 역슬래시 자체를 의미 =>\\
 모든 숫자를 의미, [0-9]와 동일 =>\d
 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일 =>\D
 공백을 의미, [\t\n\r\f\v]와 동일 =>\s
 공백을 제외한 모든 문자를 의미, [^\t\n\r\f\v]와 동일 =>\S
 문자와 숫자를 의미, [a-zA-Z0-9]와 동일
 문자와 숫자를 제외한 다른 문자를 의미, [^z-zA-Z0-9]와 동일
```
# match
- 컴파일한 정규 표현식을 이용해 문자열이 정규 표현식과 맞는지 검사


In [3]:
import re

In [4]:
check = 'ab.'

print(re.match(check, 'abc'))
print(re.match(check, 'c'))
print(re.match(check, 'ab'))

<re.Match object; span=(0, 3), match='abc'>
None
None


# compile
- compile을 사용하면, 여러 번 사용할 겅우, 일반 사용보다 더 빠른 속도를 보인다.
 - compile을 통해 정규 표현식을 사용할 경우, **re** 가 아닌 컴파일한 객체 이름을 통해 사용해야 한다.

In [5]:
import time

normal_s_time = time.time()
r ='ab.'
for i in range(1000):
  re.match(check, 'abc')
print('일반 사용 시, 소요 시간 : ', time.time() - normal_s_time)

compile_s_time = time.time()
r = re.compile('ab.')
for i in range(1000):
  r.match(check)
print('컴파일 사용 시, 소요 시간 : ', time.time() - compile_s_time)

일반 사용 시, 소요 시간 :  0.0009829998016357422
컴파일 사용 시, 소요 시간 :  0.0006394386291503906


# search
  - match와 다르게, search는 문자열의 전체를 검사

In [7]:
check = 'ab?'
print(re.search('a', check))
print(re.match('kkkab',check))
print(re.search('kkkab', check))
print(re.match('ab', check))

<re.Match object; span=(0, 1), match='a'>
None
None
<re.Match object; span=(0, 2), match='ab'>


# split
- 정규 표현식에 해당하는 문자열을 기준으로 문자열을 나눔

In [8]:
r = re.compile(' ')
print(r.split('abc abbv abcbab'))

r = re.compile('c')
print(r.split('abc abbc abcbab'))

r = re.compile('[1-9]')
print(r.split('s1abc 2v3s 4sss 5a'))

['abc', 'abbv', 'abcbab']
['ab', ' abb', ' ab', 'bab']
['s', 'abc ', 'v', 's ', 'sss ', 'a']


# sub
- 정규 표현식과 일치하는 부분을 다른 문자열로 교체

In [9]:
print(re.sub('[a-z]', 'abcdefg', '1'))
print(re.sub('[^a-z]', 'abv defg', '1'))

1
abv defg


# findall
- 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자(열)을 리스트로 반환

In [10]:
print(re.findall('[\d]', '1ab 2cd 3ef 4g'))
print(re.findall('[\W]', '!abcd@@#'))

['1', '2', '3', '4']
['!', '@', '@', '#']


# finditer
- 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자(열)을 iteratror 객체로 반환
- iterator 객체를 이용하면, 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함

In [12]:
iter1 = re.finditer('[\d]', '1ab 2cd 3ef 4g')
print(iter1)
for i in iter1:
  print(i)

iter2 = re.finditer('[\W]', '!abcd@@#')
print(iter2)
for i in iter2:
  print(i)

<callable_iterator object at 0x7f1b76e602d0>
<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(4, 5), match='2'>
<re.Match object; span=(8, 9), match='3'>
<re.Match object; span=(12, 13), match='4'>
<callable_iterator object at 0x7f1b76f7f110>
<re.Match object; span=(0, 1), match='!'>
<re.Match object; span=(5, 6), match='@'>
<re.Match object; span=(6, 7), match='@'>
<re.Match object; span=(7, 8), match='#'>
