# 자연어 처리 (Natural Language Processing)

- 자연어는 일상 생활에서 사용하는 언어
- 자연어 처리는 자연어의 의미를 분석 처리하는 일
- 텍스트 분류, 감성 분석, 문서 요약, 번역, 질의 응답, 음성 이식, 챗봇과 같은 응용

## 텍스트 처리

In [1]:
s = 'No pain no gain'

In [2]:
# pain 이 s변수 안에 있는지
'pain' in s

True

In [3]:
# 공백 기준으로 나눠짐
s.split()

['No', 'pain', 'no', 'gain']

In [4]:
# 공백 기준으로 나눈 후 gain이라는 단어는 몇번째 인덱스에 위치하는지
s.split().index('gain')

3

In [5]:
s[-4:]

'gain'

In [6]:
s.split()[1]

'pain'

In [7]:
# s.split()[2]은 'no'를 가리킴
# [::-1] reverse로 뒤집혀서 'on'이 됨
s.split()[2][::-1]

'on'

In [8]:
s = '한글도 처리 가능'

In [9]:
'처리' in s

True

In [10]:
s.split()

['한글도', '처리', '가능']

In [11]:
s.split()[0]

'한글도'

## 영어 처리

### 대소문자 통합

- 대소문자를 통합하지 않는다면 컴퓨터는 같은 단어를 다르게 받아들임
- 파이썬의 내장 함수 lower(), upper()를 통해 간단하게 통합 가능

In [12]:
s = 'AbCdEfGh'
str_lower = s.lower()
str_upper = s.upper()
print(str_lower, str_upper)


abcdefgh ABCDEFGH


### 정규화 (Normalization)

In [16]:
s = "I visited UK from US on 12-17-22"
print(s)

I visited UK from US on 12-17-22


In [17]:
# 변환
new_s = s.replace("UK", "United Kingdom").replace("US", "United States").replace("-22", "-2024")
print(new_s)

I visited United Kingdom from United States on 12-17-2024


### 정규 표현식
- 정규 표현식은 특정 문자들을 편리하게 지정하고 추가, 삭제 가능
- 데이터 전처리에서 정규 표현식을 많이 사용
- 파이썬에서는 정규 표현식을 지원하는 re 패키지 제공

* 정규 표현식 문법
  
| 특수문자 | 설명 |
| - | - |
| `.` | 앞의 문자 1개를 표현 |
| `?` | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개) |
| `*` | 앞의 문자가 0개 이상 |
| `+` | 앞의 문자가 최소 1개 이상 |
| `^` | 뒤의 문자로 문자열이 시작 |
| `\$` | 앞의 문자로 문자열이 끝남 |
| `\{n\}` | `n`번만큼 반복 |
| `\{n1, n2\}` | `n1` 이상, `n2` 이하만큼 반복, n2를 지정하지 않으면 `n1` 이상만 반복 |
| `\[ abc \]` | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능 |
| `\[ ^a \]` | 해당 문자를 제외하고 매치 |
| `a\|b` | `a` 또는 `b`를 나타냄 |

* 정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙

| 문자 | 설명 |
| - | - |
| `\\` | 역슬래시 자체를 의미 |
| `\d` | 모든 숫자를 의미, [0-9]와 동일 |
| `\D` | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일 |
| `\s` | 공백을 의미, [ \t\n\r\f\v]와 동일|
| `\S` | 공백을 제외한 모든 문자를 의미, [^ \t\n\r\f\v]와 동일 |
| `\w` | 문자와 숫자를 의미, [a-zA-Z0-9]와 동일 |
| `\W` | 문자와 숫자를 제외한 다른 문자를 의미, [^a-zA-Z0-9]와 동일 |

#### match
- 컴파일한 정규 표현식을 이용해 문자열이 정규 표현식과 맞는지 검사

In [2]:
import re

In [23]:
# . 은 문자 1개를 의미
check = 'ab.'

print(re.match(check, "abc"))
print(re.match(check, "c"))
print(re.match(check, "ab"))
print(re.match(check, "bbcc"))
print(re.match(check, "abab"))

<re.Match object; span=(0, 3), match='abc'>
None
None
None
<re.Match object; span=(0, 3), match='aba'>


#### compile
- compile을 사용하면 여러 번 사용할 경우 일반 사용보다 더 빠른 속도를 보임
- compile을 통해 정규 표현식을 사용할 경우 re가 아닌 컴파일 한 객체 이름을 통해 사용해야 함

In [21]:
import time

normal_s_time = time.time()
r = 'ab.'
for i in range(1000):
  re.match(check, 'abc')
print('일반 사용시 소요 시간: ', time.time() - normal_s_time)

compile_s_time = time.time()
r = re.compile('ab.')
for i in range(1000):
  r.match(check)
print('컴파일 사용시 소요 시간: ', time.time() - compile_s_time)

일반 사용시 소요 시간:  0.0010006427764892578
컴파일 사용시 소요 시간:  0.0


#### search
- match와 다르게, search는 문자열의 전체를 검사

In [29]:
check = 'ab?' # b? → b가 있을수도 있고 없을 수도 있고

print(re.search('a', check))
print(re.match('kkkab', check))

print(re.search('kkkab', check))
print(re.match('ab', check))

print(re.search('ac', check))
print(re.match('ac', check))

print(re.search('abc', check))
print(re.match('abc', check))



<re.Match object; span=(0, 1), match='a'>
None
None
<re.Match object; span=(0, 2), match='ab'>
None
None
None
None


#### split
- 정규표현식에 해당하는 문자열을 기준으로 문자열을 나눔

In [32]:
r = re.compile(' ')
print(r.split('abc abbc abcbca'))

r = re.compile('c')
print(r.split('abc abbc abcbcbb'))

r = re.compile ('[1-9]')
print(r.split('s1bka d j3g k kfk90dkj'))

['abc', 'abbc', 'abcbca']
['ab', ' abb', ' ab', 'b', 'bb']
['s', 'bka d j', 'g k kfk', '0dkj']


#### sub
- 정규 표현식과 일치하는 부분을 다른 문자열로 교체

In [36]:
print(re.sub('[a-z]', 'abcdefg', '1'))

print(re.sub('[^a-z]', 'abc defg', '1'))

1
abc defg


#### findall
- 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자(열)을 리스트로 반환

In [4]:
print(re.findall('[\d]', '1ab 3cd 3ef 4g'))

# 문자 숫자가 아닌 특수문자만..
print(re.findall('[\W]', '!abc@@#'))

['1', '3', '3', '4']
['!', '@', '@', '#']


#### finditer
- 컴파일한 정규 표현시을 이요해 정규 표현식과 맞는 모든 문자(열)을 iterator 객체로 반환
- iterator 객체를 이용하면 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함