In [5]:
### 텍스트 처리
# 비 정형 자료를 수집하는 경우 올바르지 않은 문장이 포함이 될 수 있다.
# 이런 경우 올바른 문장만 선택하는 텍스트 전처리 과정
# 
# 예) 도메인 주소의 http:// 으로 시작되지 않는 주소를 비정상 자료로 가정하여 
# 수집된 자료 제외하는 예시
# 

# 텍스트 자료
multi_line = """http://www.naver.com
http://www.daum.net
https://www.yahoo.com
www.hongildong.com"""

import re
from re import split,match,compile

# 구분자를 사용한 문자열 분리(split())
web_site = split('\n', multi_line)  # split(pattern , string)
print(web_site)

# 패턴 객체 만들기
pat = compile('http[s]?://')            # pat 객체 생성

sel_site = [site for site in web_site if match(pat, site)]      # 리스트 내포
'''
sel_site = []
for site in web_site:
    if match(pat,site):
        sel_site.append(site)
'''
print(sel_site)

['http://www.naver.com', 'http://www.daum.net', 'https://www.yahoo.com', 'www.hongildong.com']
['http://www.naver.com', 'http://www.daum.net', 'https://www.yahoo.com']


In [35]:
## 자연어 전처리
# 문장에서 명사만 추출하여 단어 출현빈도수를 분석하기 위해서는 문서에 포함된
# 문장부호, 특수문자, 숫자 등을 제거해야 한다. 이런 것 처럼 요구하는 내용에 따라
# 불필요한 내용들 제거하는 과정
# #

from re import findall,sub

# 예제 텍스트
texts = ['우리나라      대한민국, 우리나라$ 만세','비아그$라 500GRAM 정력 최고!',
         '나는 대한민국 사람','보험료 15000원에 평생 보장 마감 임박','나는 홍길동']

## 1단계 - 소문자 변경
texts_re = [t.lower() for t in texts]
texts_re
'''
['우리나라      대한민국, 우리나라$ 만세', 
'비아그$라 500gram 정력 최고', 
'나는 대한민국 사람', 
'보험료 15000원에 평생 보장 마감 임박', 
'나는 홍길동']
'''

## 2단계 - 숫자 제거
texts_re2 = [sub('[0-9]', '', text) for text in texts_re]
texts_re2
'''
 ['우리나라      대한민국, 우리나라$ 만세',
 '비아그$라 gram 정력 최고!',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']
'''

## 3단계 - 문장부호 제거
texts_re3 = [sub('[,.?!;:]', '', text) for text in text_re2]
texts_re3
'''
 ['우리나라      대한민국 우리나라$ 만세',
 '비아그$라 gram 정력 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']
'''

## 4단계 - 특수문자 제거
special_str = '[@#$%^&*()]'
texts_re4 = [sub(special_str, '', text) for text in texts_re3]
texts_re4
''' 
['우리나라      대한민국 우리나라 만세',
 '비아그라 gram 정력 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']
''' 

## 5단계 - 영문자 제거
# texts_re5 = [sub('[a-z]','',text) for text in texts_re4]
# texts_re5

# or()

texts_re5 = [''.join(findall('[^a-z]', text)) for text in texts_re4]
texts_re5
''' 
['우리나라      대한민국 우리나라 만세',
 '비아그라  정력 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']
'''

## 6단계 - 공백 제거
texts_re6 = [' '.join(text.split()) for text in texts_re5]
texts_re6
''' 
['우리나라 대한민국 우리나라 만세',
 '비아그라 정력 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']
'''


['우리나라 대한민국 우리나라 만세',
 '비아그라 정력 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']

In [41]:
### 전처리 과정을 함수로 ...
### 함수명 : clean_text
def clean_text(text):
    texts_re = [t.lower() for t in text]
    texts_re2 = [sub('[0-9]', '', text) for text in texts_re]
    texts_re3 = [sub('[?!,.:;]', '', text) for text in texts_re2]
    texts_re4 = [sub('[@#$%^&*()]', '', text) for text in texts_re3]
    texts_re5 = [''.join(findall('[^a-z]',text))for text in texts_re4]
    texts_re6 = [' '.join(text.split()) for text in texts_re5]
    return texts_re6

from re import sub
texts = ['우리나라      대한민국, 우리나라$ 만세','비아그$라 500GRAM 정력 최고!',
         '나는 대한민국 사람','보험료 15000원에 평생 보장 마감 임박','나는 홍길동']

clean_text(texts)


        

['우리나라 대한민국 우리나라 만세',
 '비아그라 정력 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']