<a href="https://colab.research.google.com/github/lizardnote/Text-Analytics/blob/main/Text_data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 클리닝
- 주로 정규식(regex) 사용
- 크롤링 데이터의 경우 html tag 제거
- 필요하지 않은 특수문자 치환, 제거
- 자음, 모음으로만 이루어진 글자들 제거
- 특수기호 제거

#### import re
  > re.sub 함수 : 정규 표현식과 일치하는 문자열을 다른 문자열로 교체하는데 사용한다. 일치하는 모든 부분을 한번에 교체 가능하다.

  > re.sub(pattern, repl, string, count=0, flags=0
)

In [1]:
import re

# #flags 사용
# sentence = "My home, my car, MY world!"
# pattern = r"my"
# replacement = "Your"
# result = re.sub(pattern, replacement, sentence, flags = re.IGNORECASE)

# #count 사용
# sentence = "my home, my car, my world!"
# pattern = r"my"
# replacement = "Your"
# result = re.sub(pattern, replacement, sentence, count= 2)

# #그룹으로 변경
# sentence = "Hello, my email address is emailadress@colab.com"
# pattern = r"(\w+)@(\w+)\.(\w+)"
# replacement = r'\1@hidden.\3'
# result = re.sub(pattern, replacement, sentence)

# #태그 제거
# sentence = "<p>This is a paragraph.</p><a href='#'>This is a link.</a>"
# pattern = r"<.*?>"
# replacement = ""
# result = re.sub(pattern, replacement, sentence)

# print(sentence)
# print(result)

In [2]:
punct = "/-'?!.,#$%\'()*+-/:;<=>@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&'
# 특수문자 중 의미는 살리고 치환이 필요한 경우 딕셔너리 형태로 저장
punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "'", '“': '"', '”': '"', '“': '"', "£": "e", '∞': 'infinity', 'θ': 'theta', '÷': '/', 'α': 'alpha', '•': '.', 'à': 'a', '−': '-', 'β': 'beta', '∅': '', '³': '3', 'π': 'pi', }

def cleaning(text, punct, mapping):
   # Html 제거
    cleaned_text = re.sub('<.*?>', '', text)

   # e-mail 제거 - email 패턴을 정규식으로 만들어서 걸리면 제거
    cleaned_text = re.sub(r'([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)', '', cleaned_text)

    # URL 제거
    cleaned_text = re.sub(r'(http|ftp|https)://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', ' ', cleaned_text)

    # extra space 제거
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text)

    # 한글 자음, 모음 제거
    cleaned_text = re.sub('([ㄱ-ㅎㅏ-ㅣ]+)', '', cleaned_text)

    # 개행 문자 등 제거
    cleaned_text = re.sub('[^\w\s\n]', '', cleaned_text)

    # 특수부호 mapping
    for p in mapping:
        cleaned_text = cleaned_text.replace(p, mapping[p])

    # 특수부호 제거
    for p in punct:
        cleaned_text = cleaned_text.replace(p, '')

    return cleaned_text



In [3]:
example = """
<p>
안녕하세요. 저는 홍길동입니다.%.   %^^
제 이메일은 honggildong@gmail.com,
홈페이지 주소는 http://www.example.com
입니다.</p>
"""

cleaned_text = cleaning(example, punct, punct_mapping)

print(cleaned_text)

 안녕하세요 저는 홍길동입니다  제 이메일은  홈페이지 주소는 입니다 


Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-jplkwb8h
  Running command git clone --filter=blob:none --quiet https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-jplkwb8h
  Resolved https://github.com/haven-jeon/PyKoSpacing.git to commit b32a889cbd10b006d2f4aba118f0cd5b677e2979
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting argparse>=1.1.0 (from pykospacing==0.5)
  Downloading argparse-1.4.0-py2.py3-none-any.whl.metadata (2.8 kB)
Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.5-py3-none-any.whl size=2286920 sha256=df02fd4d5cfb2ed544cef567e76dbaa936ac95648aa7edc3b1750364ea686930
  Stored in directory: /tmp/pip-ephem-wheel-cache-r7d666_6/wheels/1f/3f/64/6d5b2c9ba9cd5aa624676868e8ae8ec6846

## Pykospacing
-
한국어 띄어쓰기 패키지로 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지

In [1]:
from pykospacing import Spacing

spacing = Spacing()
before_sent = "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다."
after_sent = spacing(before_sent)
print('예시 1:', after_sent)

# 띄어쓰기 수정을 위해 단어 추가
before_sent = '귀밑에서턱까지잇따라난수염을구레나룻이라고한다.'
after_sent = spacing(before_sent)
print('띄어쓰기 수정 전 :', after_sent)

spacing = Spacing(rules=['구레나룻']) # 단어 추가
modifined_word_sent = spacing(before_sent)
print('띄어쓰기 수정 후 :', modifined_word_sent)

예시 1: 김형호 영화시장 분석가는 '1987'의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다.
띄어쓰기 수정 전 : 귀 밑에서 턱까지 잇따라 난 수염을 구레나 룻이라고 한다.
띄어쓰기 수정 후 : 귀 밑에서 턱까지 잇따라 난 수염을 구레나룻이라고 한다.


## Kiwi

In [2]:
!pip install kiwipiepy

Collecting kiwipiepy
  Downloading kiwipiepy-0.21.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.3 kB)
Collecting kiwipiepy_model<0.22,>=0.21 (from kiwipiepy)
  Downloading kiwipiepy_model-0.21.0.tar.gz (35.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m35.5/35.5 MB[0m [31m30.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading kiwipiepy-0.21.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m93.2 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: kiwipiepy_model
  Building wheel for kiwipiepy_model (setup.py) ... [?25l[?25hdone
  Created wheel for kiwipiepy_model: filename=kiwipiepy_model-0.21.0-py3-none-any.whl size=35593192 sha256=64c8557e96dfcab60146dd0fa8aba83d1e8dcc79b49afa7ea3004fb88993cf53
  Stored in directory: /root/.cache/pip/wheels/b0/16/3d/95053ab5

In [7]:
from kiwipiepy import Kiwi

kiwi = Kiwi()
text = "맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지"

result = kiwi.analyze(text)
print(result)

[([Token(form='맞춤법', tag='NNG', start=0, len=3), Token(form='틀리', tag='VV', start=4, len=2), Token(form='면', tag='EC', start=6, len=1), Token(form='왜', tag='MAG', start=8, len=1), Token(form='안', tag='MAG', start=10, len=1), Token(form='되', tag='VV', start=11, len=1), Token(form='어', tag='EF', start=11, len=1), Token(form='?', tag='SF', start=12, len=1), Token(form='쓰', tag='VV', start=14, len=1), Token(form='고', tag='EC', start=15, len=1), Token(form='싶', tag='VX', start=17, len=1), Token(form='은', tag='ETM', start=18, len=1), Token(form='대로', tag='NNB', start=20, len=2), Token(form='쓰', tag='VV', start=23, len=1), Token(form='면', tag='EC', start=24, len=1), Token(form='되', tag='VV', start=26, len=1), Token(form='지', tag='EF', start=27, len=1)], -72.86033630371094)]


In [13]:
for result, score in kiwi.analyze("형태소 분석 결과입니다", top_n=5):
    print(score, result, sep='\t')

-28.924182891845703	[Token(form='형태소', tag='NNG', start=0, len=3), Token(form='분석', tag='NNG', start=4, len=2), Token(form='결과', tag='NNG', start=7, len=2), Token(form='이', tag='VCP', start=9, len=1), Token(form='ᆸ니다', tag='EF', start=9, len=3)]
-35.21170425415039	[Token(form='형태소', tag='NNG', start=0, len=3), Token(form='분석', tag='NNG', start=4, len=2), Token(form='결과', tag='NNG', start=7, len=2), Token(form='이', tag='VCP', start=9, len=1), Token(form='ᆸ니다', tag='EC', start=9, len=3)]
-39.587867736816406	[Token(form='형태소', tag='NNG', start=0, len=3), Token(form='분석', tag='NNG', start=4, len=2), Token(form='결과', tag='NNG', start=7, len=2), Token(form='이', tag='XSV', start=9, len=1), Token(form='ᆸ니다', tag='EF', start=9, len=3)]
-40.72981262207031	[Token(form='형태소', tag='NNG', start=0, len=3), Token(form='분석', tag='NNG', start=4, len=2), Token(form='결과', tag='NNG', start=7, len=2), Token(form='이', tag='NR', start=9, len=1), Token(form='이', tag='VCP', start=9, len=1), Token(form='ᆸ니다', ta

In [11]:
result = kiwi.tokenize("형태소 분석 결과입니다")
print(result)

[Token(form='형태소', tag='NNG', start=0, len=3), Token(form='분석', tag='NNG', start=4, len=2), Token(form='결과', tag='NNG', start=7, len=2), Token(form='이', tag='VCP', start=9, len=1), Token(form='ᆸ니다', tag='EF', start=9, len=3)]


In [12]:
kiwi = Kiwi()

print(*kiwi.analyze('사람을 골리다', top_n=5), sep='\n')

([Token(form='사람', tag='NNG', start=0, len=2), Token(form='을', tag='JKO', start=2, len=1), Token(form='골리', tag='VV', start=4, len=2), Token(form='다', tag='EF', start=6, len=1)], -35.24259567260742)
([Token(form='사람', tag='NNG', start=0, len=2), Token(form='을', tag='JKO', start=2, len=1), Token(form='골리', tag='VV', start=4, len=2), Token(form='다', tag='EC', start=6, len=1)], -35.63294982910156)
([Token(form='사람', tag='NNG', start=0, len=2), Token(form='을', tag='JKO', start=2, len=1), Token(form='골', tag='VV', start=4, len=1), Token(form='리다', tag='EF', start=5, len=2)], -38.28620529174805)
([Token(form='사람', tag='NNG', start=0, len=2), Token(form='을', tag='JKO', start=2, len=1), Token(form='골', tag='VV', start=4, len=1), Token(form='리', tag='EP', start=5, len=1), Token(form='다', tag='EF', start=6, len=1)], -38.62325668334961)
([Token(form='사람', tag='NNG', start=0, len=2), Token(form='을', tag='JKO', start=2, len=1), Token(form='골', tag='VV', start=4, len=1), Token(form='리다', tag='EC', s

# KoNLPy
- 형태소 분석기
- 한나눔 / 꼬꼬마/ 메캅(윈도우 지원 불가) / 코모란 / OKt

In [14]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m75.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (494 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m28.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.2 konlpy-0.6.0


Hannanum : KAIST 말뭉치를 이용해 생성된 사전

In [15]:
#한나눔 import
from konlpy.tag import Hannanum
hannanum = Hannanum()

In [23]:
print(hannanum.morphs('안녕. 나는 돌고래와 바다를 좋아해')) #morphs() : 문장을 형태소 단위로 출력

['안녕', '.', '나', '는', '돌고래', '와', '바다', '를', '좋', '아', '하', '어']


In [24]:
print(hannanum.nouns('안녕. 나는 돌고래와 바다를 좋아해')) #nouns() : 문장을 명사 단위로 력

['나', '돌고래', '바다']


In [25]:
print(hannanum.pos('안녕. 나는 돌고래와 바다를 좋아해')) #pos() : 형태소의 종류와 함께 출력

[('안녕', 'I'), ('.', 'S'), ('나', 'N'), ('는', 'J'), ('돌고래', 'N'), ('와', 'J'), ('바다', 'N'), ('를', 'J'), ('좋', 'P'), ('아', 'E'), ('하', 'P'), ('어', 'E')]


In [26]:
print(hannanum.tagset) #품사 종류 출력

{'E': '어미', 'EC': '연결 어미', 'EF': '종결 어미', 'EP': '선어말어미', 'ET': '전성 어미', 'F': '외국어', 'I': '독립언', 'II': '감탄사', 'J': '관계언', 'JC': '격조사', 'JP': '서술격 조사', 'JX': '보조사', 'M': '수식언', 'MA': '부사', 'MM': '관형사', 'N': '체언', 'NB': '의존명사', 'NC': '보통명사', 'NN': '수사', 'NP': '대명사', 'NQ': '고유명사', 'P': '용언', 'PA': '형용사', 'PV': '동사', 'PX': '보조 용언', 'S': '기호', 'X': '접사', 'XP': '접두사', 'XS': '접미사'}


꼬꼬마 Kkma

In [29]:
from konlpy.tag import Kkma
kkma = Kkma()

#형태소 분석
print("형태소 분석: ", kkma.morphs('안녕. 나는 돌고래와 바다를 좋아해'))
#명사 추출
print("명사 추출: ", kkma.nouns('안녕. 나는 돌고래와 바다를 좋아해'))
#품사와 같이 반환
print("품사와 같이 반환: ", kkma.pos('안녕. 나는 돌고래와 바다를 좋아해'))
#문장 추출
print("문장 추출: ", kkma.sentences('안녕. 나는 돌고래와 바다를 좋아해'))


형태소 분석:  ['안녕', '.', '나', '는', '돌고래', '와', '바다', '를', '좋아하', '어']
명사 추출:  ['안녕', '나', '돌고래', '바다']
품사와 같이 반환:  [('안녕', 'NNG'), ('.', 'SF'), ('나', 'NP'), ('는', 'JX'), ('돌고래', 'NNG'), ('와', 'JC'), ('바다', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('어', 'ECS')]
문장 추출:  ['안녕. 나는 돌고래와 바다를 좋아해']


Komoran
- Shineware에서 개발한 자바 기반의 한국어 형태소 분석기
- 코모란은 공백이 포함된 형태소 단위로 분석이 가능

In [31]:
from konlpy.tag import Komoran
komoran = Komoran()

#형태소 분석
print("형태소 분석: ", komoran.morphs('안녕. 나는 돌고래와 바다를 좋아해'))
#명사 추출
print("명사 추출: ", komoran.nouns('안녕. 나는 돌고래와 바다를 좋아해'))
#품사와 같이 반환
print("품사와 같이 반환: ", komoran.pos('안녕. 나는 돌고래와 바다를 좋아해'))


형태소 분석:  ['안녕', '.', '나', '는', '돌고래', '와', '바다', '를', '좋아하', '아']
명사 추출:  ['돌고래', '바다']
품사와 같이 반환:  [('안녕', 'IC'), ('.', 'SF'), ('나', 'NP'), ('는', 'JX'), ('돌고래', 'NNP'), ('와', 'JC'), ('바다', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


Okt(Open source Korean Text Processor)


In [32]:
from konlpy.tag import Okt
okt = Okt()

#형태소 분석
print("형태소 분석: ", okt.morphs('안녕. 나는 돌고래와 바다를 좋아해'))
#명사 추출
print("명사 추출: ", okt.nouns('안녕. 나는 돌고래와 바다를 좋아해'))
#품사와 같이 반환
print("품사와 같이 반환: ", okt.pos('안녕. 나는 돌고래와 바다를 좋아해'))

형태소 분석:  ['안녕', '.', '나', '는', '돌고래', '와', '바다', '를', '좋아해']
명사 추출:  ['안녕', '나', '돌고래', '바다']
품사와 같이 반환:  [('안녕', 'Noun'), ('.', 'Punctuation'), ('나', 'Noun'), ('는', 'Josa'), ('돌고래', 'Noun'), ('와', 'Josa'), ('바다', 'Noun'), ('를', 'Josa'), ('좋아해', 'Adjective')]


In [39]:
print(okt.normalize('안녕. 나는 돌고랳ㅎㅎ 바다를 좋아햌ㅋ'))
print(okt.phrases('안녕. 나는 돌고래와 바다를 좋아해'))

안녕. 나는 돌고래ㅎㅎ 바다를 좋아해ㅋ
['안녕', '돌고래', '돌고래와 바다', '바다']
