🌱 인프런 📚 모두의 한국어 텍스트 분석과 자연어처리 with 파이썬 🐍 https://inf.run/FX4TP


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/python-text-analysis/blob/main/0104-morpheme-konlpy-okt-output.ipynb)



## 형태소 분석


* 한국어 형태소 분석은 한국어 텍스트를 가장 작은 의미 단위인 형태소로 분해하는 과정입니다. 한국어는 교착어의 특성을 가지고 있어, 하나의 단어가 여러 형태소로 구성되는 경우가 많습니다.
    * 교착어 : https://ko.wikipedia.org/wiki/%EA%B5%90%EC%B0%A9%EC%96%B4
    * 교착어는 고립어와 굴절어의 중간적 성격을 띠는 것으로 어근과 접사에 의해 단어의 기능이 결정되는 언어의 형태이다. '교착'은 아교와 같이 단단히 달라붙음을 뜻한다.
    
* 형태소 분석의 핵심 요소:
    * 형태소(Morpheme): 의미를 가진 가장 작은 언어 단위. 한국어에서는 '가다', '학교', '좋아'와 같이 독립적으로 사용될 수 있는 단어 또는 어미, 접사 등이 이에 해당합니다.
    * 어절(Token): 띄어쓰기로 구분된 각각의 단어. 하나의 어절은 여러 형태소로 구성될 수 있습니다.

* 형태소 분석의 과정:
    * 분해: 한국어 문장을 어절 단위로 분해합니다.
    * 형태소 분석: 각 어절을 다시 형태소로 세분화합니다. 이 과정에서 어근, 접미사, 접두사, 조사 등이 구분됩니다.
    * 품사 태깅(POS Tagging): 분리된 형태소에 품사 정보를 부여합니다. 예를 들어 명사, 동사, 형용사 등의 품사를 식별합니다.
* 형태소 분석의 중요성:
    * 정확한 의미 파악: 한국어는 하나의 어절이 복잡한 의미를 내포할 수 있어, 형태소 분석을 통해 정확한 의미를 파악할 수 있습니다.
    * 자연어 처리의 기초: 형태소 분석은 텍스트 마이닝, 감성 분석, 기계 번역 등 다양한 NLP 작업의 기초가 됩니다.
    * 문맥 이해: 한국어의 높임말, 어미 변화 등의 문맥적 요소를 이해하는 데 필수적입니다.
    

## KoNLPy 개요

* KoNLPy (코엔엘파이):
    * [KoNLPy: 파이썬 한국어 NLP — KoNLPy documentation](https://konlpy.org/ko/latest/)
    * [형태소 분석 및 품사 태깅 — KoNLPy 0.4.3 documentation](https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/)
    * 파이썬 기반의 라이브러리로, 한국어 텍스트의 형태소 분석, 품사 태깅 등을 제공합니다.
    * 여러 한국어 형태소 분석 엔진을 통합하여 사용할 수 있으며, 대표적으로 Okt(Open Korean Text), Mecab, Komoran, Hannanum, Kkma 등이 있습니다.

    * Okt (Open Korean Text, 이전의 Twitter 형태소 분석기):
        * 속도가 빠르고 사용하기 쉬운 특징을 가지고 있습니다.
        * 일상적인 언어, 특히 소셜 미디어 텍스트 분석에 적합합니다.
    * Mecab:
        * 은전한닢으로도 불리우며 일본어 형태소 분석기를 기반으로 한국어를 처리하기 위해 수정된 버전입니다.
        * 설치가 까다롭기 때문에 파이썬으로 만들어진 Pecab을 사용하는 것을 추천합니다.
    * Komoran:
        * 정확도가 높으며, 특히 잘못된 맞춤법이나 띄어쓰기가 있는 텍스트에 강점을 보입니다.
    * Hannanum:
        * KAIST에서 개발한 분석기로, 학술적인 목적으로 사용되곤 합니다.
    * Kkma (꼬꼬마):
        * [꼬꼬마 세종 말뭉치 활용 시스템](http://kkma.snu.ac.kr/)
        * 상세한 형태소 분석과 품사 태깅 기능을 제공합니다.

## KoNLPy 외

* Pecab
    * [Pecab: Pure python Korean morpheme analyzer based on Mecab (https://github.com/hyunwoongko/pecab)
* Soynlp
    * https://github.com/lovit/soynlp

## KoNLPy 설치

```sh
pip install --upgrade pip
pip install JPype1
pip install konlpy --upgrade
```

다음의 항목을 만족해야 konlpy를 윈도우나 맥에서 사용할 수 있습니다.
대부분의 오류는 환경변수나 최신버전의 JDK가 설치되지 않아서 입니다. 공식문서에서는 1.7 이상의 JDK 를 권장하고 있습니다.

```
1) 최신 버전의 JAVA(JDK)를 설치
2) JAVA_HOME 환경변수를 추가
3) path 환경변수에 %JAVA_HOME%\bin; 추가
```

설치 관련 자세한 내용은 다음을 참고해 보세요.

https://konlpy.org/ko/latest/install/

In [5]:
# konlpy 가 설치되어 있지 않다면 설치합니다.
# konlpy 는 다른 프로그래밍 언어(JAVA, C++)로 만들어진 형태소 분석기를 파이썬 인터페이스로 사용할 수 있는 도구 입니다.
# JPype1도 파이썬에서 자바를 사용할 수 있도록 하는 도구입니다.
# 인터페이스가 파이썬이지만 내부는 해당 언어로 동작하여 다른 언어도 함께 설치되어 있어야 합니다.
# 그래서 설치는 꼭 공식문서를 참고해서 합니다.
# Google Colab 에서는 아래 pip 구문 만으로 설치할 수 있으나 다른 운영체제 사용시 설치 문서를 참고해 주세요!
# !pip install konlpy --upgrade

In [10]:

pip install konlpy --upgrade

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m67.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (495 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m495.9/495.9 kB[0m [31m28.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0


In [7]:
import pandas as pd #판다스 불러옵니다

In [4]:
small_text = "버스의 운행시간을 문의합니다. 어?!"
small_text
#small_text라는 변수에 문장을 넣고 출력

'버스의 운행시간을 문의합니다. 어?!'

In [13]:
# Kkma
from konlpy.tag import Kkma
kkma = Kkma()
#Kkma(꼬꼬마): 상세한 형태소 분석과 품사 태깅 기능을 제공

In [None]:
kkma.nouns(small_text) #small_text에 저장된 문장의 명사만 추출

['버스', '운행', '운행시간', '시간', '문의']

In [None]:
kkma.pos(small_text)
#small_text에 저장된 문장의 각 품사를 태깅해줌 NNG 일반명사

[('버스', 'NNG'),
 ('의', 'JKG'),
 ('운행', 'NNG'),
 ('시간', 'NNG'),
 ('을', 'JKO'),
 ('문의', 'NNG'),
 ('하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF'),
 ('어', 'VV'),
 ('어', 'ECS'),
 ('?', 'SF'),
 ('!', 'SF')]

In [None]:
kkma.tagset["SF"]
#SF가 어떤 걸 의미하는지 알려줌(위에서 마침표, 물음표, 느낌표순으로 나와있음. 그럼 kkma.tagset["NNG"]를 치면... '일반명사' 이렇게 나올 듯)

'마침표, 물음표, 느낌표'

In [None]:
kkma_tagset = kkma.tagset

for txt, pos in kkma.pos(small_text):
    if pos.startswith("N"): # 사용자가 지정하는 특정 문자로 시작하는지 확인(여기에서는 N 즉 명사를 의미함)
        print(txt, " : ", kkma_tagset[pos]) #small_text에 저장된 문장에서, 명사가 있다면 그 단어 : 품사 이름

버스  :  보통명사
운행  :  보통명사
시간  :  보통명사
문의  :  보통명사


### 어간 추출(語幹 抽出, 영어: stemming)

형태론 및 정보 검색 분야에서 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것을 의미한다. 여기서 어간은 반드시 어근과 같아야 할 필요는 없으며, 어근과 차이가 있더라도 관련이 있는 단어들이 일정하게 동일한 어간으로 맵핑되게 하는 것이 어간 추출의 목적이다. 1960년대부터 컴퓨터 과학 분야에서 다양한 어간 추출 관련 알고리즘들이 연구되어 왔다. 많은 웹 검색 엔진들은 동일한 어간을 가진 단어들을 동의어로 취급하는 방식으로 질의어 확장을 하여 검색 결과의 품질을 높인다.

어간 추출 프로그램은 흔히 스테밍 알고리즘(stemming algorithm) 또는 스테머(stemmer)라 불린다.

* [어간 추출 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%96%B4%EA%B0%84_%EC%B6%94%EC%B6%9C)

In [14]:
# Okt
# steming 기능을 제공
from konlpy.tag import Okt

okt = Okt()
# okt.tagset
okt.pos("버스 운행시간을 문의합니다. 어?! ㅋㅋㅋㅋㅋ ~~~", norm=True, stem=True)
#해당 문장 형태소로 나눈 뒤, 형태소와 품사 정보를 저장하고 정리한 결과

[('버스', 'Noun'),
 ('운행', 'Noun'),
 ('시간', 'Noun'),
 ('을', 'Josa'),
 ('문의', 'Noun'),
 ('하다', 'Verb'),
 ('.', 'Punctuation'),
 ('어', 'Eomi'),
 ('?!', 'Punctuation'),
 ('ㅋㅋㅋ', 'KoreanParticle'),
 ('~~~', 'Punctuation')]

In [None]:
okt.pos("버스 운행시간을 문의했었습니다. 어?!", stem=True)
#시제가 중요하면 stem을 안 씀. 위 설명과 마찬가지 stem을 트루로 함

[('버스', 'Noun'),
 ('운행', 'Noun'),
 ('시간', 'Noun'),
 ('을', 'Josa'),
 ('문의', 'Noun'),
 ('하다', 'Verb'),
 ('.', 'Punctuation'),
 ('어', 'Eomi'),
 ('?!', 'Punctuation')]

In [15]:
okt.pos("버스 운행시간을 문의했다. 어?!", stem=True)
#위와 마찬가지로 했다 -> '하다' 원형으로 나옴

[('버스', 'Noun'),
 ('운행', 'Noun'),
 ('시간', 'Noun'),
 ('을', 'Josa'),
 ('문의', 'Noun'),
 ('하다', 'Verb'),
 ('.', 'Punctuation'),
 ('어', 'Eomi'),
 ('?!', 'Punctuation')]

In [None]:
# 형태소 분석기(Okt) 불러오기
# ['Josa', 'Eomi', 'Punctuation'] 조사, 어미, 구두점 제거

def okt_clean(text):
    clean_text = []
    okt_pos = okt.pos(text, stem=True)
    for txt, pos in okt_pos:
        if pos not in ['Josa', 'Eomi', 'Punctuation']:
            clean_text.append(txt)
            #조사, 어미, 구두점이 문장에 없다면 clean_text라는 배열에 추가
    return " ".join(clean_text)

In [None]:
okt_clean(text="지하철 이용시간 문의했었습니다. 네?!")
#

'지하철 이용 시간 문의 하다 네'

In [None]:
okt_pos = okt.pos("버스 운행시간을 문의했다. 어?!", stem=True)
clean_text = []
for txt, pos in okt_pos:
    if pos not in ['Josa', 'Eomi', 'Punctuation']:
        clean_text.append(txt)
" ".join(clean_text)

'버스 운행 시간 문의 하다'

## 여러 문서에 적용하기

In [None]:
# read_json 으로 url 데이터 불러오기
url = "https://raw.githubusercontent.com/KLUE-benchmark/KLUE/main/klue_benchmark/ynat-v1.1/ynat-v1.1_train.json"
df = pd.read_json(url)
df.shape

(45678, 7)

In [None]:
from tqdm import tqdm

tqdm.pandas()

title_head = df["title"].head(10000)
title_clean = title_head.progress_map(okt_clean)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:10<00:00, 912.41it/s]


In [None]:
title_head

0            유튜브 내달 2일까지 크리에이터 지원 공간 운영
1               어버이날 맑다가 흐려져…남부지방 옅은 황사
2           내년부터 국가RD 평가 때 논문건수는 반영 않는다
3       김명자 신임 과총 회장 원로와 젊은 과학자 지혜 모을 것
4        회색인간 작가 김동식 양심고백 등 새 소설집 2권 출간
                     ...               
9995        게시판 KB손보 소규모 공연장 안전시설 설치 지원
9996                      신간 소피아 로렌의 시간
9997     창비 세월호 책 다시 봄이 올 거예요 전자책 무료 배포
9998              탬파베이 최지만 시즌 1호 솔로포 폭발
9999         NHN엔터 3분기 영업이익 23억원…흑자전환종합
Name: title, Length: 10000, dtype: object

In [None]:
title_clean

0                 유튜브 내달 2일 까지 크리에이터 지원 공간 운영
1                    어버이날 맑다 흐려지다 남부 지방 옅다 황사
2                   내년 국가 RD 평가 때 논문 건수 반영 않다
3             김명자 신임 과총 회장 원로 젊다 과학자 지혜 모으다 것
4       회색 인간 작가 김 동식 양심 고백 등 새 소설 집 2 권 추다 간
                        ...                  
9995            게시판 KB 손보 소규모 공연장 안전 시설 설치 지원
9996                             신간 소피아 로렌 시간
9997             창비 세월호 책 다시 봄 오다 거 전자책 무료 배포
9998                    탬파베이 최 시즌 1 호 솔로 포 폭발
9999          NHN 엔터 3분 기 영업 이익 23억원 흑자 전환 종합
Name: title, Length: 10000, dtype: object