# 한글 자연어 처리 실습 - KoNLPy 활용

## 개요
KoNLPy를 사용한 한글 자연어 처리 실습입니다.
- 형태소 분석
- 품사 태깅
- 명사 추출
- 정규화
- 어간 추출
- 정규식을 이용한 텍스트 전처리

## 1. KoNLPy 설치 및 환경 설정

KoNLPy는 한글 자연어처리를 도와주는 모듈로, Java 라이브러리를 기반으로 합니다.

### 설치 방법:
1. Java를 먼저 설치하고 환경변수 등록
2. CMD 관리자권한으로 실행
3. `conda activate mytensorflow`
4. `pip install konlpy`

In [1]:
from konlpy.tag import Okt   # 옛날에 twitter => Okt
import re  # 정규식을 사용하기 위한 모듈

## 2. 기본 형태소 분석

In [2]:
text = "한글 자연어 처리는 매우 어렵습니다. ㅜㅜ  네이버 영화평론 분석을 해보겠습니다"

okt = Okt()
print("원본 텍스트:")
print(text)
print()

원본 텍스트:
한글 자연어 처리는 매우 어렵습니다. ㅜㅜ  네이버 영화평론 분석을 해보겠습니다



### 2.1 형태소 분석
텍스트를 의미있는 단위인 형태소로 분리합니다.

In [3]:
print("형태소 분석")
morphs_result = okt.morphs(text)
print(morphs_result)

형태소 분석
['한글', '자연어', '처리', '는', '매우', '어렵습니다', '.', 'ㅜㅜ', '네이버', '영화평론', '분석', '을', '해보겠습니다']


### 2.2 품사 태깅
한글을 쪼개서 품사를 부여합니다. (예: 자연어 → 명사)

In [4]:
print("품사태깅")
pos_result = okt.pos(text)
print(pos_result)

품사태깅
[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('매우', 'Noun'), ('어렵습니다', 'Adjective'), ('.', 'Punctuation'), ('ㅜㅜ', 'KoreanParticle'), ('네이버', 'Noun'), ('영화평론', 'Noun'), ('분석', 'Noun'), ('을', 'Josa'), ('해보겠습니다', 'Verb')]


### 2.3 명사 추출

In [5]:
print("명사추출")
nouns_result = okt.nouns(text)
print(nouns_result)

명사추출
['한글', '자연어', '처리', '매우', '네이버', '영화평론', '분석']


### 2.4 정규화
줄임말이나 인터넷 용어를 표준형으로 변환합니다.

In [6]:
print("정규화")
normalize_result = okt.normalize(text)
print(normalize_result)

정규화
한글 자연어 처리는 매우 어렵습니다. ㅜㅜ  네이버 영화평론 분석을 해보겠습니다


### 2.5 어간 추출
동사와 형용사의 원형을 복원합니다.

In [7]:
print("어간추출")
stem_result = okt.morphs(text, stem=True)
print(stem_result)

어간추출
['한글', '자연어', '처리', '는', '매우', '어렵다', '.', 'ㅜㅜ', '네이버', '영화평론', '분석', '을', '해보다']


## 3. 정규식을 이용한 텍스트 전처리

정규식으로 불필요한 문자들을 제거합니다. (영어에서 구두점 제거와 유사)

### re.sub() 함수 사용법:
```python
re.sub(r"패턴", "대체할문자열", "내용", count=0)
```
- 패턴: 찾을 정규식 패턴

In [8]:
def clean_text(text):
    """
    텍스트 전처리 함수
    - 대문자를 소문자로 변환
    - 한글, 영어, 숫자, 공백만 남기고 나머지 제거
    """
    text = text.lower()  # 대문자를 -> 소문자로 바꿔서 처리하자
    text = re.sub(r"[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\s]", "", text)
    # r -> escape문자를 무력화   \n  -> 줄바꿈 기호  패턴에 \ 를 직접사용할 경우에 escape문자로 인식하면안된다
    # [] -> 필요한 문자열들을 묶어준다. or
    # [^가-힣] : 한글만  ^ - 를 제외하고 , [^] 제외하고의 의미   ^[] 시작하는 의미
    # [^가-힣]  : 완성형 한글만 인식함
    return text

### 3.1 정규식 전처리 적용 및 결과 확인

In [9]:
text2 = "ㅋㅋ AI는 인간의 일을 대체하게 될겁니다. 장점도 있고 단점도 있습니다. ! 인간의 반복적이고 힘든일을 대체했으면 ~"

print("원본 텍스트:")
print(text2)
print()

cleaned_text = clean_text(text2)
print("전처리 후 텍스트:")
print(cleaned_text)
print()

원본 텍스트:
ㅋㅋ AI는 인간의 일을 대체하게 될겁니다. 장점도 있고 단점도 있습니다. ! 인간의 반복적이고 힘든일을 대체했으면 ~

전처리 후 텍스트:
ㅋㅋ ai는 인간의 일을 대체하게 될겁니다 장점도 있고 단점도 있습니다  인간의 반복적이고 힘든일을 대체했으면 



In [10]:
okt = Okt()
print("전처리된 텍스트의 형태소 분석:")
cleaned_morphs = okt.morphs(cleaned_text)
print(cleaned_morphs)

전처리된 텍스트의 형태소 분석:
['ㅋㅋ', 'ai', '는', '인간', '의', '일', '을', '대체', '하게', '될', '겁니다', '장점', '도', '있고', '단점', '도', '있습니다', '인간', '의', '반복', '적', '이고', '힘든', '일', '을', '대체', '했으면']


## 4. 결과 비교 및 분석

In [11]:
print("=== 전처리 전후 비교 ===")
print(f"원본: {text2}")
print(f"전처리 후: {cleaned_text}")
print()

print("=== 형태소 분석 결과 비교 ===")
original_morphs = okt.morphs(text2)
print(f"원본 형태소: {original_morphs}")
print(f"전처리 후 형태소: {cleaned_morphs}")
print()

print("=== 명사 추출 결과 비교 ===")
original_nouns = okt.nouns(text2)
cleaned_nouns = okt.nouns(cleaned_text)
print(f"원본 명사: {original_nouns}")
print(f"전처리 후 명사: {cleaned_nouns}")

=== 전처리 전후 비교 ===
원본: ㅋㅋ AI는 인간의 일을 대체하게 될겁니다. 장점도 있고 단점도 있습니다. ! 인간의 반복적이고 힘든일을 대체했으면 ~
전처리 후: ㅋㅋ ai는 인간의 일을 대체하게 될겁니다 장점도 있고 단점도 있습니다  인간의 반복적이고 힘든일을 대체했으면 

=== 형태소 분석 결과 비교 ===
원본 형태소: ['ㅋㅋ', 'AI', '는', '인간', '의', '일', '을', '대체', '하게', '될', '겁니다', '.', '장점', '도', '있고', '단점', '도', '있습니다', '.', '!', '인간', '의', '반복', '적', '이고', '힘든', '일', '을', '대체', '했으면', '~']
전처리 후 형태소: ['ㅋㅋ', 'ai', '는', '인간', '의', '일', '을', '대체', '하게', '될', '겁니다', '장점', '도', '있고', '단점', '도', '있습니다', '인간', '의', '반복', '적', '이고', '힘든', '일', '을', '대체', '했으면']

=== 명사 추출 결과 비교 ===
원본 명사: ['인간', '일', '대체', '장점', '단점', '인간', '반복', '일', '대체']
전처리 후 명사: ['인간', '일', '대체', '장점', '단점', '인간', '반복', '일', '대체']
