# 정규화 (Normalization)

## 어간 추출 (Stemming)



- 단어의 접사(어미, 접두사)를 제거하여 단어의 어간(Stem)만을 남기는 기법.
- 규칙 기반으로 동작하며, 항상 사전에 존재하는 단어를 반환하지는 않음


## 표제어 추출 (Lemmatization)

- 단어의 활용형을 사전에 등재된 기본형인 표제어(Lemma)로 변환하는 기법
- 품사 정보를 고려하여 정확한 기본형을 탐색 단어의 어근을 추출하여 다양한 형태의 단어를 통일

## nltk를 이용한 실습

In [None]:
!pip install nltk
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

### PorterStemmer 어간 추출

In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

words = ["running", "runs", "runner", "easily", "fairly"]

stems = [stemmer.stem(word) for word in words]
print("원본 단어들:", words)
print("어간 추출 결과:", stems)

### WordNetLemmatizer 표제어 추출

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ["running", "runs", "ran", "easily", "fairly"]

lemmas = [lemmatizer.lemmatize(word, pos='v') for word in words]
print("원본 단어들:", words)
print("표제어 추출 결과:", lemmas)

## KoNLPy를 이용한 실습

In [None]:
# KoNLPy 설치
!pip install konlpy

### Okt를 이용한 어간 추출

In [None]:
from konlpy.tag import Okt

okt = Okt()
text = "열심히 공부하고 있는 학생들은 좋은 성적을 받을 것입니다."

# 형태소 분석 및 품사 태깅
morphs = okt.morphs(text, stem=True)
print("어간 추출 결과:", morphs)

### Okt를 이용한 형태소 분석 (stem=False)

In [None]:
from konlpy.tag import Okt

okt = Okt()
text = "열심히 공부하고 있는 학생들은 좋은 성적을 받을 것입니다."

# 형태소 분석 및 품사 태깅
morphs = okt.morphs(text, stem=False)
print("어간 추출 없이 형태소 분석 결과:", morphs)

### Komoran을 이용한 형태소 분석

In [None]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "열심히 공부하고 있는 학생들은 좋은 성적을 받을 것입니다."

morphs = komoran.morphs(text)
print("Komoran 형태소 분석 결과:", morphs)

### Kkma를 이용한 형태소 분석

In [None]:
from konlpy.tag import Kkma

kkma = Kkma()
text = "열심히 공부하고 있는 학생들은 좋은 성적을 받을 것입니다."

morphs = kkma.morphs(text)
print("Kkma 형태소 분석 결과:", morphs)


### Okt를 이용한 품사 태깅

In [None]:
from konlpy.tag import Okt

okt = Okt()
text = "아버지가 방에 들어가신다."

# 형태소 분석 및 품사 태깅
pos = okt.pos(text, stem=True)
print("품사 태깅 결과:", pos)


# 실습

## 어간 추출 및 표제어 추출 적용하기


이전에 실습한 내용을 참고하여 Okt를 사용하여 어간 추출을 적용해보시오.

예시 입력

```
text = "그녀는 아름답게 웃었다. 그는 달리기를 시작했다."
```

목표 출력

```
어간 추출 결과: ['그녀', '는', '아름답다', '웃다', '.', '그', '는', '달리기', '를', '시작', '하다', '.']
```

## 어간 추출 및 표제어 추출 적용하기

이전에 실습한 내용을 참고하여 Okt를 사용하여 품사 태깅 및 명사 추출을 적용해보시오.

예시 입력

```
text = "그녀는 아름답게 웃었다. 그는 달리기를 시작했다."
```

목표 출력

```
품사 태깅 결과: [('그녀', 'Noun'), ('는', 'Josa'), ('아름답다', 'Adjective'), ('웃다', 'Verb'), ('.', 'Punctuation'), ('그', 'Noun'), ('는', 'Josa'), ('달리기', 'Noun'), ('를', 'Josa'), ('시작', 'Noun'), ('하다', 'Verb'), ('.', 'Punctuation')]
명사 추출 결과: ['그녀', '그', '달리기', '시작']
```