# 자연어 처리 NLP (Natural Language Processing) | 텍스트 분석 Text Analysis

- 자연어 처리: 사람이 사용하는 언어 전반에 대해서 이해하고 처리하는 분야
    - 음성인식, 번역, 감정분석, 질의응답, 언어 생성 등 포괄적 분야
- 텍스트 분석: 언어적 비정형 데이터에서 정보를 추출하고 분석하는 작업
    - 텍스트 통계적 분석, 주제 분류, 텍스트 군집, 유사도 분석 등

### 파이썬 텍스트분석 패키지 

| **로고 이미지**                                                                                                 | **패키지**   | **설명**                                            | **주요 특징 및 기능**                                                   | **API 문서 URL**                                  |
|------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------|-----------------------------------------------------------------------|-------------------------------------------------|
| ![nltk](https://d.pr/i/9xVzCK+)                   | **nltk**     | 가장 오래된 NLP 라이브러리 중 하나로, 다양한 자연어 처리 도구와 코퍼스 제공 | 토큰화, 품사 태깅, 어간 추출, 불용어 제거, 문법 구조 분석, 감정 분석 등에 유용 | [NLTK API Docs](https://www.nltk.org/api/nltk.html) |
| ![gensim](https://radimrehurek.com/gensim/_static/images/gensim.png)                                       | **gensim**   | 주로 텍스트의 토픽 모델링과 문서 유사도 분석을 위한 라이브러리            | Word2Vec, FastText, LDA, 유사도 측정, 대용량 텍스트 처리에 최적화    | [Gensim API Docs](https://radimrehurek.com/gensim/) |
| ![spacy](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/SpaCy_logo.svg/320px-SpaCy_logo.svg.png) | **spacy**    | 빠르고 효율적인 NLP 처리를 위해 개발된 라이브러리로, 산업용 프로젝트에 적합     | 빠른 토큰화, 품사 태깅, NER, 구문 분석, 벡터 표현 제공              | [SpaCy API Docs](https://spacy.io/api)             |
| ![TextBlob](https://textblob.readthedocs.io/en/dev/_static/textblob-logo.png)                              | **TextBlob** | 간단한 NLP 작업을 위한 라이브러리로, 감정 분석과 텍스트 정제 등 지원  | 문법 교정, 감정 분석, 텍스트 번역 등과 같은 간단한 작업에 적합      | [TextBlob API Docs](https://textblob.readthedocs.io/en/dev/) |
| ![KoNLPy](https://konlpy.org/en/latest/_static/konlpy.png)                                                 | **KoNLPy**   | 한국어 자연어 처리를 위한 라이브러리로, 여러 형태소 분석기를 제공          | Kkma, Hannanum, Komoran, Twitter, Mecab 형태소 분석기 지원            | [KoNLPy API Docs](https://konlpy.org/en/latest/)  |

### NLTK (Natural Language Toolkit)
- 파이썬에서 텍스트 처리 및 자연어 처리를 쉽게 다룰 수 있게 해주는 오픈 소스 라이브러리
- NLTK는 다양한 언어 리소스와 알고리즘을 포함하고 있으며, 텍스트 마이닝, 텍스트 분석, 그리고 자연어 처리를 공부하거나 구현할 때 유용

**주요 기능**
1. **토큰화(Tokenization)**: 문장을 단어 또는 문장 단위로 나누는 작업
    - 예를 들어, `"I love NLP."`를 `['I', 'love', 'NLP', '.']`와 같이 나누는 기능을 제공한다.
2. **품사 태깅(Part-of-Speech Tagging)**: 각 단어에 대해 해당 품사를 태깅하는 작업
    - 예를 들어, `"I love NLP."`에 대해 `[('I', 'PRP'), ('love', 'VBP'), ('NLP', 'NNP'), ('.', '.')]`와 같이 태깅한다.
3. **명사구 추출(Chunking)**: 문장에서 명사구와 같은 특정 구문을 추출하는 작업
4. **어근 추출(Lemmatization) 및 어간 추출(Stemming)**: 단어의 기본 형태를 찾는 작업으로, 동사의 기본형을 찾거나 복수형을 단수형으로 변환하는 등의 작업 수행
5. **텍스트 분류(Classification)**: Naive Bayes, MaxEnt 등의 분류 모델을 사용해 텍스트 분류 가능
6. **코퍼스(corpus) 제공**: 영화 리뷰, 뉴스 기사 등 여러 텍스트 데이터셋을 포함하고 있어 학습과 실습에 유용

In [1]:
!conda install nltk -y

3 channel Terms of Service accepted
Retrieving notices: done
Channels:
 - defaults
Platform: win-64
Collecting package metadata (repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: C:\Users\Playdata\anaconda3\envs\ml_env

  added / updated specs:
    - nltk


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    ca-certificates-2025.9.9   |       haa95532_0         127 KB
    click-8.2.1                |  py312haa95532_0         329 KB
    colorama-0.4.6             |  py312haa95532_0          53 KB
    joblib-1.5.2               |  py312haa95532_0         517 KB
    nltk-3.9.1                 |  py312haa95532_0         2.7 MB
    openssl-3.0.18             |       h543e019_0         6.8 MB
    regex-2025.9.1             |  py312h02ab6af_0         364 KB
    tqdm-4.67.1                |  py312hfc267ef_0         187 KB
    --------------------------------



    current version: 25.5.1
    latest version: 25.9.1

Please update conda by running

    $ conda update -n base -c defaults conda




In [2]:
import nltk

nltk.__version__

'3.9.1'

In [3]:
# nltk 리소스 다운로드
nltk.download('punkt')       # 토큰화에 필요한 데이터
nltk.download('punkt_tab')   #
nltk.download('stopwords')   # 불용어 리스트 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [5]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = 'NLTK is a powerful library for NLP!!!!!'
word_tokenize(text)    # 단어 토큰화

['NLTK',
 'is',
 'a',
 'powerful',
 'library',
 'for',
 'NLP',
 '!',
 '!',
 '!',
 '!',
 '!']

In [6]:
# 감성분석
nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...


True

In [14]:
# SentimetIntensityAnalyzer를 통한 감성분석
from nltk.sentiment.vader import SentimentIntensityAnalyzer

analyser = SentimentIntensityAnalyzer()

# vader 는 감정에 대한 사전이 있다. 그래서 그 감정에 대해서 점수를 환산한다.
# SentimentIntensityAnalyzer.polarity_scores(corpus)
# - neg 부정(0 ~ 1)
# - neu 중립(0 ~ 1)
# - pos 긍정(0 ~ 1)
# - compound 복합(-1 ~ 1)

analyser.polarity_scores("I love this product! It's amazing!")

{'neg': 0.0, 'neu': 0.259, 'pos': 0.741, 'compound': 0.8619}

In [15]:
analyser.polarity_scores("Love")

{'neg': 0.0, 'neu': 0.0, 'pos': 1.0, 'compound': 0.6369}

In [16]:
analyser.polarity_scores("Ugly")

{'neg': 1.0, 'neu': 0.0, 'pos': 0.0, 'compound': -0.5106}

In [17]:
analyser.polarity_scores("Satisfied")

{'neg': 0.0, 'neu': 0.0, 'pos': 1.0, 'compound': 0.4215}

In [18]:
analyser.polarity_scores("Death")

{'neg': 1.0, 'neu': 0.0, 'pos': 0.0, 'compound': -0.5994}

In [19]:
analyser.polarity_scores("soso")

{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}

In [20]:
texts = ['I absolutely love this!',
         'This is okay, I guess',
         'I hate it so much'
         ]

for text in texts:
    score = analyser.polarity_scores(text)
    print(f'{text} | {score}')

I absolutely love this! | {'neg': 0.0, 'neu': 0.295, 'pos': 0.705, 'compound': 0.6989}
This is okay, I guess | {'neg': 0.0, 'neu': 0.612, 'pos': 0.388, 'compound': 0.2263}
I hate it so much | {'neg': 0.552, 'neu': 0.448, 'pos': 0.0, 'compound': -0.5719}
