# 자연어 처리 NLP(Natural Language Processing) | 텍스트 분석 Text Analysis

- 자연어 처리: 사람이 사용하는 언어 전반에 대해서 이해하고 처리하는 분야
    - 음성인식, 번역, 감정분석, 요약, 질의응답, 언어생성 등 포괄적 분야
- 텍스트 분석: 언어적 비정형 데이터에서 정보를 추출하고 분석하는 작업
    - 텍스트 통계적 분석, 주제 분류, 텍스트 군집, 유사도 분석 등

### 파이썬 텍스트분석 패키지 

| **로고 이미지**                                                                                                 | **패키지**   | **설명**                                            | **주요 특징 및 기능**                                                   | **API 문서 URL**                                  |
|------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------|-----------------------------------------------------------------------|-------------------------------------------------|
| ![nltk](https://miro.medium.com/v2/resize:fit:4800/format:webp/1*YM2HXc7f4v02pZBEO8h-qw.png)                   | **nltk**     | 가장 오래된 NLP 라이브러리 중 하나로, 다양한 자연어 처리 도구와 코퍼스 제공 | 토큰화, 품사 태깅, 어간 추출, 불용어 제거, 문법 구조 분석, 감정 분석 등에 유용 | [NLTK API Docs](https://www.nltk.org/api/nltk.html) |
| ![gensim](https://radimrehurek.com/gensim/_static/images/gensim.png)                                       | **gensim**   | 주로 텍스트의 토픽 모델링과 문서 유사도 분석을 위한 라이브러리            | Word2Vec, FastText, LDA, 유사도 측정, 대용량 텍스트 처리에 최적화    | [Gensim API Docs](https://radimrehurek.com/gensim/) |
| ![spacy](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/SpaCy_logo.svg/320px-SpaCy_logo.svg.png) | **spacy**    | 빠르고 효율적인 NLP 처리를 위해 개발된 라이브러리로, 산업용 프로젝트에 적합     | 빠른 토큰화, 품사 태깅, NER, 구문 분석, 벡터 표현 제공              | [SpaCy API Docs](https://spacy.io/api)             |
| ![TextBlob](https://textblob.readthedocs.io/en/dev/_static/textblob-logo.png)                              | **TextBlob** | 간단한 NLP 작업을 위한 라이브러리로, 감정 분석과 텍스트 정제 등 지원  | 문법 교정, 감정 분석, 텍스트 번역 등과 같은 간단한 작업에 적합      | [TextBlob API Docs](https://textblob.readthedocs.io/en/dev/) |
| ![KoNLPy](https://konlpy.org/en/latest/_static/konlpy.png)                                                 | **KoNLPy**   | 한국어 자연어 처리를 위한 라이브러리로, 여러 형태소 분석기를 제공          | Kkma, Hannanum, Komoran, Twitter, Mecab 형태소 분석기 지원            | [KoNLPy API Docs](https://konlpy.org/en/latest/)  |

### NLTK (Natural Language Toolkit)
- 파이썬에서 텍스트 처리 및 자연어 처리를 쉽게 다룰 수 있게 해주는 오픈 소스 라이브러리
- NLTK는 다양한 언어 리소스와 알고리즘을 포함하고 있으며, 텍스트 마이닝, 텍스트 분석, 그리고 자연어 처리를 공부하거나 구현할 때 유용

**주요 기능**
1. **토큰화(Tokenization)**: 문장을 단어 또는 문장 단위로 나누는 작업
    - 예를 들어, `"I love NLP."`를 `['I', 'love', 'NLP', '.']`와 같이 나누는 기능을 제공한다.
2. **품사 태깅(Part-of-Speech Tagging)**: 각 단어에 대해 해당 품사를 태깅하는 작업
    - 예를 들어, `"I love NLP."`에 대해 `[('I', 'PRP'), ('love', 'VBP'), ('NLP', 'NNP'), ('.', '.')]`와 같이 태깅한다.
3. **명사구 추출(Chunking)**: 문장에서 명사구와 같은 특정 구문을 추출하는 작업
4. **어근 추출(Lemmatization) 및 어간 추출(Stemming)**: 단어의 기본 형태를 찾는 작업으로, 동사의 기본형을 찾거나 복수형을 단수형으로 변환하는 등의 작업 수행
5. **텍스트 분류(Classification)**: Naive Bayes, MaxEnt 등의 분류 모델을 사용해 텍스트 분류 가능
6. **코퍼스(corpus) 제공**: 영화 리뷰, 뉴스 기사 등 여러 텍스트 데이터셋을 포함하고 있어 학습과 실습에 유용

In [7]:
!pip install nltk scikit-learn pandas numpy matplotlib seaborn



In [8]:
# NLTK 버전 확인 (설치 확인용)
import nltk

nltk.__version__

'3.9.2'

In [None]:
nltk.download('punkt')         # 토큰화(Punkt) 리소스
nltk.download('punkt_tab')     # Punkt 관련 추가 리소스
nltk.download('stopwords')     # 불용어 목록

[nltk_data] Downloading package punkt to ./data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to ./data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to ./data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [10]:
# 같은 네트워크 상에서 다운로드 몰려서 진행안될시 수동으로 받은파일 사용시 경로 설정
# nltk.data.path.append('C:/Users/Playdata/nlp/01_text_analysis/data')

In [None]:
# 수동으로 받은 파일은 'C:\\nltk_data'에 저장함 (corpora 폴더, tokenizers 폴더)
nltk.data.path

['C:\\Users\\Playdata/nltk_data',
 'c:\\Users\\Playdata\\nlp\\nlp_venv\\nltk_data',
 'c:\\Users\\Playdata\\nlp\\nlp_venv\\share\\nltk_data',
 'c:\\Users\\Playdata\\nlp\\nlp_venv\\lib\\nltk_data',
 'C:\\Users\\Playdata\\AppData\\Roaming\\nltk_data',
 'C:\\nltk_data',
 'D:\\nltk_data',
 'E:\\nltk_data']

In [None]:
# NLTK 단어 토큰화
from nltk.tokenize import word_tokenize, sent_tokenize    # 단어 토크나이즈, 문장 토크나이즈 함수

text = "NLTK is a powerful library for NLP!!!!!"
word_tokenize(text)

['NLTK',
 'is',
 'a',
 'powerful',
 'library',
 'for',
 'NLP',
 '!',
 '!',
 '!',
 '!',
 '!']

In [13]:
# NLTK 문장 토큰화
text = '''The Matrix is everywhere its all around us, here even in this room.
You can see it out your window or on your television. 
You feel it when you go to work, or go to church or pay your taxes.'''

sent_tokenize(text)

['The Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes.']

In [None]:
# 문장 -> 단어 토큰화 함수
def tokenize_text(text):
    sentences = sent_tokenize(text)                               # 문장 단위로 분리
    return [word_tokenize(sentence) for sentence in sentences]    # 각 문장을 단어 리스트로 변환

tokenize_text(text)

[['The',
  'Matrix',
  'is',
  'everywhere',
  'its',
  'all',
  'around',
  'us',
  ',',
  'here',
  'even',
  'in',
  'this',
  'room',
  '.'],
 ['You',
  'can',
  'see',
  'it',
  'out',
  'your',
  'window',
  'or',
  'on',
  'your',
  'television',
  '.'],
 ['You',
  'feel',
  'it',
  'when',
  'you',
  'go',
  'to',
  'work',
  ',',
  'or',
  'go',
  'to',
  'church',
  'or',
  'pay',
  'your',
  'taxes',
  '.']]

In [18]:
# NLTK N-gram (바이그램/트라이그램) 생성
from nltk import ngrams    # n-gram 생성 함수

text = "The Matrix is everywhere its all around us, here even in this room."

tokens = word_tokenize(text)    # 단어 토큰화
print(tokens)

bigram = ngrams(tokens, 2)             # 2-gram(바이그램) 생성
print([token for token in bigram])     # 바이그램 전체 출력

trigram = ngrams(tokens, 3)            # 3-gram(트라이그램) 생성
print([token for token in trigram])    # 트라이그램 전체 출력

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']
[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]
[('The', 'Matrix', 'is'), ('Matrix', 'is', 'everywhere'), ('is', 'everywhere', 'its'), ('everywhere', 'its', 'all'), ('its', 'all', 'around'), ('all', 'around', 'us'), ('around', 'us', ','), ('us', ',', 'here'), (',', 'here', 'even'), ('here', 'even', 'in'), ('even', 'in', 'this'), ('in', 'this', 'room'), ('this', 'room', '.')]


In [20]:
# NLTK 불용어(Stopwords) 확인
from nltk.corpus import stopwords           # 불용어(stopwords) 코퍼스
# stopwords.fileids()    # 지원되는 언어 확인

print(stopwords.words('english'))          # 영어 불용어 목록
print(len(stopwords.words('english')))     # 영어 불용어 개수

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', "he'd", "he'll", 'her', 'here', 'hers', 'herself', "he's", 'him', 'himself', 'his', 'how', 'i', "i'd", 'if', "i'll", "i'm", 'in', 'into', 'is', 'isn', "isn't", 'it', "it'd", "it'll", "it's", 'its', 'itself', "i've", 'just', 'll', 'm', 'ma', 'me', 'mightn', "mightn't", 'more', 'most', 'mustn', "mustn't", 'my', 'myself', 'needn', "needn't", 'no', 'nor', 'not', 'now', 'o', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 're', 's', 'same', 'shan', "shan't", 'she

In [None]:
# 불용어 제거 전처리
text = "The Matrix is everywhere its all around us, here even in this room."
stopwords_list = stopwords.words('english')    # 영어 불용어 목록

tokens = []                           # 불용어 제거된 결과 저장용
for word in word_tokenize(text):      # 토큰화
    word = word.lower()               # 소문자 변환
    if word not in stopwords_list:    # 불용어 제외
        tokens.append(word)           # 남은 토큰 저장

tokens

['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.']

### 특성 벡터화 (Feature Vectorization)

- BoW > CountVectorizer

In [23]:
text1 = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

text2 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe \
You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

texts = [text1, text2]

In [27]:
# CountVectorizer로 BoW 벡터화
from sklearn.feature_extraction.text import CountVectorizer    # BoW(단어 빈도) 벡터화 도구

count_vectorizer = CountVectorizer()
count_vectorizer.fit(texts)                        # 단어 사전(vocabulary) 학습
text_vecs = count_vectorizer.transform(texts)      # 문서를 BoW 벡터로 변환 (희소행렬)

print(type(text_vecs), type(text_vecs.toarray()))  # 희소행렬과 ndarray 타입 확인
text_vecs.toarray()                                # 희소행렬을 dense 배열로 변환해 확인

<class 'scipy.sparse._csr.csr_matrix'> <class 'numpy.ndarray'>


array([[1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 1,
        1, 1, 3, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 2, 1, 0, 0,
        0, 1, 1, 0, 1, 3, 3],
       [0, 4, 0, 1, 2, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 2, 0, 0, 0,
        0, 0, 0, 0, 0, 2, 1, 1, 0, 0, 1, 1, 1, 2, 0, 0, 4, 0, 1, 0, 1, 1,
        1, 0, 0, 1, 0, 7, 1]])

In [29]:
# CountVectorizer 단어 사전
print(count_vectorizer.get_feature_names_out())    # 단어 사전(특성 이름) 목록
print(count_vectorizer.vocabulary_)                # 사전(단어->인덱스 매핑 딕셔너리)

['all' 'and' 'around' 'bed' 'believe' 'blue' 'can' 'church' 'deep' 'ends'
 'even' 'everywhere' 'feel' 'go' 'goes' 'here' 'hole' 'how' 'in' 'is' 'it'
 'its' 'matrix' 'on' 'or' 'out' 'pay' 'pill' 'rabbit' 'red' 'room' 'see'
 'show' 'stay' 'story' 'take' 'taxes' 'television' 'the' 'this' 'to' 'us'
 'wake' 'want' 'whatever' 'when' 'window' 'wonderland' 'work' 'you' 'your']
{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [None]:
# 단어 사전(vocabulary)를 DataFrame으로 정리
import pandas as pd

# count_vectorizer.vocabulary_.items()
vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x: x[1])  # 단어 인덱스 기준으로 정렬
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])  # (단어, 인덱스) 표로 정렬
vocab_df

Unnamed: 0,word,idx
0,all,0
1,and,1
2,around,2
3,bed,3
4,believe,4
5,blue,5
6,can,6
7,church,7
8,deep,8
9,ends,9


In [None]:
# 단어 빈도 계산 후 DataFrame에 추가
word_counts = text_vecs.toarray().sum(axis=0)    # 전체 문서 기준 단어별 합계(빈도) 계산

vocab_df['count'] = vocab_df['idx'].apply(lambda i: word_counts[i])    # idx로 빈도값 매핑해서 컬럼 추가

vocab_df = vocab_df.drop(columns=['idx'])    # 불필요한 idx 컬럼 제거

vocab_df


Unnamed: 0,word,count
0,all,1
1,and,4
2,around,1
3,bed,1
4,believe,2
5,blue,1
6,can,1
7,church,1
8,deep,1
9,ends,1


In [None]:
# CountVectorizer 불용어 제거 후 벡터화
count_vectorizer = CountVectorizer(stop_words='english')    # 영어 불용어 제거
texts_vecs = count_vectorizer.fit_transform(texts)          # 단어 사전 학습 + BoW 벡터화
print(texts_vecs.toarray().shape)                           # (문서 수, 단어 수) 크기 확인

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x: x[1])  # 단어 인덱스 기준으로 정렬
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])  # (단어, 인덱스) 표로 정렬
vocab_df

(2, 24)


Unnamed: 0,word,idx
0,bed,0
1,believe,1
2,blue,2
3,church,3
4,deep,4
5,ends,5
6,feel,6
7,goes,7
8,hole,8
9,matrix,9


In [36]:
# CountVectorizer n-gram + 상위 특성 제한
count_vectorizer = CountVectorizer(
    stop_words= 'english',    # 영어 불용어 제거
    ngram_range = (1, 2),     # 1-gram ~ 2-gram 까지 생성
    max_features = 20         # 빈도수 기준 상위 20개 특성
)

texts_vecs = count_vectorizer.fit_transform(texts)    # 학습 + BoW 변환 (희소행렬)

print(texts_vecs.toarray().shape)    # (문서 수, 특성 수)

count_vectorizer.get_feature_names_out()    # 선택된 특성(단어/바이그램) 목록

(2, 20)


array(['bed', 'bed believe', 'believe', 'believe red', 'believe want',
       'blue', 'blue pill', 'church', 'church pay', 'deep', 'deep rabbit',
       'ends', 'ends wake', 'feel', 'feel work', 'goes', 'hole',
       'hole goes', 'matrix', 'pill'], dtype=object)

- BOW > TfIdfVectorizer
    - TF-IDF == Term Frequency-Inverse Document Frequency

**TfidfVectorizer의 주요 파라미터**
<table border="1" cellpadding="5" cellspacing="0">
  <tr style="background-color: #f2f2f2;">
    <th>Parameter</th>
    <th>Description</th>
    <th>Default Value</th>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td><b>max_df</b></td>
    <td>문서의 비율 값으로서, 해당 비율 이상 나타나는 단어를 무시한다. <br> 예를 들어, max_df=0.8이면, 80% 이상의 문서에서 나타나는 단어는 제외된다.</td>
    <td>1.0</td>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td><b>min_df</b></td>
    <td>문서의 비율 값 또는 정수로, 해당 비율 이하 나타나는 단어를 무시한다. <br> 예를 들어, min_df=2이면, 두 개 이하의 문서에서만 나타나는 단어는 제외된다.</td>
    <td>1</td>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td><b>ngram_range</b></td>
    <td>(min_n, max_n) 형식으로, 사용할 n-gram의 범위를 정의한다. <br> 예를 들어, (1, 2)로 설정하면 unigram과 bigram을 고려한다.</td>
    <td>(1, 1)</td>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td>stop_words</td>
    <td>불용어를 지정할 수 있다. "english"로 설정하면 영어 불용어를 사용한다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>max_features</td>
    <td>벡터화할 때 고려할 최대 단어 수를 설정한다. 빈도순으로 상위 단어들이 선택된다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>use_idf</td>
    <td>IDF(역문서 빈도)를 사용할지 여부를 지정한다. False로 설정하면 단순히 TF 값만 사용한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>smooth_idf</td>
    <td>IDF 계산 시, 0으로 나누는 것을 피하기 위해 추가적인 smoothing을 수행한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>sublinear_tf</td>
    <td>TF 값에 대해 sublinear scaling (1 + log(tf))를 적용할지 지정한다.</td>
    <td>False</td>
  </tr>

In [38]:
# TF-IDF 벡터화
from sklearn.feature_extraction.text import TfidfVectorizer    # TF-IDF 벡터화 도구

tfidf_vectorizer = TfidfVectorizer(stop_words='english')    # 영어 불용어 제거
texts_vecs = tfidf_vectorizer.fit_transform(texts)          # 학습(사전 생성) + TF-IDF 행렬 반환

print(texts_vecs.toarray())                 # TF-IDF 행렬(dense) 출력
tfidf_vectorizer.get_feature_names_out()    # 특성(단어) 목록 확인

[[0.         0.         0.         0.33333333 0.         0.
  0.33333333 0.         0.         0.33333333 0.33333333 0.
  0.         0.         0.33333333 0.         0.         0.33333333
  0.33333333 0.         0.         0.33333333 0.         0.33333333]
 [0.21821789 0.43643578 0.21821789 0.         0.21821789 0.21821789
  0.         0.21821789 0.21821789 0.         0.         0.43643578
  0.21821789 0.21821789 0.         0.21821789 0.21821789 0.
  0.         0.21821789 0.21821789 0.         0.21821789 0.        ]]


array(['bed', 'believe', 'blue', 'church', 'deep', 'ends', 'feel', 'goes',
       'hole', 'matrix', 'pay', 'pill', 'rabbit', 'red', 'room', 'stay',
       'story', 'taxes', 'television', 'wake', 'want', 'window',
       'wonderland', 'work'], dtype=object)