# 자연어 처리 NLP | 텍스트 분석 Text Analysis
- 자연어 처리: 언어를 이해하고 처리 (번역, 음성인식, 언어생성 등)
- 텍스트 분석: 텍스트에서 정보 추출 및 분석 (텍스트 통계분석, 주제 분류, 텍스트 군집, 유사도 분석 등)

### 파이썬 텍스트분석 패키지 

| **로고 이미지**                                                                                                 | **패키지**   | **설명**                                            | **주요 특징 및 기능**                                                   | **API 문서 URL**                                  |
|------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------|-----------------------------------------------------------------------|-------------------------------------------------|
| ![nltk](https://d.pr/i/9xVzCK+)                   | **nltk**     | 가장 오래된 NLP 라이브러리 중 하나로, 다양한 자연어 처리 도구와 코퍼스 제공 | 토큰화, 품사 태깅, 어간 추출, 불용어 제거, 문법 구조 분석, 감정 분석 등에 유용 | [NLTK API Docs](https://www.nltk.org/api/nltk.html) |
| ![gensim](https://radimrehurek.com/gensim/_static/images/gensim.png)                                       | **gensim**   | 주로 텍스트의 토픽 모델링과 문서 유사도 분석을 위한 라이브러리            | Word2Vec, FastText, LDA, 유사도 측정, 대용량 텍스트 처리에 최적화    | [Gensim API Docs](https://radimrehurek.com/gensim/) |
| ![spacy](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/SpaCy_logo.svg/320px-SpaCy_logo.svg.png) | **spacy**    | 빠르고 효율적인 NLP 처리를 위해 개발된 라이브러리로, 산업용 프로젝트에 적합     | 빠른 토큰화, 품사 태깅, NER, 구문 분석, 벡터 표현 제공              | [SpaCy API Docs](https://spacy.io/api)             |
| ![TextBlob](https://textblob.readthedocs.io/en/dev/_static/textblob-logo.png)                              | **TextBlob** | 간단한 NLP 작업을 위한 라이브러리로, 감정 분석과 텍스트 정제 등 지원  | 문법 교정, 감정 분석, 텍스트 번역 등과 같은 간단한 작업에 적합      | [TextBlob API Docs](https://textblob.readthedocs.io/en/dev/) |
| ![KoNLPy](https://konlpy.org/en/latest/_static/konlpy.png)                                                 | **KoNLPy**   | 한국어 자연어 처리를 위한 라이브러리로, 여러 형태소 분석기를 제공          | Kkma, Hannanum, Komoran, Twitter, Mecab 형태소 분석기 지원            | [KoNLPy API Docs](https://konlpy.org/en/latest/)  |

In [1]:
!conda install nltk -y

3 channel Terms of Service accepted
Retrieving notices: done
Channels:
 - defaults
Platform: win-64
Collecting package metadata (repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: C:\Users\Playdata\anaconda3\envs\ml_env

  added / updated specs:
    - nltk


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    click-8.2.1                |  py312haa95532_0         329 KB
    colorama-0.4.6             |  py312haa95532_0          53 KB
    joblib-1.5.2               |  py312haa95532_0         517 KB
    nltk-3.9.1                 |  py312haa95532_0         2.7 MB
    openssl-3.0.18             |       h543e019_0         6.8 MB
    regex-2025.9.1             |  py312h02ab6af_0         364 KB
    tqdm-4.67.1                |  py312hfc267ef_0         187 KB
    ------------------------------------------------------------
                                    



    current version: 25.5.1
    latest version: 25.9.1

Please update conda by running

    $ conda update -n base -c defaults conda




In [2]:
import nltk

nltk.__version__

'3.9.1'

In [None]:
nltk.download('punkt')      # 토큰화에 필요한 데아터
nltk.download('punkt_tab')  # 구두점, 점 규칙
nltk.download('stopwords')  # 불용어 리스트

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [6]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = 'waes 32ert 3re 3'
word_tokenize(text)

['waes', '32ert', '3re', '3']

In [5]:
# 감정분석
nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...


True

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

analyzer = SentimentIntensityAnalyzer()

analyzer.polarity_scores('I don\'t  HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATE hate trump')

{'neg': 0.973, 'neu': 0.027, 'pos': 0.0, 'compound': -0.9996}

In [29]:
texts = ['i love this', 'monkey', 'kimbab lover hate tuna kimbab']

[(text, analyzer.polarity_scores(text)) for text in texts]

[('i love this', {'neg': 0.0, 'neu': 0.192, 'pos': 0.808, 'compound': 0.6369}),
 ('monkey', {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}),
 ('kimbab lover hate tuna kimbab',
  {'neg': 0.352, 'neu': 0.286, 'pos': 0.362, 'compound': 0.0258})]

In [30]:
# 토큰화 결과가 감정분석에 미치는 영향
from nltk.tokenize import WordPunctTokenizer

corpus = 'I don\'t  HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATE hate trump'
analyzer

# WordPunctToKenizer: 특수문자도 토큰처리
word_punct_tokenizer = WordPunctTokenizer()
tokens1 = word_punct_tokenizer.tokenize(corpus)
tokens1

['I',
 'don',
 "'",
 't',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATEHATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATEHATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATEHATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATEHATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'HATE',
 'hate',
 'trump']

In [31]:
token2 = word_tokenize(corpus)
print(token2)

['I', 'do', "n't", 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATEHATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATEHATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATEHATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATEHATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'HATE', 'hate', 'trump']


In [32]:
text1 = ' '.join(tokens1)
print(text1)
print(analyzer.polarity_scores(text1))

I don ' t HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATE hate trump
{'neg': 0.968, 'neu': 0.032, 'pos': 0.0, 'compound': -0.9996}


In [33]:
text2 = ' '.join(token2)
print(text2)
print(analyzer.polarity_scores(text2))

I do n't HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATEHATE HATE HATE HATE HATE HATE HATE HATE hate trump
{'neg': 0.024, 'neu': 0.046, 'pos': 0.93, 'compound': 0.9992}


In [None]:
text = '''The Matrix is everywhere its all around us, here even in this room.
You can see it out your window or on your television.
You feel it when you go to work, or go to church or pay your taxes.'''

sent_tokenize(text) # 문장 토큰화

['The Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes.']

In [36]:
# 문장별 단어 토큰화
def sentences_tokenize(sentences):
    sentences = sent_tokenize(text)
    return [word_tokenize(s) for s in sentences]


In [37]:
# n-gram
from nltk import ngrams

text = 'dawesrdfd fgdhdfd fgdgff'
tokens = word_tokenize(text)

bigram = ngrams(tokens, 2)
print([token for token in bigram])

trigram = ngrams(tokens, 3)
print([token for token in trigram])

[('dawesrdfd', 'fgdhdfd'), ('fgdhdfd', 'fgdgff')]
[('dawesrdfd', 'fgdhdfd', 'fgdgff')]


In [None]:
# 불용어 제거
from nltk.corpus import stopwords

# stopwords.fileids() # available langs
print(stopwords.words('English')[:10]) # 불용어 목록
print(len(stopwords.words('English')))

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']
198


In [55]:
corpus = [
    "The quick brown fox jumps over the lazy dog.",
    "Artificial intelligence is reshaping the future of technology.",
    "Data without context is meaningless.",
    "Go is designed for simplicity, concurrency, and performance.",
    "Python remains the dominant language for machine learning.",
    "Distributed systems require careful management of state and latency.",
    "Sustainable agriculture can benefit from predictive AI models.",
    "The server responded with a 500 internal error.",
    "Version control allows developers to collaborate safely.",
    "Training deep networks demands both data and computational power.",
    "Quantum computing may redefine the boundaries of encryption.",
    "Ethical AI must prioritize transparency and accountability.",
    "A scalable backend should handle thousands of concurrent users.",
    "The model’s performance improved after fine-tuning the parameters.",
    "React components make it easier to manage UI state."
]

text = corpus[0]

stopwords_list = set(stopwords.words('English'))

tokens = []



# 소문자 변환
text = text.lower()

# 토큰화
tokens = word_tokenize(text)

new_token = ""
# 불용어 처리
for token in tokens:
    if token not in stopwords_list:
        if token.isalpha() or token.isdigit():
            new_token += token + " "

new_token = new_token[:-1]
print(new_token)

quick brown fox jumps lazy dog


### 특성 벡터화 Feature Vectorization
1. BOW(Bag of Words): 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다.
    
   <img src="https://miro.medium.com/v2/resize:fit:1400/1*S8uW62e3AbYw3gnylm4eDg.png" width="500px">

2. Word Embedding: 단어를 밀집 벡터(dense vector)로 표현하는 방법으로, 단어의 의미와 관계를 보존하며 벡터로 표현한다.
    
    <img src="https://miro.medium.com/v2/resize:fit:1400/1*jpnKO5X0Ii8PVdQYFO2z1Q.png" width="500px">


| **구분**             | **Bag-of-Words (BOW)**                             | **Word Embedding**                             |
|----------------------|--------------------------------------------------|------------------------------------------------|
| **개념**             | 문서를 단어의 출현 빈도로 표현                   | 단어를 실수 벡터로 표현                       |
| **특징**             | - 단어의 순서와 의미를 고려하지 않음             | - 단어 간 의미적 유사성을 반영                |
|                      | - 고차원, 희소 벡터 생성                         | - 밀집된 저차원 벡터 생성                     |
| **대표 방법**        | Count Vector, TF-IDF                             | Word2Vec, GloVe, FastText                     |
| **장점**             | - 구현이 간단하고 이해하기 쉬움                  | - 문맥 정보 반영 가능                         |
|                      | - 단순 텍스트 데이터 분석에 유용                 | - 유사한 단어를 벡터 공간 상에서 가깝게 위치 |
| **단점**             | - 의미적 관계와 단어의 순서 정보 없음            | - 많은 데이터와 학습 시간 필요                |
|                      | - 고차원 희소 벡터 문제                          | - 구현이 상대적으로 복잡                      |

- BOW > CountVectorizer

In [57]:
text1 = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

text2 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe \
You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

texts = [text1, text2]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer()
count_vectorizer.fit(texts) # 고유한 단어(토큰)을 추출하여 단어사전 생성
text_vecs = count_vectorizer.transform(texts)

print(type(text_vecs), type(text_vecs.toarray()))
text_vecs.toarray()

<class 'scipy.sparse._csr.csr_matrix'> <class 'numpy.ndarray'>


array([[1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 1,
        1, 1, 3, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 2, 1, 0, 0,
        0, 1, 1, 0, 1, 3, 3],
       [0, 4, 0, 1, 2, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 2, 0, 0, 0,
        0, 0, 0, 0, 0, 2, 1, 1, 0, 0, 1, 1, 1, 2, 0, 0, 4, 0, 1, 0, 1, 1,
        1, 0, 0, 1, 0, 7, 1]])

In [61]:
print(count_vectorizer.get_feature_names_out())
print(count_vectorizer.vocabulary_)

['all' 'and' 'around' 'bed' 'believe' 'blue' 'can' 'church' 'deep' 'ends'
 'even' 'everywhere' 'feel' 'go' 'goes' 'here' 'hole' 'how' 'in' 'is' 'it'
 'its' 'matrix' 'on' 'or' 'out' 'pay' 'pill' 'rabbit' 'red' 'room' 'see'
 'show' 'stay' 'story' 'take' 'taxes' 'television' 'the' 'this' 'to' 'us'
 'wake' 'want' 'whatever' 'when' 'window' 'wonderland' 'work' 'you' 'your']
{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [65]:
sorted(count_vectorizer.vocabulary_, key=lambda x: x, reverse=True)

['your',
 'you',
 'work',
 'wonderland',
 'window',
 'when',
 'whatever',
 'want',
 'wake',
 'us',
 'to',
 'this',
 'the',
 'television',
 'taxes',
 'take',
 'story',
 'stay',
 'show',
 'see',
 'room',
 'red',
 'rabbit',
 'pill',
 'pay',
 'out',
 'or',
 'on',
 'matrix',
 'its',
 'it',
 'is',
 'in',
 'how',
 'hole',
 'here',
 'goes',
 'go',
 'feel',
 'everywhere',
 'even',
 'ends',
 'deep',
 'church',
 'can',
 'blue',
 'believe',
 'bed',
 'around',
 'and',
 'all']

In [67]:
import pandas as pd

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x:x[1])
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])
vocab_df.head()

Unnamed: 0,word,idx
0,all,0
1,and,1
2,around,2
3,bed,3
4,believe,4


In [None]:
# 단어별 등장횟수
word_counts = text_vecs.toarray().sum(axis=0)

vocab_df['count'] = vocab_df['idx'].apply(lambda i: word_counts[i])
vocab_df = vocab_df.drop(columns=['idx'])
vocab_df

Unnamed: 0,word,count
0,all,1
1,and,4
2,around,1
3,bed,1
4,believe,2
5,blue,1
6,can,1
7,church,1
8,deep,1
9,ends,1


In [None]:
# CountVectorizer(stop_words='언어'): 불용어 제거
count_vectorizer = CountVectorizer(stop_words='english')
texts_vecs = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

(2, 24)


In [75]:
vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x:x[1])
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])
vocab_df.head()

Unnamed: 0,word,idx
0,bed,0
1,believe,1
2,blue,2
3,church,3
4,deep,4


In [None]:
# CountVectorizer(stop_words='언어'): 불용어 제거
count_vectorizer = CountVectorizer(stop_words='english',
                                   ngram_range=(1, 2),      # 범위 1 ~ 2
                                   max_features=30          # 빈도수가 높은 n개만 사용
                                   )


texts_vecs = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

count_vectorizer.get_feature_names_out()

(2, 30)


array(['bed', 'bed believe', 'believe', 'believe red', 'believe want',
       'blue', 'blue pill', 'church', 'church pay', 'deep', 'deep rabbit',
       'ends', 'ends wake', 'feel', 'feel work', 'goes', 'hole',
       'hole goes', 'matrix', 'matrix room', 'pay', 'pay taxes', 'pill',
       'pill stay', 'pill story', 'rabbit', 'rabbit hole', 'red',
       'red pill', 'room'], dtype=object)

- BOW > TfidfVectorizer

문장 안에선 많아야 중요하고 전체 문장에선 적어야 중요

- TF-IDF == Term Frequency-Inverse Document Frequency

**용어** 
- $tf(t, d)$: 특정 단어 $t$가 문서 $d$에서 등장한 횟수 (Term Frequency)
- $df(t)$: 특정 단어 $t$가 등장한 문서의 수 (Document Frequency)
- $N$: 전체 문서의 수

**TF (Term Frequency)**
- 단어 $t$의 문서 $d$에서의 빈도를 계산하는데, 가장 일반적인 방법은 해당 단어의 단순 빈도로 정의한다.

$
tf(t, d) = \frac{\text{단어 } t \text{의 문서 } d \text{ 내 등장 횟수}}{\text{문서 } d \text{의 전체 단어 수}}
$

**IDF (Inverse Document Frequency)**
- 단어가 전체 문서에서 얼마나 중요한지를 계산한다.
- 특정 단어가 많은 문서에서 등장하면, 이 단어는 중요도가 낮아진다. 이를 반영하기 위해 아래와 같은 식을 사용한다.

$
idf(t) = \log\left(\frac{N}{1 + df(t)}\right)
$

- 여기서 $1$을 더하는 이유는, 특정 단어가 모든 문서에 등장하지 않을 경우 $df(t) = 0$이 되어, 분모가 $0$이 되는 것을 방지하기 위함이다.
  - 예를 들어, $\log(5/(1+1))$과 $\log(5/(1+2))$를 계산하면, 각각 $0.3979$와 $0.2218$이 된다.

**TF-IDF 계산**
- 위의 TF와 IDF를 결합하여 TF-IDF 가중치를 계산한다.

$
\text{tf-idf}(t, d) = tf(t, d) \times idf(t)
$

**TfidfVectorizer의 주요 파라미터**
<table border="1" cellpadding="5" cellspacing="0">
  <tr>
    <th>Parameter</th>
    <th>Description</th>
    <th>Default Value</th>
  </tr>
  <tr>
    <td><b>max_df</b></td>
    <td>문서의 비율 값으로서, 해당 비율 이상 나타나는 단어를 무시한다. <br> 예를 들어, max_df=0.8이면, 80% 이상의 문서에서 나타나는 단어는 제외된다.</td>
    <td>1.0</td>
  </tr>
  <tr>
    <td><b>min_df</b></td>
    <td>문서의 비율 값 또는 정수로, 해당 비율 이하 나타나는 단어를 무시한다. <br> 예를 들어, min_df=2이면, 두 개 이하의 문서에서만 나타나는 단어는 제외된다.</td>
    <td>1</td>
  </tr>
  <tr>
    <td><b>ngram_range</b></td>
    <td>(min_n, max_n) 형식으로, 사용할 n-gram의 범위를 정의한다. <br> 예를 들어, (1, 2)로 설정하면 unigram과 bigram을 고려한다.</td>
    <td>(1, 1)</td>
  </tr>
  <tr>
    <td>stop_words</td>
    <td>불용어를 지정할 수 있다. "english"로 설정하면 영어 불용어를 사용한다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>max_features</td>
    <td>벡터화할 때 고려할 최대 단어 수를 설정한다. 빈도순으로 상위 단어들이 선택된다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>use_idf</td>
    <td>IDF(역문서 빈도)를 사용할지 여부를 지정한다. False로 설정하면 단순히 TF 값만 사용한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>smooth_idf</td>
    <td>IDF 계산 시, 0으로 나누는 것을 피하기 위해 추가적인 smoothing을 수행한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>sublinear_tf</td>
    <td>TF 값에 대해 sublinear scaling (1 + log(tf))를 적용할지 지정한다.</td>
    <td>False</td>
  </tr>

In [80]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(stop_words='english')
texts_vecs = tfidf_vectorizer.fit_transform(texts)

print(texts_vecs.toarray())
tfidf_vectorizer.get_feature_names_out()

[[0.         0.         0.         0.33333333 0.         0.
  0.33333333 0.         0.         0.33333333 0.33333333 0.
  0.         0.         0.33333333 0.         0.         0.33333333
  0.33333333 0.         0.         0.33333333 0.         0.33333333]
 [0.21821789 0.43643578 0.21821789 0.         0.21821789 0.21821789
  0.         0.21821789 0.21821789 0.         0.         0.43643578
  0.21821789 0.21821789 0.         0.21821789 0.21821789 0.
  0.         0.21821789 0.21821789 0.         0.21821789 0.        ]]


array(['bed', 'believe', 'blue', 'church', 'deep', 'ends', 'feel', 'goes',
       'hole', 'matrix', 'pay', 'pill', 'rabbit', 'red', 'room', 'stay',
       'story', 'taxes', 'television', 'wake', 'want', 'window',
       'wonderland', 'work'], dtype=object)