___

<a href='http://www.pieriandata.com'> <img src='../Pierian_Data_Logo.png' /></a>
___

# Latent Dirichlet Allocation

## Data

We will be using articles from NPR (National Public Radio), obtained from their website [www.npr.org](http://www.npr.org)

In [1]:
import pandas as pd

In [2]:
npr = pd.read_csv('ESV_excel.csv')

In [3]:
npr.head()

Unnamed: 0,Book,Content
0,Genesis,"In the beginning, God created the heavens and ..."
1,,"The earth was without form and void, and darkn..."
2,,"And God said,"
3,,And God saw that the light was good. And God s...
4,,"God called the light Day, and the darkness he ..."


Notice how we don't have the topic of the articles! Let's use LDA to attempt to figure out clusters of the articles.

## Preprocessing

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

**`max_df`**` : float in range [0.0, 1.0] or int, default=1.0`<br>
When building the vocabulary ignore terms that have a document frequency strictly higher than the given threshold (corpus-specific stop words). If float, the parameter represents a proportion of documents, integer absolute counts. This parameter is ignored if vocabulary is not None.

**`min_df`**` : float in range [0.0, 1.0] or int, default=1`<br>
When building the vocabulary ignore terms that have a document frequency strictly lower than the given threshold. This value is also called cut-off in the literature. If float, the parameter represents a proportion of documents, integer absolute counts. This parameter is ignored if vocabulary is not None.

In [5]:
cv = CountVectorizer(max_df=0.95, min_df=2, stop_words='english')

In [6]:
dtm = cv.fit_transform(npr['Content'])

In [7]:
dtm

<29293x8536 sparse matrix of type '<class 'numpy.int64'>'
	with 220041 stored elements in Compressed Sparse Row format>

## LDA

In [8]:
from sklearn.decomposition import LatentDirichletAllocation

In [72]:
LDA = LatentDirichletAllocation(n_components=3,random_state=42)

In [73]:
# This can take awhile, we're dealing with a large amount of documents!
LDA.fit(dtm)

LatentDirichletAllocation(n_components=3, random_state=42)

## Showing Stored Words

In [74]:
len(cv.get_feature_names())

8536

In [75]:
import random

In [42]:
#Dempnstation of random selection of words
for i in range(8536):
    random_word_id = random.randint(0,2)
    print(cv.get_feature_names()[random_word_id])

052
000
000
000
017
017
000
052
000
000
017
000
000
017
000
017
000
000
000
052
000
052
000
000
017
000
017
017
017
017
017
017
017
000
017
017
017
000
017
000
052
017
017
017
052
000
052
052
052
017
000
052
017
052
017
052
000
000
052
052
000
052
000
052
000
000
052
000
052
017
052
052
000
017
017
000
052
052
052
052
017
000
000
017
052
052
017
017
017
000
000
052
000
052
017
017
017
052
000
000
052
017
052
000
017
052
052
052
017
052
000
000
000
017
000
052
000
017
017
000
017
052
052
052
000
017
000
000
017
017
000
017
000
000
017
000
000
052
052
052
000
052
017
017
052
017
052
017
000
017
000
052
000
000
000
000
052
017
052
017
052
000
017
052
052
017
000
052
017
000
017
017
052
052
052
052
017
000
000
017
017
052
000
000
017
000
017
000
017
052
000
000
000
052
000
052
017
052
052
052
052
017
017
017
017
000
052
000
000
052
000
000
000
052
017
052
052
052
000
052
000
052
052
017
052
000
017
017
052
017
000
000
017
000
017
017
000
000
052
000
052
000
052
017
000
017
000
017
000
017


052
000
017
000
000
052
017
052
000
017
052
017
000
052
017
000
017
000
000
052
000
052
000
000
000
000
052
017
000
052
000
017
052
052
000
017
052
017
000
052
052
017
017
017
052
000
017
052
000
017
052
017
017
017
000
000
052
000
017
000
052
017
000
000
052
000
017
052
017
000
052
017
017
000
052
017
000
000
000
017
000
017
000
052
052
000
052
017
000
000
052
052
017
052
052
000
017
052
000
052
000
000
000
000
017
000
017
052
052
052
000
052
017
017
000
017
000
017
000
000
017
052
000
052
052
000
052
017
052
000
017
052
000
000
052
017
000
052
017
000
052
000
052
000
000
000
052
017
000
052
017
052
017
017
017
000
052
017
052
000
000
052
000
052
017
017
000
000
052
000
000
017
000
017
017
052
052
017
017
000
000
017
017
017
000
000
000
052
017
000
017
052
000
052
000
017
000
000
017
052
052
000
052
052
000
017
017
000
052
052
000
052
052
000
052
017
052
052
052
000
017
000
052
052
000
000
052
017
000
052
017
052
000
017
000
052
052
000
000
017
017
052
017
000
052
052
000
017
017
052


017
017
000
000
017
017
017
052
017
052
017
052
052
052
052
000
017
052
017
017
000
052
017
052
000
052
000
052
017
017
000
000
000
000
052
052
052
017
052
000
052
017
017
000
000
052
017
052
000
000
000
017
000
017
017
017
000
017
017
000
000
000
000
017
017
052
017
000
017
000
052
000
017
017
052
017
052
017
052
052
000
052
052
000
052
000
017
017
052
000
017
017
000
017
000
000
017
000
052
052
017
052
017
017
017
000
052
052
052
052
000
052
052
000
017
000
000
000
000
000
000
017
052
052
052
017
000
017
017
017
017
017
000
017
052
000
017
017
017
052
000
000
000
000
000
000
000
052
017
052
052
052
000
017
052
052
000
017
052
017
052
052
000
000
017
000
052
017
052
017
017
052
052
052
000
052
052
017
017
052
000
000
000
017
017
052
017
017
017
017
000
052
052
017
000
017
017
017
000
000
000
000
000
052
000
017
052
000
000
017
052
052
000
000
017
000
000
052
000
052
000
052
000
000
000
017
052
017
000
000
017
000
052
000
017
000
017
052
000
017
052
000
017
052
017
000
052
000
017
000


017
000
052
052
000
000
000
052
052
017
052
052
017
017
017
000
052
052
000
017
017
052
017
000
017
017
017
017
000
052
017
000
017
017
017
052
052
017
000
000
017
052
000
000
017
000
017
000
000
017
000
052
052
017
017
052
000
052
017
017
000
017
052
052
000
052
017
000
052
017
052
000
052
017
000
017
017
052
017
000
017
017
000
017
052
000
000
052
017
017
017
000
052
000
052
052
000
000
052
017
000
017
000
052
000
052
000
017
052
052
052
000
000
017
017
017
017
052
000
017
000
000
052
017
000
052
000
000
052
017
052
000
017
000
052
052
000
052
052
017
000
052
052
052
052
052
052
017
017
052
017
017
052
052
017
017
052
000
052
000
052
017
000
052
017
000
017
017
052
017
052
052
052
017
000
052
052
000
052
052
000
052
017
000
052
000
017
052
052
017
052
017
017
017
017
017
000
000
052
000
017
052
000
052
017
052
000
000
000
052
000
052
000
000
052
052
017
017
052
052
000
052
000
052
000
017
000
017
017
000
000
017
000
052
052
052
017
052
052
017
000
017
017
052
052
000
000
000
000
017


052
000
052
017
052
017
000
052
000
000
052
000
052
000
000
017
017
052
000
052
052
000
017
052
052
000
052
052
017
052
052
052
052
052
017
000
017
017
000
052
000
017
000
000
052
000
000
017
052
052
000
000
052
000
017
017
052
017
017
052
000
000
000
017
017
017
017
000
052
052
000
017
052
000
052
052
017
052
052
052
017
000
052
052
000
052
000
017
017
052
052
000
052
017
017
017
000
052
000
000
017
000
017
052
000
000
000
017
017
000
000
052
017
000
000
052
000
017
000
000
052
000
000
017
017
017
017
052
052
000
000
052
017
052
000
000
052
000
017
000
017
052
052
052
000
052
000
000
017
017
052
000
052
052
000
000
000
000
052
052
000
000
017
052
000
000
052
017
017
000
000
017
017
017
000
052
000
017
000
017
000
052
017
000
000
000
052
017
052
017
052
017
052
017
017
017
017
052
000
000
017
017
052
052
000
017
000
017
000
052
052
000
000
017
052
017
000
052
000
052
017
017
000
000
000


### Showing Top Words Per Topic

In [76]:
len(LDA.components_)

3

In [77]:
# x topics x n words
LDA.components_.shape

(3, 8536)

In [78]:
LDA.components_

array([[154.12172335,   0.33418796,   0.3338268 , ...,   0.34766448,
          1.60995289,   0.33462361],
       [  0.34565002,   2.3006987 ,   0.33402287, ...,   3.18038769,
          0.34643758,   0.34009321],
       [ 56.53262663,   0.36511334,   2.33215033, ...,   0.47194783,
          8.04360953,   5.32528318]])

In [79]:
type(LDA.components_)

numpy.ndarray

In [80]:
single_topic = LDA.components_[0]

In [81]:
# Returns the indices of this sorted array from greatest valeus to least for topic 0.
single_topic.argsort()

array([  13, 7528, 6844, ..., 4044, 4599, 6754], dtype=int64)

In [82]:
#ARGSORT ---> returns INDEX POSITIONS SORTED FROM LEAST --> GREATEST
#Looking ror TOP 10 CALUES (10 GREATEST VALUES)
#meaning I want the LAST 10 VALUES of ARGSORT()
#it is saying GRAB the last 10 values of .argsort() (highest prob words for this topic) 
# Word most representative of this topic
single_topic.argsort()[-7:]

array([4482, 3275, 4389, 5528, 4044, 4599, 6754], dtype=int64)

In [90]:
top_word_indices = single_topic.argsort()[-3:]

In [91]:
for index in top_word_indices:
    print(cv.get_feature_names()[index])

israel
lord
shall


These look like business articles perhaps... Let's confirm by using .transform() on our vectorized articles to attach a label number. But first, let's view all the 10 topics found.

In [106]:
for index,topic in enumerate(LDA.components_):
    print(f'THE TOP i WORDS FOR TOPIC #{index}')
    print([cv.get_feature_names()[i] for i in topic.argsort()[-15:]])
    print('\n')

THE TOP i WORDS FOR TOPIC #0
['did', 'hand', 'come', 'say', 'day', 'make', 'moses', 'like', 'let', 'god', 'land', 'people', 'israel', 'lord', 'shall']


THE TOP i WORDS FOR TOPIC #1
['did', 'life', 'behold', 'things', 'love', 'house', 'spirit', 'christ', 'great', 'earth', 'man', 'king', 'lord', 'son', 'god']


THE TOP i WORDS FOR TOPIC #2
['father', 'man', 'years', 'lord', 'house', 'jesus', 'day', 'son', 'men', 'people', 'went', 'king', 'sons', 'came', 'said']




### Attaching Discovered Topic Labels to Original Articles

In [107]:
dtm

<29293x8536 sparse matrix of type '<class 'numpy.int64'>'
	with 220041 stored elements in Compressed Sparse Row format>

In [108]:
dtm.shape

(29293, 8536)

In [109]:
len(npr)

29293

In [110]:
topic_results = LDA.transform(dtm)

In [111]:
topic_results.shape

(29293, 3)

In [112]:
topic_results[0]

array([0.05666486, 0.88727707, 0.05605808])

In [113]:
topic_results[0].round(2)

array([0.06, 0.89, 0.06])

In [114]:
topic_results[0].argmax()

1

This means that our model thinks that the first article belongs to topic #1.

### Combining with Original Data

In [115]:
npr.head()

Unnamed: 0,Book,Content,Topic
0,Genesis,"In the beginning, God created the heavens and ...",1
1,,"The earth was without form and void, and darkn...",1
2,,"And God said,",2
3,,And God saw that the light was good. And God s...,1
4,,"God called the light Day, and the darkness he ...",2


In [116]:
topic_results.argmax(axis=1)

array([1, 1, 2, ..., 1, 1, 1], dtype=int64)

In [117]:
npr['Topic'] = topic_results.argmax(axis=1)

In [118]:
npr.head(15)

Unnamed: 0,Book,Content,Topic
0,Genesis,"In the beginning, God created the heavens and ...",1
1,,"The earth was without form and void, and darkn...",1
2,,"And God said,",2
3,,And God saw that the light was good. And God s...,1
4,,"God called the light Day, and the darkness he ...",2
5,,"And God said,",2
6,,And God made the expanse and separated the wat...,1
7,,And God called the expanse Heaven. And there w...,1
8,,"And God said,",2
9,,"God called the dry land Earth, and the waters ...",1


## Great work!