# Asignación Latente de Dirichlet

En este cuaderno vamos a construir un modelo de Asignación Latente a Temas de Dirichlet.

Para ello empezamos cargando nuestro conjunto de datos:

In [1]:
from sklearn.datasets import fetch_20newsgroups
datos = fetch_20newsgroups(subset='train', categories=['sci.space', 'rec.autos', 'talk.politics.guns'], shuffle=True, random_state=42)

Nos traemos solo los textos relacionados con misiones espaciales, coches y política en relación al uso de armas.

In [2]:
datos.data[3]

'From: mart@csri.toronto.edu (Mart Molle)\nSubject: Re: Dumbest automotive concepts of all time\nLines: 36\n\nparr@acs.ucalgary.ca (Charles Parr) writes:\n\n>>>My TOP 10 list of dumbest automotive concepts ever\n>>>\n>>>9. Back-up lights on Corvette - they\'re on the sides of the car!\n>>              ^^^^^^^^^^^^^^^^^^^            ^^^^^^^^^^^^^\n>>Sure would be interested to know what year(s) this was!\n>>I don\'t seem to recall ANY car with back-up lights on the sides, much\n>>less any Corvette.  I suppose I could be mis-interpreting what you are\n>>trying to say here.....\n\n>Just a quick comment. Backup lights mounted on the side\n>would actually be *extremely* useful for people backing out of\n>parking stalls...\n\nWhile I can\'t think of any Corvettes with side mounted backup lights,\nI know that Saab started using them about 15 years ago.  My 1975 Saab 99\ndidn\'t have them, but a friend\'s 1978 Saab 99 certainly did.  In addition\nto the confentional tail-light mounted backup l

Utilizamos CountVectorizer para convertir los documentos de texto en una matriz de recuentos de términos.

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(stop_words='english', max_df=0.85, min_df=2)
X = vectorizer.fit_transform(datos.data)



Los términos que aparezcan en más de un 85% de los documentos se descartarán y al igual que los que aparecen en menos de dos documentos.

Tras esto procedemos a entrenar el modelo:

In [4]:
from sklearn.decomposition import LatentDirichletAllocation
lda_model = LatentDirichletAllocation(n_components=3, max_iter=20, learning_method='online', random_state=42)
lda_model.fit(X)

Por último observamos qué términos caracterizan cada tópico:

In [6]:
# Mostrar los temas
import numpy as np
feature_names = np.array(vectorizer.get_feature_names_out())
for topic_idx, topic in enumerate(lda_model.components_):
    top_idx = topic.argsort()[:-20 - 1:-1]
    print(f"Topic {topic_idx + 1}:")
    print(", ".join(feature_names[top_idx]))
    print()

Topic 1:
edu, com, writes, gun, article, like, don, just, people, think, car, guns, posting, host, nntp, university, good, know, time, make

Topic 2:
space, edu, nasa, com, gov, people, article, writes, launch, orbit, file, government, posting, earth, data, time, gun, moon, university, fbi

Topic 3:
edu, com, car, article, writes, posting, nntp, host, cars, engine, university, oil, don, just, distribution, know, ca, like, send, new



## Conclusión

El modelo ha funcionado bastante bien. El primer tópico parece recoger el tema de política con palabras como "gun" o "guns". El segundo claramente habla del espacio con palabras como "space", "launch", "nasa" "orbit"... y por último el tecero habla de "oil", "car", "engine"...

En todos los tópicos aparecen "com" y "edu". Te animo a preprocesar estos textos eliminando URL's para estudiar si los resultados mejoran.