**8. algoritmos_de_minería de texto**




**En que Consiste el Algoritmo:** En Extraer información y conocimiento útiles a partir de grandes volúmenes de texto no estructurado. Su objetivo principal es descubrir patrones, tendencias, relaciones y significados dentro de los datos de texto.






**Explicación de resultados:**  
- Utilizando el dataset "20 Newsgroups" que contiene una colección de documentos clasificados en 20 categorías diferentes. Luego, aplicamos el algoritmo  (LatentDirichletAllocation) para encontrar los temas latentes en los documentos.

- Tambien se utiliza el vectorizador (TfidfVectorizer) para preprocesar y representar los documentos en una matriz de características numéricas. 

- Luego, con el modelo LDA se extraen las palabras clave más relevantes para cada tema.

- Al final se imprimen las palabras claves de cada tema para interpretar los resultados.

**DataSet:** fetch_20newsgroups


In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.datasets import fetch_20newsgroups

# Paso 1: Cargar el dataset de ejemplo
dataset = fetch_20newsgroups(subset='all', shuffle=True, random_state=42)

# Paso 2: Preprocesamiento y representación
vectorizer = TfidfVectorizer(max_features=1000, max_df=0.5, min_df=2, stop_words='english')
X = vectorizer.fit_transform(dataset.data)

# Paso 3: Análisis de texto (en este ejemplo, utilizaremos Latent Dirichlet Allocation/LDA)
lda = LatentDirichletAllocation(n_components=20, random_state=42)
lda.fit(X)

# Paso 4: Interpretación de resultados
feature_names = vectorizer.get_feature_names_out()

for topic_idx, topic in enumerate(lda.components_):
    print("Tema %d:" % (topic_idx + 1))
    print("Palabras clave:", ", ".join([feature_names[i] for i in topic.argsort()[:-6:-1]]))
    print("--------------")


Tema 1:
Palabras clave: card, monitor, video, apple, au
--------------
Tema 2:
Palabras clave: car, com, hp, cars, engine
--------------
Tema 3:
Palabras clave: key, clipper, netcom, com, chip
--------------
Tema 4:
Palabras clave: com, stratus, fbi, ibm, article
--------------
Tema 5:
Palabras clave: gun, people, com, guns, law
--------------
Tema 6:
Palabras clave: ohio, cleveland, cwru, freenet, acs
--------------
Tema 7:
Palabras clave: cmu, pitt, andrew, cs, pittsburgh
--------------
Tema 8:
Palabras clave: god, jesus, christian, people, com
--------------
Tema 9:
Palabras clave: thanks, mail, university, com, graphics
--------------
Tema 10:
Palabras clave: apr, gmt, 93, 00, 1993
--------------
Tema 11:
Palabras clave: uk, ac, harvard, ed, 44
--------------
Tema 12:
Palabras clave: sale, offer, condition, cd, asking
--------------
Tema 13:
Palabras clave: digex, __, access, ___, pat
--------------
Tema 14:
Palabras clave: israel, israeli, jews, jewish, armenian
--------------
Tem