# Práctica de Laboratorio en NLP - Tópicos
Tema: Extracción de tópicos

Introducción:

En esta práctica, trabajaremos en un proyecto de análisis de reclamaciones de un restaurante. La empresa desea saber de qué se quejan más los comensales, para identificar áreas de mejora. 


In [1]:
### Importación de librerías

import spacy
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

nlp = spacy.load("es_core_news_lg")

In [2]:
sentencias = [
    "La comida llegó fría y tardó mucho en ser servida.",
    "El servicio fue lento y el personal parecía desinteresado.",
    "Pedimos un plato vegetariano y nos trajeron uno con carne.",
    "Las mesas estaban sucias y no habían sido limpiadas correctamente.",
    "No había suficiente iluminación en el área de comedor.",
    "El restaurante estaba abarrotado y no se respetaron las reservas.",
    "La música estaba demasiado alta y no se podía mantener una conversación.",
    "La bebida que pedimos nunca llegó a la mesa.",
    "Los platos estaban mal sazonados y carecían de sabor.",
    "El menú tenía errores de ortografía y gramática.",
    "El restaurante tenía un olor desagradable.",
    "No había opciones vegetarianas en el menú.",
    "Se nos cobró de más en la factura.",
    "El baño del restaurante estaba sucio y sin papel higiénico.",
    "El vino que pedimos estaba agrio y parecía estar mal almacenado.",
    "La carne de mi plato estaba cruda en el centro.",
    "Las sillas eran incómodas y difíciles de mover.",
    "El personal fue grosero y poco atento.",
    "El restaurante estaba demasiado caliente y sin aire acondicionado.",
    "No se nos proporcionaron utensilios de mesa ni servilletas.",
    "El postre que pedimos estaba rancio y no era comestible.",
    "El menú era limitado y no ofrecía opciones para alergias alimentarias.",
    "El restaurante tenía una plaga de insectos.",
    "Los platos se veían descuidados y mal presentados.",
    "La factura tenía errores en los cálculos de los precios."
]




Normaliza los textos con el preprocesamiento correspondiente.


In [3]:
# normalización de las sentencias
from mis_funciones import normalize_document

norm_doc=[]

for document in sentencias:
    norm_doc.append(normalize_document(document))

#ver solo los primeros 20 documentos normalizados
norm_doc[:20]


['comida llegó fría tardó ser servida',
 'servicio lento personal parecía desinteresado',
 'pedimos plato vegetariano trajeron carne',
 'mesas sucias sido limpiadas correctamente',
 'suficiente iluminación área comedor',
 'restaurante abarrotado respetaron reservas',
 'música demasiado alta podía mantener conversación',
 'bebida pedimos nunca llegó mesa',
 'platos mal sazonados carecían sabor',
 'menú errores ortografía gramática',
 'restaurante olor desagradable',
 'opciones vegetarianas menú',
 'cobró factura',
 'baño restaurante sucio papel higiénico',
 'vino pedimos agrio parecía mal almacenado',
 'carne plato cruda centro',
 'sillas incómodas difíciles mover',
 'personal grosero atento',
 'restaurante demasiado caliente aire acondicionado',
 'proporcionaron utensilios mesa servilletas']

Genera la matriz TFIDF

In [7]:
# Creación de la matriz TF-IDF con tfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(norm_doc)
tfidf

<25x88 sparse matrix of type '<class 'numpy.float64'>'
	with 110 stored elements in Compressed Sparse Row format>

## Utiliza LDA para extraer los tópicos

In [8]:
# utilización de la matriz TF-IDF para crear el modelo LDA y extraer los tópicos
from sklearn.decomposition import LatentDirichletAllocation

lda_model = LatentDirichletAllocation(n_components=5, max_iter=20, random_state=42)
lda_output = lda_model.fit_transform(tfidf)
lda_output

array([[0.05806518, 0.05805342, 0.7677232 , 0.05806744, 0.05809075],
       [0.75165547, 0.06190331, 0.06225795, 0.06225268, 0.06193058],
       [0.75018622, 0.06268618, 0.06269244, 0.06234209, 0.06209308],
       [0.75264056, 0.06183057, 0.0618294 , 0.06184116, 0.06185831],
       [0.06671337, 0.06670182, 0.73313126, 0.06671557, 0.06673797],
       [0.06716288, 0.73114061, 0.06721236, 0.06730304, 0.06718111],
       [0.05806313, 0.76773372, 0.05805042, 0.05806528, 0.05808744],
       [0.06221961, 0.06248082, 0.75099714, 0.0622076 , 0.06209483],
       [0.0620072 , 0.06271025, 0.75082365, 0.06242596, 0.06203294],
       [0.06732047, 0.06708236, 0.06724594, 0.73146019, 0.06689104],
       [0.07383718, 0.07552872, 0.07407299, 0.70270831, 0.07385281],
       [0.07343091, 0.07427661, 0.7046198 , 0.07421973, 0.07345295],
       [0.08369223, 0.08295062, 0.08294977, 0.66743694, 0.08297044],
       [0.06222068, 0.06406334, 0.74863026, 0.06283876, 0.06224697],
       [0.05882616, 0.05846368, 0.

## Muestra los tópicos por cada texto

In [24]:
# visualización de los tópicos
# función para imprimir los tópicos
def print_topics(model, vectorizer, top_n=10):
    for idx, topic in enumerate(model.components_):
        print("Tópico %d:" % (idx))
        print([(vectorizer.get_feature_names_out()[i], topic[i])
                        for i in topic.argsort()[:-top_n - 1:-1]])


# impresión de los tópicos 
print_topics(lda_model, tfidf_vectorizer)

Tópico 0:
[('precios', 0.729085071199542), ('cálculos', 0.729085071199542), ('trajeron', 0.6923963654412046), ('vegetariano', 0.6923963654412046), ('errores', 0.6686179736750713), ('factura', 0.6681083268339818), ('lento', 0.6676395757252461), ('desinteresado', 0.6676395757252461), ('servicio', 0.6676395757252461), ('mesas', 0.6471199374283275)]
Tópico 1:
[('restaurante', 1.3538867867455167), ('demasiado', 0.9975513471674942), ('insectos', 0.8350203315480984), ('plaga', 0.8350203315480984), ('abarrotado', 0.7360215320192189), ('reservas', 0.7360215320192189), ('respetaron', 0.7360215320192189), ('centro', 0.729044500351445), ('cruda', 0.729044500351445), ('utensilios', 0.7138313473047617)]
Tópico 2:
[('llegó', 1.0048311121010063), ('pedimos', 0.9619294147657274), ('vegetarianas', 0.8407545179640195), ('atento', 0.7990046843392409), ('grosero', 0.7990046843392409), ('opciones', 0.7682880751397194), ('postre', 0.7304463715597942), ('comestible', 0.7304463715597942), ('rancio', 0.73044637

In [32]:
#usar pyLDAvis para visualizar los tópicos
import pyLDAvis
pyLDAvis.enable_notebook()
panel = pyLDAvis.sklearn.prepare(lda_model, tfidf, tfidf_vectorizer, mds='tsne')
panel

AttributeError: module 'pyLDAvis' has no attribute 'sklearn'