%md
# Analisis de Sentimientos 
#####  Procesamiento del Lenguaje Natural - NLP con Transformers(IA)<br>
Utilizaci√≥n de Modelos del lenguaje grande para la clasificaci√≥n de sentimientos y librer√≠as especializadas para trabajar comentarios y opinones de films 


<img src="https://upload.wikimedia.org/wikipedia/commons/6/63/Databricks_Logo.png" width="145">
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcS0l3LtGUQZES0xqGbA-9ATmpO6yMe6GrIHuQ&s" width="130">
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ-NEICv1aGTvDRncdvM_fXoah5SNWx4pXAvg&s" width="110">
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/0/05/Scikit_learn_logo_small.svg/3840px-Scikit_learn_logo_small.svg.png" width="115">

Este proyecto explora c√≥mo los modelos de Procesamiento de Lenguaje Natural (NLP) pueden identificar y clasificar las emociones presentes en rese√±as de pel√≠culas.   

A partir de m√°s de 10,000 comentarios de usuarios, se aplican t√©cnicas de limpieza, tokenizaci√≥n y lematizaci√≥n para descubrir patrones de opini√≥n y tendencias seg√∫n g√©nero, calificaci√≥n y palabras m√°s frecuentes.

**Sobre el Dataset**    
Este dataset (corpus) contiene criticas realizadas por los usuarios de www.filmaffinity.com sobre todas las pel√≠culas y series espa√±olas (Mas de 10000 peliculas).   


El dataset (copus) esta formado por:    

- film_name: T√≠tulo de la pel√≠cula.     
- gender: Genero de la pel√≠cula (comedia, terror, acci√≥n, etc.)         
- film_avg_rate: Nota media de la pel√≠cula (votos de todos los usuarios)      
- review_rate: Nota que el usuario que hace la cr√≠tica pone a la pel√≠cula.      
- review_title: T√≠tulo de la cr√≠tica.     
- review_text: Cr√≠tica de la pel√≠cula   


Este conjunto de datos es la base para aplicar t√©cnicas de Procesamiento de Lenguaje Natural (NLP), tokenizaci√≥n y lematizaci√≥n, con el objetivo de descubrir las palabras m√°s frecuentes, las emociones predominantes y las diferencias seg√∫n g√©nero o calificaci√≥n.

#### Instalaciones de librerias y dependencias

In [0]:
#Se instalan las siguiente librerias y paquetes para procesamiento en el entorno de Databricks
%pip install nltk
%pip install spacy
%pip install --upgrade typing_extensions
%pip install plotnine
%pip install wordcloud
%pip install transformers torch
!python -m spacy download es_core_news_sm

#%restart_python


In [0]:
import pandas as pd
import numpy as np

reviews = pd.read_csv('film_reviews_result.csv', sep= "|", )
reviews.sample(5)
#examinacion de valores nulo

reviews.info()

Se realiz√≥ un an√°lisis para identificar posibles valores faltantes en el dataset.
El resultado muestra que no existen valores nulos en ninguna de las columnas, lo que garantiza que los datos est√°n completos y listos para ser procesados sin necesidad de imputaciones o correcciones adicionales

#### Funcion de prosesamiento de datos y refinamiento de diccionarios


Se construy√≥ una funci√≥n cuyo objetivo es realizar la **limpieza y preparaci√≥n de los datos** para el an√°lisis descriptivo de los comentarios de pel√≠culas.

El proceso incluye:

- Instalaci√≥n y uso de las bibliotecas necesarias para el tratamiento de texto.

- Transformaci√≥n del dataset en un objeto pandas para un manejo interactivo.

- Eliminaci√≥n de n√∫meros y caracteres irrelevantes, normalizaci√≥n de espacios y texto.

- **Tokenizaci√≥n y lematizaci√≥n** de los comentarios.

Con este flujo se obtiene un corpus estandarizado que permite identificar las **palabras m√°s frecuentes** en las rese√±as, tanto en el conjunto completo como segmentado por g√©nero de pel√≠cula. Esto constituye la base para el an√°lisis de sentimientos y la exploraci√≥n de patrones en las opiniones de los usuarios.

In [0]:
import re, string
from nltk.corpus import stopwords
import spacy
import nltk
nltk.download('stopwords') #Descargamos stop works en el caso de que no este descargado

nlp_lematizar = spacy.load('es_core_news_sm') #reducir palabras a su forma base o lema (ej. ‚Äúcorriendo‚Äù ‚Üí ‚Äúcorrer‚Äù).

palabras_vacias = list(stopwords.words('spanish'))

#Agreganos mas palabras que no tienen alguna carga emocional a las palabras vacias de la libreria
#Refinado del diccionarios
filtros_cine_pro = [
    # Tu lista original + correcciones
    'peliculas', 'pel√≠culas', 'film', 'filme', 'films', 'cine', 'pelcula', 'ser', 'haber', 'tener', 'ms', 
    'pantalla', 'pantallas', 'obra', 'obras', 'produccion', 'producci√≥n', 'estreno', 'est',
    'director', 'directores', 'actor', 'actriz', 'actores', 'actrices', 'reparto', 'ver', 'bien',
    'personaje', 'personajes', 'protagonista', 'protagonistas', 'guion', 'gui√≥n', 
    'guionista', 'papel', 'papeles', 'elenco', 'trama', 'historia', 'historias',  
    'escena', 'escenas', 'final', 'inicio', 'principio', 'desenlace', 'momento', 
    'momentos', 'secuencia', 'secuencias', 'parte', 'partes', 'capitulo', 'cap√≠tulo', 
    'argumento', 'visto', 'viendo', 'mirar', 'hacer', 'hace', 'hecho', 'hacia', 'si', 
    'parece', 'parecen', 'parecer', 'creo', 'creer', 'pienso', 'pensar', 'decir', 
    'dice', 'dicho', 'contar', 'cuenta', 'pasa', 'pasar', 'pasado', 'va', 'ir', 'ido', 
    'tiene', 'tienen', 'querer', 'quiere', 'deja', 'dejar', 'dar', 'da', 'solo', 
    's√≥lo', 'tan', 'muy', 'mas', 'pero', 'aunque', 'entonces', 'luego', 'despues', 
    'despu√©s', 'antes', 'siempre', 'nunca', 'jamas', 'jam√°s', 'asi', 'as√≠', 'donde', 
    'cuando', 'quien', 'quienes', 'cual', 'cuales', 'todo', 'toda', 'todos', 'todas', 
    'algo', 'nada', 'algun', 'alg√∫n', 'alguna', 'algunos', 'algunas', 'otro', 'otra', 
    'otros', 'otras', 'cada', 'ambos', 'mismo', 'misma', 'mismos', 'mismas', 
    'bastante', 'demasiado', 'mucho', 'mucha', 'muchos', 'muchas', 'varios', 'varias',
    'total', 'realmente', 'verdad', 'verdaderamente', 'simplemente', 'posible', 
    'veces', 'caso', 'puesto', 'punto', 'manera', 'forma', 'general', 'ejemplo',
    'mejor', 'buen', 'bueno', 'poder', 'vez', 'tambin', 'tambi√©n', 
    'primero', 'primera', 'espectador', 'novela', 'libro', 's',

    # Agregadas por g√©nero extra√≠das de tus capturas
    'netflix', 'bayona', 'anderson', 'robert', 'rodriguez', 'momoa', 'wes', 'anna', 'dahl', 
    'alguno', 'jennifer', 'lawrence', 'adam', 'dicaprio', 'spy', 'kids', 'lindsay', "pelcular"
    'serie', 'temporada', 'episodio', 'videojuego', 'animacin', 'genero', 'gnero', 
    'clich', 'cliche', 'original', 'franquicia', 'saga', 'cosa', 'cosas', 'mundo', 
    'vida', 'tiempo', 'llegar', 'quedar', 'gran', 'menos', 'dos', 'tres', 'alguno', 
    'as', 'lugar', 'lado', 'cierto', 'claro', 'pues', 'sino', 'tampoco', 'adems', 
    'adem√°s', 'cmo', 'como', 'aquel', 'aquello', 'aqu', 'aqu√≠', 'mientras', 'tras', 
    'estn', 'est√°n', 'saber', 'gustar', 'vivir', 'seguir', 'encontrar', 'terminar',
    'volver', 'poner', 'resultar', 'cinta', 'trabajo', 'tema', 'sociedad', 'realidad', 
    'social', 'politico', 'pblico', 'p√∫blico', 'humano', 'minuto', 'hora', 'pasado', 
    'nuevo', 'nueva', "pelcular", "nio", "que", "ao"
]
palabras_vacias.extend(filtros_cine_pro)
print(palabras_vacias[1:10])

#Cosntruccion de funcion para trabajar cada comentario
coment = "Un ejemplo de !!!pel√≠cula con muy buenas cr√≠ticas.,/*-üòäüòä8üòä"

def limpieza(comentario, i = " "):
  texto = comentario.lower()
  texto = texto.encode('ascii', 'ignore').decode('ascii') #eliminamos caracteristicas raras emojis etc
  texto =  re.sub(f"[{re.escape(string.punctuation)}]", "", texto) #Eliminacion de signos de puntuacion
  texto =  re.sub(r"\d+", "", texto) #Eliminar nuemeros
  texto =  re.sub(r"\s+", " ", texto).strip() #normalizar espacios
  doc = nlp_lematizar(texto)  # tokeniza y lematiza  salida objeto Doc
  tokens = [i.lemma_ for i in doc if i.lemma_ not in palabras_vacias]
  return tokens

limpieza(coment)

# Se utilizar√° Este objeto con el cual Se eliminar√° aquellas palabras que no tienen un significado Representativo dentro del comentario

In [0]:
#Este codigo debe escalarce a pyspark para preocesameinto distribuido
reviews2 = (
  reviews
  .assign(
    review_rate = lambda x: x['review_rate'].astype('float'),
    film_avg_rate = lambda x: x['film_avg_rate'].str.replace(",", ".").astype('float'),
    genero =  reviews['gender'].str.split(",").str[0], #De cada lista dentro de cada fila, dame el elemento en la posici√≥n 0
    tokenizacion =  lambda x :  x['review_text'].map(limpieza)
  )
)



In [0]:
reviews2 = (
  reviews2
  .assign(
    conteo_palabras = lambda x : x['tokenizacion'].str.len(),
  )
)

reviews2.sample(5)

In [0]:
#cuanta peliculas y comentarios se disponen

peliculas_comentarios = (
  reviews2
  .groupby('film_name', as_index=False)
  .size()
  .sort_values('size', ascending=False)
)
print("#Distribucion del numero de comentarios por pelicula",
      "\n"*2,
      peliculas_comentarios.describe(),
      "\n"*2,
      "TOP 14 - Films con mayor comentarios en el Data Set"
    )

peliculas_comentarios.reset_index(drop=True)[0:16]
#Aproximadamente exisyte 766 pelicual registradas
#vemo cuantos comentarios disponemos

Utilzaremos otro paque de python plotline ya que es la representacipon de ggplot de r en python ¬°Es una excelente noticia! Para muchos analistas que vienen de R, descubrir plotnine es como volver a casa.

In [0]:
from plotnine import ggplot, aes, geom_histogram, labs, theme_light

# Creamos el gr√°fico
grafico_longitud = (
    ggplot(reviews2) 
    + aes(x='conteo_palabras') 
    + geom_histogram(bins=50, fill="#69b3a2", color="white")
    + labs(
        title="Distribuci√≥n del n√∫mero de palabras",
        subtitle="An√°lisis sobre 10,058 comentarios de data cruda",
        x="Cantidad de Palabras",
        y="Frecuencia"
    )
    + theme_light()
)
# Para mostrarlo
print("\n")
grafico_longitud

In [0]:
from plotnine import ggplot, aes, geom_col, labs, theme_light, coord_flip

#Gr√°fico de Calificaci√≥n Promedio de la Pel√≠cula
p1 = (
    ggplot(reviews2) 
    + aes(x='film_avg_rate') 
    + geom_histogram(bins=15, fill="#392aa8", color="white")
    + labs(
        title="Puntuaci√≥n General de Filmaffinity",
        subtitle="Promedio hist√≥rico calculado por la plataforma",
        x="Calificaci√≥n (Escala 1-10)",
        y="Frecuencia de Pel√≠culas"
    )
    + theme_light()
)

# Gr√°fico de Puntuaci√≥n del Usuario
p2 = (
    ggplot(reviews2) 
    + aes(x='review_rate') 
    + geom_histogram(bins=10, fill="#7C7C93", color="white")
    + labs(
        title="Puntuaci√≥n de las Rese√±as",
        subtitle="Notas individuales otorgadas por los usuarios",
        x="Rating del Usuario (Escala 1-10)",
        y="Frecuencia de Votos"
    )
    + theme_light()
)

# 3. Unir los gr√°ficos lado a lado sin usar los "ax" de Matplotlib (Evita el TypeError)
p1.show(), p2.show()

In [0]:
from plotnine import ggplot, aes, geom_col, labs, theme_light, coord_flip
generos = (
  reviews2
  .groupby("genero", as_index=False)
  .agg(
     {
         "film_name": "count"
     }
  )
  .sort_values("film_name", ascending=False)
  .assign(
      participacion_porce = lambda x : np.round((x["film_name"] / x["film_name"].sum())*100,2)
  )
)

p1 = (
    ggplot(generos)  # plotnine trabaja mejor con pandas
    + aes(x='reorder(genero, film_name)', y='film_name') #ordenamos el eje
    + geom_col(fill="#392aa8", color="white")
    + labs(
        title="Numero de videos por genero",
        x="Genero",
        y="Numero de Peliculas"
    )
    + theme_light()
    + coord_flip()  # opcional: mejora la lectura
)

p1.show()
generos

Dado que tenemos 10000 comentarios El proceso para realizar la obtenci√≥n del sentimiento se lo har√° a trav√©s de un modelo de lenguaje largo llms Utilizaremos los modelos que vienen por defecto en databriks Para hacer el procesamiento

Recordemos que nuestros Datos est√°n almacenados en un objeto de pandas y si lo hacemos directamente utilizando El modelo de lenguaje grande Y el objeto Donde se almacena los comentarios pues tardar√° demasiado tiempo para tanto posito pues miraremos a Spark Para utilizar las funciones  De computaci√≥n distribuida A trav√©s de Pyspark

### Analisis de palabras -  Frecuencia por Genero

 Transformaci√≥n objeto dataframe Pandas a un objeto dataframe de PySpark

In [0]:
import pyspark.sql.functions as f

df_spark = spark.createDataFrame(reviews2)

df_tokens = (
    df_spark
    .select(
        f.col("genero"),
        f.explode("tokenizacion").alias("palabra")
    )
)
df_tokens.count()
df_tokens.limit(10).display()


In [0]:
df_wc = (
    df_tokens
    .groupBy(f.col('genero'), f.col('palabra'))
    .agg(
       f.count( f.col('palabra')).alias("frecuencia")
    )
    .orderBy(f.desc("frecuencia"))
)
 
df_wc.count()
df_wc.limit(50).display()

In [0]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

df_wc_pd = df_wc.toPandas()
for genero in df_wc_pd["genero"].unique()[2:]:
    subset = df_wc_pd[df_wc_pd["genero"] == genero]

    frecuencias = dict( #convierte palabras en un diccionario { "bueno": 12, "malo": 5,"excelente": 7}
        zip(subset["palabra"],
         subset["frecuencia"])
    )

    #Nube de palabras graficas
    wc = WordCloud(
        width =500,
        height=180,
        background_color="white",
        max_words= 100,
        collocations=False
    ).generate_from_frequencies(frecuencias)

    plt.figure(figsize=(10,5))
    plt.imshow(wc, interpolation="bilinear")
    plt.axis("off")
    plt.title(f"WordCloud Genero del film: {genero}")
    plt.show()
    print("\n")

#### Inferencia con Transformer Modelos de Lenguaje

Dado que el dataset contiene m√°s de 10,000 comentarios, se dise√±√≥ un ejercicio inicial empleando un cerebro pre entrenado sobre una muestra de **150 rese√±as.** El objetivo de esta prueba es evaluar la capacidad del modelo para **extraer y clasificar sentimientos** en textos de usuarios, validando su desempe√±o antes de escalar el an√°lisis completo.

In [0]:
from transformers import pipeline

#cerebro
# Modelo multilenguaje espa√±ol
analizador = pipeline(
    "sentiment-analysis", 
    model="lxyuan/distilbert-base-multilingual-cased-sentiments-student"
    )

def clasificar_sentimiento(texto):
    resultado = analizador(texto[:511]) 
    label = resultado[0]['label']
    mapping = {"POS": "Positivo", "NEG": "Negativo", "NEU": "Neutral"}
    return mapping.get(label, label)


texto = "Me encant√≥ la pel√≠cula, fue muy mala."
resultado = clasificar_sentimiento(texto[:512])
print(resultado)

In [0]:
# Obtencion de una muestar aleatoria de comentarios para el modelo llms

muestra_datos = reviews2.sample(500)

In [0]:
# Aplica la funci√≥n en pandas
muestra_datos['sentimiento_ia'] = muestra_datos['review_text'].apply(clasificar_sentimiento)

muestra_datos.sample(1)

#### Grafica de sentimiento Positivo, Negativo y Neutral

In [0]:
from plotnine import ggplot, aes, geom_col, labs, theme_light, scale_fill_manual, geom_text

# Agrupamos los datos para tener el total general por sentimiento
df_general = (
    muestra_datos
    .groupby(['sentimiento_ia'], as_index=False)[['film_name']]
    .count()
    .assign(
        participacion = lambda x : np.round((x['film_name'] / sum(x['film_name']))*100,2)
    )
)

df_general.display()


p_sentimiento_general = (
    ggplot(df_general) 
    + aes(x='sentimiento_ia', y='film_name', fill='sentimiento_ia')
    + geom_col(show_legend=False)
    + geom_text(
        aes(label='film_name'),
        va='bottom',        # Alineaci√≥n vertical (bottom para que suba)
        size=10,            # Tama√±o de la letra
        format_string='{}'  # Formato del n√∫mero
    )
    + scale_fill_manual(values={
        "positive": "#2ecc71", 
        "negative": "#e74c3c", 
        "neutral": "#95a5a6"
    })
    + labs(
        title="Distribuci√≥n General de Sentimientos",
        subtitle="Basado en el conteo total",
        x="Sentimiento",
        y="Total de Menciones / Palabras"
    )
    + theme_light()
)

p_sentimiento_general.show()

La audiencia est√° totalmente polarizada con un empate t√©cnico entre cr√≠ticas negativas (49.2%) y positivas (48.6%), dejando casi sin espacio a la indiferencia o neutralidad (2.2%). Esta distribuci√≥n de 246 menciones negativas contra 243 positivas refleja que la pel√≠cula genera una reacci√≥n emocional intensa y dividida. El impacto medi√°tico es tan equilibrado que apenas tres comentarios inclinan la balanza, confirmando que no existe un consenso general sobre la obra.

In [0]:
from plotnine import ggplot, aes, geom_col, labs, theme_light, coord_flip

sentimiento_genero = (
    muestra_datos
    .groupby(["genero", "sentimiento_ia"], as_index=False)
    .agg({
        "film_name": "count",
        "conteo_palabras": "mean"
    })
    .sort_values("genero", ascending=False)
    .assign(
        total_por_genero = lambda x: x.groupby("genero")["film_name"].transform("sum"),
        proporcion = lambda  x : np.round(x['film_name'] /  x['total_por_genero'] * 100, 2)
    )
)

from plotnine import ggplot, aes, geom_col, labs, theme_light, scale_fill_manual, geom_text, facet_wrap, theme, element_text

p_sentimiento_general = (
    ggplot(sentimiento_genero) 
    + aes(x='sentimiento_ia', y='film_name', fill='sentimiento_ia')
    + geom_col()
    + geom_text(
        aes(label='film_name'),
        va='center',       
        nudge_y=2,
        size=10,            
        format_string='{}'  # Formato del n√∫mero
    )
    + facet_wrap('~genero', scales='free_y')
    + labs(
        title="Distribuci√≥n Sentimientos por Genero",
        subtitle="Basado en el conteo total de peliculas",
        x="Sentimiento",
        y="Total de Menciones / Palabras"
    )
    + theme_light()
    + theme(
        legend_position='bottom',     
        legend_direction='horizontal', 
        figure_size=(12, 10),    # Hancho 12 pulgadas, Alto 8 pulgadas
        strip_text=element_text(size=12, weight='bold'), # t√≠tulos de los g√©neros
        subplots_adjust={'wspace': 0.25, 'hspace': 0.35} # espaciados o pending
    )
)
p_sentimiento_general.show()


sentimiento_genero