In [11]:
# ===============================================
# LIMPIEZA DE COMENTARIOS + DIVISI√ìN EN ORACIONES
# ===============================================

import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
import spacy

# --- 1. Descarga de recursos necesarios ---
nltk.download('punkt')
nltk.download('stopwords')

# Modelo de espa√±ol de SpaCy
try:
    nlp = spacy.load("es_core_news_sm")
except OSError:
    import spacy.cli
    spacy.cli.download("es_core_news_sm")
    nlp = spacy.load("es_core_news_sm")

# --- 2. Cargar tu dataset ---
file_path = "data/reviews_filmaffinity_limpio.csv"  # cambia seg√∫n tu ruta
df = pd.read_csv(file_path)

# Ajusta nombres de columnas seg√∫n tu dataset
GENRE_COLUMN = 'film_genre'
REVIEW_TEXT_COLUMN = 'review_text'

# --- 3. Limpieza general del texto ---
def clean_text_general(text):
    """
    Limpieza general del texto para an√°lisis sint√°ctico.
    """
    if not isinstance(text, str):
        text = str(text)

    # Pasar a min√∫sculas
    text = text.lower()

    # Arreglar codificaci√≥n y quitar tildes
    text = (text.replace('√É¬°', '√°').replace('√É¬©', '√©').replace('√É¬≠', '√≠')
                    .replace('√É¬≥', '√≥').replace('√É¬∫', '√∫').replace('√É¬±', '√±')
                    .replace('√¢‚Ç¨‚Ñ¢', "'").replace('√¢‚Ç¨≈ì', '"').replace('√¢‚Ç¨', '"'))
    
    # Normalizar sin tildes
    text = (text.replace('√°', 'a').replace('√©', 'e').replace('√≠', 'i')
                    .replace('√≥', 'o').replace('√∫', 'u').replace('√±', 'n'))

    # Quitar URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text)

    # Quitar caracteres especiales y n√∫meros
    text = re.sub(r'[^a-z\s]', '', text)

    # Quitar espacios repetidos
    text = re.sub(r'\s+', ' ', text).strip()

    return text


# Aplicar limpieza
df['cleaned_review_general'] = df[REVIEW_TEXT_COLUMN].apply(clean_text_general)

print("\n--- Comentarios limpios (primeras 3 filas) ---")
print(df[['cleaned_review_general']].head(3))


# --- 4. Dividir los comentarios en oraciones ---
def dividir_en_oraciones(text):
    """
    Divide un texto en oraciones cortas usando SpaCy.
    """
    doc = nlp(text)
    oraciones = [sent.text.strip() for sent in doc.sents if len(sent.text.strip()) > 0]
    return oraciones

# Crear una nueva columna con las oraciones
df['sentences'] = df['cleaned_review_general'].apply(dividir_en_oraciones)

# --- 5. Expandir las oraciones en una nueva tabla ---
# Cada oraci√≥n tendr√° su propio registro (√∫til para el an√°lisis sint√°ctico posterior)
df_sentences = df.explode('sentences', ignore_index=True)

print("\n--- Ejemplo de comentarios divididos en oraciones ---")
print(df_sentences[['cleaned_review_general', 'sentences']].head(10))


# --- 6. Guardar el resultado limpio y dividido ---
output_path = "comentarios_limpios_y_divididos.csv"
df_sentences.to_csv(output_path, index=False, encoding='utf-8')
print(f"\nArchivo guardado como: {output_path}")



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Angelica\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Angelica\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!



--- Comentarios limpios (primeras 3 filas) ---
                              cleaned_review_general
0  la mayor virtud de esta pelicula es su existen...
1  no soy un experto cinefilo pero pocas veces me...
2  si no eres un incondicional del humor estilo t...

--- Ejemplo de comentarios divididos en oraciones ---
                              cleaned_review_general  \
0  la mayor virtud de esta pelicula es su existen...   
1  no soy un experto cinefilo pero pocas veces me...   
2  si no eres un incondicional del humor estilo t...   
3  no se que esta pasando si la gente se deja lle...   
4  pero cuando amanecey me quedo solosiento en el...   
5  la llegada de rafa a euskadi es como ponerse a...   
6  el nivel del cine y lo peor la capacidad intel...   
7  es triste ver una pelicula como esta y escucha...   
8  puedo entender que torrente i y ii y lo imposi...   
9  ahivalohostia txomin que monton de gente riend...   

                                           sentences  
0  la mayor v

In [14]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords

# Descargar recursos de NLTK (solo la primera vez)
nltk.download('stopwords')
nltk.download('punkt')

# --- Cargar tu CSV ---
df = pd.read_csv("data/reviews_filmaffinity_limpio.csv")

# Verifica el nombre de tu columna con los comentarios
columna_texto = "review_text"  # c√°mbiala si tu dataset usa otro nombre

# --- Funci√≥n de limpieza ---
def limpiar_texto(texto):
    if pd.isna(texto):
        return ""
    
    # 1Ô∏è‚É£ Pasar a min√∫sculas
    texto = texto.lower()
    
    # 2Ô∏è‚É£ Eliminar caracteres no deseados (mantener comas, puntos y signos de interrogaci√≥n/exclamaci√≥n)
    texto = re.sub(r'[^a-z√°√©√≠√≥√∫√º√±0-9,.;:!?¬ø¬°\s]', '', texto)
    
    # 3Ô∏è‚É£ Eliminar espacios m√∫ltiples
    texto = re.sub(r'\s+', ' ', texto).strip()
    
    # 4Ô∏è‚É£ (Opcional) Eliminar stopwords ‚Äî √∫til si haces conteos de palabras,
    # pero NO si vas a hacer an√°lisis sint√°ctico con spaCy
    stop_words = set(stopwords.words('spanish'))
    palabras = [p for p in texto.split() if p not in stop_words]
    texto = " ".join(palabras)
    
    return texto

# --- Aplicar limpieza ---
df["cleaned_review_general"] = df[columna_texto].apply(limpiar_texto)

# --- Mostrar las primeras filas limpias ---
print("\n--- Comentarios limpios (primeras 3 filas) ---")
print(df["cleaned_review_general"].head(3))

# --- Guardar CSV limpio ---
df.to_csv("reviews_limpio.csv", index=False, encoding="utf-8-sig")
print("\n‚úÖ Archivo 'reviews_limpio.csv' generado correctamente.")


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Angelica\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Angelica\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



--- Comentarios limpios (primeras 3 filas) ---
0    mayor virtud pel√≠cula existencia.el hecho poda...
1    experto cin√©filo, pocas veces tan juego sala c...
2    si incondicional humor estilo tele 5.si termin...
Name: cleaned_review_general, dtype: object

‚úÖ Archivo 'reviews_limpio.csv' generado correctamente.


In [23]:
import pandas as pd 

data = pd.read_csv("reviews_limpio.csv")
data.head()

#df['cleaned_review_general']

Unnamed: 0,film_name,gender,film_avg_rate,review_rate,review_title,review_text,cleaned_review_general
0,Ocho apellidos vascos,Comedia,6.0,3.0,OCHO APELLIDOS VASCOS...Y NING√öN NOMBRE PROPIO,La mayor virtud de esta pel√≠cula es su existen...,mayor virtud pel√≠cula existencia.el hecho poda...
1,Ocho apellidos vascos,Comedia,6.0,2.0,El perro verde,"No soy un experto cin√©filo, pero pocas veces m...","experto cin√©filo, pocas veces tan juego sala c..."
2,Ocho apellidos vascos,Comedia,6.0,2.0,Si no eres de comer mierda... no te comas esta...,Si no eres un incondicional del humor estilo T...,si incondicional humor estilo tele 5.si termin...
3,Ocho apellidos vascos,Comedia,6.0,2.0,Aida: The movie,"No s√© qu√© est√° pasando, si la gente se deja ll...","s√© pasando, si gente deja llevar modas, si ver..."
4,Ocho apellidos vascos,Comedia,6.0,2.0,UN HOMBRE SOLO (Julio Iglesias 1987),"""Pero cuando amanece,y me quedo solo,siento en...","amanece,y quedo solo,siento fondoun mar vac√≠o,..."


In [25]:
import pandas as pd
import re
import nltk

# Descargar recursos de NLTK (solo la primera vez)
nltk.download('punkt')

# --- Cargar el CSV ---
df = pd.read_csv("data/reviews_filmaffinity_limpio.csv")

columna_texto = "review_text"  # ajusta si tu dataset usa otro nombre

# --- Funci√≥n de limpieza (sin eliminar stopwords) ---
def limpiar_texto_glc(texto):
    if pd.isna(texto):
        return ""
    
    # 1Ô∏è‚É£ Pasar a min√∫sculas
    texto = texto.lower()
    
    # 2Ô∏è‚É£ Eliminar caracteres no deseados, PERO mantener puntuaci√≥n √∫til
    texto = re.sub(r'[^a-z√°√©√≠√≥√∫√º√±0-9,.;:!?¬ø¬°\s]', '', texto)
    
    # 3Ô∏è‚É£ Eliminar espacios m√∫ltiples
    texto = re.sub(r'\s+', ' ', texto).strip()
    
    return texto

# --- Aplicar limpieza ---
df["cleaned_review_general"] = df[columna_texto].apply(limpiar_texto_glc)

# --- Mostrar primeras filas ---
print("\n--- Comentarios limpios (primeras 3 filas) ---")
print(df[["review_text", "cleaned_review_general"]].head(3))

# --- Guardar CSV limpio ---
df.to_csv("reviews_limpio_GLC.csv", index=False, encoding="utf-8-sig")
print("\n‚úÖ Archivo 'reviews_limpio_GLC.csv' generado correctamente.")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Angelica\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!



--- Comentarios limpios (primeras 3 filas) ---
                                         review_text  \
0  La mayor virtud de esta pel√≠cula es su existen...   
1  No soy un experto cin√©filo, pero pocas veces m...   
2  Si no eres un incondicional del humor estilo T...   

                              cleaned_review_general  
0  la mayor virtud de esta pel√≠cula es su existen...  
1  no soy un experto cin√©filo, pero pocas veces m...  
2  si no eres un incondicional del humor estilo t...  

‚úÖ Archivo 'reviews_limpio_GLC.csv' generado correctamente.


In [26]:
import pandas as pd 

data = pd.read_csv("reviews_limpio_GLC.csv")
data.head()

#df['cleaned_review_general']

Unnamed: 0,film_name,gender,film_avg_rate,review_rate,review_title,review_text,cleaned_review_general
0,Ocho apellidos vascos,Comedia,6.0,3.0,OCHO APELLIDOS VASCOS...Y NING√öN NOMBRE PROPIO,La mayor virtud de esta pel√≠cula es su existen...,la mayor virtud de esta pel√≠cula es su existen...
1,Ocho apellidos vascos,Comedia,6.0,2.0,El perro verde,"No soy un experto cin√©filo, pero pocas veces m...","no soy un experto cin√©filo, pero pocas veces m..."
2,Ocho apellidos vascos,Comedia,6.0,2.0,Si no eres de comer mierda... no te comas esta...,Si no eres un incondicional del humor estilo T...,si no eres un incondicional del humor estilo t...
3,Ocho apellidos vascos,Comedia,6.0,2.0,Aida: The movie,"No s√© qu√© est√° pasando, si la gente se deja ll...","no s√© qu√© est√° pasando, si la gente se deja ll..."
4,Ocho apellidos vascos,Comedia,6.0,2.0,UN HOMBRE SOLO (Julio Iglesias 1987),"""Pero cuando amanece,y me quedo solo,siento en...","pero cuando amanece,y me quedo solo,siento en ..."


In [27]:
import pandas as pd
import spacy
from spacy import displacy

# --- 1Ô∏è‚É£ Cargar modelo de espa√±ol ---
try:
    nlp = spacy.load("es_core_news_sm")
except OSError:
    import spacy.cli
    spacy.cli.download("es_core_news_sm")
    nlp = spacy.load("es_core_news_sm")

# --- 2Ô∏è‚É£ Cargar tu CSV limpio ---
df = pd.read_csv("reviews_limpio_GLC.csv")

columna_texto = "cleaned_review_general"

# --- 3Ô∏è‚É£ Dividir en oraciones ---
def dividir_oraciones(texto):
    """Divide un comentario largo en oraciones."""
    if not isinstance(texto, str) or texto.strip() == "":
        return []
    doc = nlp(texto)
    return [sent.text.strip() for sent in doc.sents]

df["oraciones"] = df[columna_texto].apply(dividir_oraciones)

print("\n--- Ejemplo de divisi√≥n en oraciones ---")
print(df[["cleaned_review_general", "oraciones"]].head(2))

# --- 4Ô∏è‚É£ Crear √°rboles sint√°cticos ---
def obtener_arbol_sintactico(oracion):
    """Genera una representaci√≥n textual del √°rbol sint√°ctico (GLC) de una oraci√≥n."""
    doc = nlp(oracion)
    arbol = []
    for token in doc:
        arbol.append(f"{token.text} ({token.dep_}) ‚Üê {token.head.text}")
    return "\n".join(arbol)

# Aplicar sobre las primeras 5 oraciones (para no saturar la salida)
ejemplo_oracion = df["oraciones"].explode().dropna().iloc[:5].tolist()
print("\n--- √Årboles sint√°cticos de ejemplo ---\n")
for i, oracion in enumerate(ejemplo_oracion, 1):
    print(f"üü© Oraci√≥n {i}: {oracion}")
    print(obtener_arbol_sintactico(oracion))
    print("-"*60)

# --- 5Ô∏è‚É£ (Opcional) Visualizaci√≥n gr√°fica del √°rbol ---
# Puedes descomentar esto para visualizar un √°rbol con displacy
# doc = nlp(ejemplo_oracion[0])
# displacy.serve(doc, style="dep")

# --- 6Ô∏è‚É£ Estad√≠stica sint√°ctica ---
# Contar cu√°ntas oraciones tiene cada comentario
df["num_oraciones"] = df["oraciones"].apply(len)

# Calcular promedios por g√©nero (si tu dataset tiene la columna 'gender')
if "gender" in df.columns:
    estadistica = df.groupby("gender")["num_oraciones"].mean().reset_index()
    estadistica.columns = ["G√©nero", "Promedio de oraciones por rese√±a"]
    print("\n--- Estad√≠stica sint√°ctica (por g√©nero) ---")
    print(estadistica)
else:
    print("\nNo se encontr√≥ la columna 'gender' para agrupar por g√©nero.")

print("\n‚úÖ An√°lisis sint√°ctico completado correctamente.")



--- Ejemplo de divisi√≥n en oraciones ---
                              cleaned_review_general  \
0  la mayor virtud de esta pel√≠cula es su existen...   
1  no soy un experto cin√©filo, pero pocas veces m...   

                                           oraciones  
0  [la mayor virtud de esta pel√≠cula es su existe...  
1  [no soy un experto cin√©filo, pero pocas veces ...  

--- √Årboles sint√°cticos de ejemplo ---

üü© Oraci√≥n 1: la mayor virtud de esta pel√≠cula es su existencia.el hecho de que podamos jugar con los t√≥picos m√°s extremos de las identidades patrias la andaluza y la vasca sin que nadie se escandalice ni ponga el grito en el cielo, indica mucho de nuestra madurez como naci√≥n pese a quien pese.
la (det) ‚Üê virtud
mayor (amod) ‚Üê virtud
virtud (nsubj) ‚Üê hecho
de (case) ‚Üê pel√≠cula
esta (det) ‚Üê pel√≠cula
pel√≠cula (nmod) ‚Üê virtud
es (cop) ‚Üê hecho
su (det) ‚Üê existencia.el
existencia.el (cop) ‚Üê hecho
hecho (ccomp) ‚Üê indica
de (mark) ‚Üê jugar
que (m