In [24]:
import pandas as pd

df = pd.read_csv("../data/film_reviews_result_clean.csv")

# Filtrar: eliminar títulos que contengan "(Serie de TV)" o "(Miniserie de TV)"
df_films = df[~df['film_name'].str.contains(r"\(Serie de TV\)|\(Miniserie de TV\)", case=False, na=False)]

# Verificar resultado
print("Tamaño original:", df.shape)
print("Tamaño después de filtrar:", df_films.shape)

df_films.head()

# Configurar pandas para mostrar todas las filas
#pd.set_option('display.max_rows', None)

#df_films


Tamaño original: (10058, 6)
Tamaño después de filtrar: (5507, 6)


Unnamed: 0,film_name,gender,film_avg_rate,review_rate,review_title,review_text
10,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,5,"Bien, sin más...Me voy raudo y veloz a ver The...","""Desde que hace ya más de 50 años que William ..."
11,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,1,"Tenemos versión cristiana, evangélica …cuándo ...",Ya la has visto antes de verla en otras 200 pe...
12,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,1,Esto no es terror amigos,"""Hay que puntualizar que no es una peli de ter..."
13,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,4,Liberación la nuestra,La carrera de Lee Daniels es cuanto menos irre...
14,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,2,El terror que nunca llega,"""Intenta sumergirnos en el clásico subgénero d..."


In [25]:
from collections import Counter

# Separar y normalizar mínimos
g_lists = df['gender'].str.split(',').apply(lambda lst: [g.strip() for g in lst])

# Frecuencias
freq = Counter([g for gl in g_lists for g in gl])
freq_df = pd.DataFrame(freq.items(), columns=['label', 'count']).sort_values('count', ascending=False)
freq_df


Unnamed: 0,label,count
1,Drama,4846
0,Serie de TV,4551
21,Thriller,3435
8,Comedia,2519
4,Intriga,2319
13,Acción,2261
9,Fantástico,1670
22,Aventuras,1357
12,Ciencia ficción,1354
54,Crimen,1154


#### **Filtrar series/miniseries**

In [26]:
import pandas as pd
import re

df = pd.read_csv("../data/film_reviews_result_clean.csv")

# Filtrar títulos que contengan "(Serie de TV)" o "(Miniserie de TV)"
#mask_series = df['film_name'].str.contains(r"\(Serie de TV\)|\(Miniserie de TV\)", case=False, na=False)
#df = df[~mask_series].copy()

# Filtrar títulos que contengan "(TV)", "(Serie de TV)" o "(Miniserie de TV)"
mask_tv = df['film_name'].str.contains(r"\(TV\)|\(Serie de TV\)|\(Miniserie de TV\)", case=False, na=False)
# Eliminar esas filas
df = df[~mask_tv].copy()

print("Tamaño después de filtrar:", df.shape)

Tamaño después de filtrar: (5332, 6)


#### **Auditar y preparar listas de géneros**

In [27]:
from collections import Counter

# Separar géneros por coma y limpiar espacios
df['genres_list'] = df['gender'].str.split(',').apply(lambda lst: [g.strip() for g in lst])

# Auditoría rápida de frecuencias (opcional)
freq = Counter([g for gl in df['genres_list'] for g in gl])
freq_df = pd.DataFrame(freq.items(), columns=['label', 'count']).sort_values('count', ascending=False)
print(freq_df.head(30))


                       label  count
5                      Drama   2832
17                  Thriller   1811
6                    Comedia   1594
1                    Intriga   1032
11                    Acción    965
31           Ciencia ficción    846
12                 Aventuras    799
10                Fantástico    749
16                   Secuela    532
0                     Terror    519
49                    Crimen    517
101                  Años 70    516
65             Supervivencia    467
4    Basado en hechos reales    441
86               Catástrofes    369
140                   Sátira    365
54                Vida rural    350
25                   Familia    338
2               Sobrenatural    326
102          Escenario único    322
181            Fin del mundo    320
182         Cambio climático    320
66       Zonas frías/polares    312
63                Naturaleza    299
41                 Policíaco    295
24                Biográfico    275
30                    Remake

El análisis de frecuencias reveló una mezcla de géneros principales, subgéneros y etiquetas temáticas. Para garantizar coherencia y estabilidad en el modelo multietiqueta, se definió una taxonomía base de 18 géneros principales **(Drama, Thriller, Comedia, Acción, Ciencia ficción, Aventuras, Fantástico, Terror, Romance, Animación, Documental, Musical, Western, Bélico, Crimen, Intriga, Cine negro, Comedia romántica)**. Subgéneros con soporte suficiente (p.ej., **Thriller psicológico, Comedia negra, Drama psicológico**) se mantuvieron como clases independientes, mientras que etiquetas de bajo soporte (p.ej., Casas encantadas, Zombis, Gore) se mapearon a géneros padres. Las etiquetas temáticas (p.ej., Basado en hechos reales, Años 70, Cambio climático, Feminismo) se trasladaron a una columna auxiliar de tags, evitando ruido en la clasificación de géneros.


#### **Definir taxonomía: mapa de normalización y tags**

In [28]:
# Géneros principales que se mantendrán como clases
GENRES_BASE = {
    "Drama","Thriller","Comedia","Acción","Ciencia ficción","Aventuras",
    "Fantástico","Terror","Crimen","Romance","Animación","Documental",
    "Musical","Western","Bélico","Intriga","Cine negro", "Biográfico", "Histórico"
}

# Subgéneros que se mantendrán (soporte suficiente y valor semántico)
SUBGEN_MANTENER = {
    "Comedia romántica","Comedia negra","Drama psicológico"
}

# Mapa de normalización: subgéneros → padres, compuestos → descomponer
GENRE_MAP = {
    # Compuestos/descomposición
    "Comedia romántica": ["Comedia","Romance"],
    "Comedia de terror": ["Comedia","Terror"],
    "Drama romántico": ["Drama","Romance"],
    "Comedia juvenil": ["Comedia"],
    "Comedia dramática": ["Comedia","Drama"],
    "Drama psicológico": ["Drama"],

    # Subgéneros → padre
    "Aventuras marinas": ["Aventuras"],
    "Neo-noir": ["Cine negro"],
    "Slasher": ["Terror"],
    "Casas encantadas": ["Terror"],
    "Zombis": ["Terror"],
    "Vampiros": ["Terror"],
    "Hombres lobo": ["Terror"],
    "Fantasmas": ["Terror"],
    "Gore": ["Terror"],
    "Sobrenatural": ["Terror"],
    "Creepypasta": ["Terror"],
    "Secuestros / Desaparecidos": ["Thriller"],
    "Drama carcelario": ["Drama"],
    "J-Horror": ["Terror"],
    "Folk Horror": ["Terror"],
    "Body Horror": ["Terror"],
    "Thriller futurista": ["Thriller"],
    "Drama de época": ["Drama"],
    "Drama judicial / Abogados/as": ["Drama"],
    "Drama social": ["Drama"],
    "Documental sobre música": ["Documental", "Musical"],
    "Documental sobre Historia": ["Documental", "Histórico"],
    "Documental sobre cine": ["Documental"],
    "Documental deportivo": ["Documental"],
    "Documental de viajes": ["Documental"],
    "Documental deportivo": ["Documental"],
    "Documental científico": ["Documental"],
    "Música": ["Musical"],
    "Thriller psicológico": ["Thriller"],
    
    # Ciencia ficción y derivados
    "Aventura espacial": ["Ciencia ficción"],
    "Distopía": ["Ciencia ficción"],
    "Futuro postapocalíptico": ["Ciencia ficción"],
    "Inteligencia artificial": ["Ciencia ficción"],
    "Robots": ["Ciencia ficción"],
    "Extraterrestres": ["Ciencia ficción"],
    "Vampiros": ["Ciencia ficción"],
    

    # Crimen y derivados
    "Policíaco": ["Crimen"],
    "Cine quinqui": ["Crimen"],
    "True Crime": ["Crimen"],
    "Asesinos en serie": ["Crimen"],

    # Acción y derivados
    "Artes marciales": ["Acción"],
    "Espionaje": ["Acción"],

    # Fantástico y derivados
    "Magia": ["Fantástico"],
    "Realismo mágico": ["Fantástico"],
    "Dragones": ["Fantástico"],
    "Kaiju": ["Fantástico"],
    "Superhéroes": ["Fantástico"],
}

# Etiquetas temáticas/contextuales (se moverán a 'tags', no como géneros del target)
TOPIC_TAGS = {
    # Épocas y cronologías
    "Años 20","Años 40","Años 50","Años 60","Años 70","Años 80","Años 90","Años 1910-1919","Años 1900 (circa)",
    # Contexto/temas sociales y políticos
    "Basado en hechos reales","Cambio climático","Fin del mundo","Pandemias","Coronavirus (COVID-19)",
    "Feminismo","Homosexualidad","Racismo","Política","Religión","ETA","Terrorismo","Inmigración","Pobreza",
    # Relaciones/vida
    "Familia","Amistad","Adolescencia","Maternidad","Infancia","Vejez / Madurez","Trabajo/empleo","Bodas",
    # Ambientes/entornos
    "Zonas frías/polares","Naturaleza","Vida rural","Escenario único","Colegios & Universidad","Internados",
    # Otros tags temáticos
    "Navidad","Internet / Informática","Televisión","Halloween","Deporte","Baloncesto","Fútbol",
    "Aventuras marinas","Alpinismo / Escalada","Periodismo","Tiburones","Aves/Pájaros","Aviones","Cocina",
    "Drogas","Pintura","Enseñanza","Abusos sexuales","Acoso escolar / Bullying","Bucles temporales",
    "Hombres lobo","Vikingos","Blaxploitation","Supervivencia","Catástrofes",
    "Trabajo/empleo","Sherlock Holmes","Mafia","Nazismo",
    "Animación para adultos",
    "Animales","Perros/Lobos","Terror tecnológico","Remake","Cine familiar","Autismo / Asperger","Secuela",
    "Cine épico","Película interactiva","Simios",	"Volcanes","Wuxia","Hip Hop",	"Fútbol americano",
    "Terremotos","Alcoholismo","Gatos","Rugby","Guerra Fría","Baile","Sirenas","Sketches","África",
    "Decisiones","Atletismo","Dinosaurios","Moda","Ciclismo","Cine dentro del cine","Holocausto",
    "Asedio de Waco","Roedores","Siglo XVIII","Sitcom","Antigua Grecia","Revolución Francesa","Enfermedad",
    "Pokémon","Antiguo Egipto","Siglo XVII","Telefilm","Submarinos","Serpientes",
    "Comedia absurda","Prehistoria","Submarinismo / buceo","Wrestling/Lucha libre","Tenis",
    "Delfines","IRA","Discapacidad","Discapacidad visual","Yakuza & Triada","Siglo XV","Vida rural (Norteamérica)",
    "Coches/Automovilismo","Enseñanza","Bucles temporales","Stand-Up","Sitcom familiar","Yokais","Guerra de Siria",
    "Erótico","Años 30","Claymation (Plastilina)","Posesiones / Exorcismos",
    "Culturismo & Fitness","Baloncesto","Boxeo","Falso documental","Blaxploitation","Cortometraje","Literatura",
    "Mitología","Antigua Roma","Parodia","Entrevista","Telenovela","Bolsa & Negocios","Cocina","DC Comics",
    "Siglo XI","Juego","Viajes en el tiempo","Juegos olímpicos","Aviones","Fútbol",
    "Aves/Pájaros","Piratas","Cyberpunk","Infantil","Nazismo","Tiburones","Internados","Posguerra española","Young Adult",
    "Espada y brujería","Samuráis","Televisión","Conflicto árabe-israelí","Realismo mágico","Sectas","Japón feudal",
    "Bodas","Cuentos","Redes sociales","Kaiju","Años 1900 (circa)","Navidad","Terrorismo",
    "Historias cruzadas","Deporte","Robots","Mediometraje","Adopción","Alpinismo / Escalada",
    "Vikingos","Natación","Stop Motion","Basada en una película","Karate","Futuro postapocalíptico","Sexualidad y pornografía",
    "Steampunk","Inmigración","Acoso escolar / Bullying","Periodismo","Mafia","Edad Media","II Guerra Mundial","Prostitución",
    "Serie de antología","Medicina","Spin-off","Secuestros / Desapariciones","Policíaco",
    "Supervivencia","Sátira","Catástrofes","Fin del mundo","Escenario único","Naturaleza",
    "Cómic","Videojuego","Animación para adultos","Internet / Informática","Manga","Fantasía medieval","Asesinos en serie",
    "Brujería","Histórico","Fantasmas","Artes marciales","Amistad","Drogas","Abusos sexuales","Ejército","Espionaje","Monstruos",
    "Road Movie","Años 1910-1919","I Guerra Mundial","Cine familiar","Siglo XIX","Live-Action","True Crime",
    "Trabajo/empleo","Venganza","Precuela","Robos & Atracos"
}

#### **Normalizar géneros y separar tags**

In [35]:
def normalize_and_split(genres):
    norm_genres = []
    tags = []

    for g in genres:
        g_clean = g.strip()

        # Si es un tag temático, lo movemos a tags
        if g_clean in TOPIC_TAGS:
            tags.append(g_clean)
            continue

        # Si está en el mapa, expandimos/mapeamos
        if g_clean in GENRE_MAP:
            norm_genres.extend(GENRE_MAP[g_clean])
            continue

        # Si ya es un género base o un subgénero que decidimos mantener
        if g_clean in GENRES_BASE or g_clean in SUBGEN_MANTENER:
            norm_genres.append(g_clean)
            continue

        # Si no está clasificado, mantener tal cual (luego filtraremos por soporte)
        norm_genres.append(g_clean)

    # Deduplicar manteniendo orden
    norm_genres = list(dict.fromkeys(norm_genres))
    tags = list(dict.fromkeys(tags))
    return norm_genres, tags

# Aplicar normalización
df[['genres_norm','tags']] = df['genres_list'].apply(lambda gl: pd.Series(normalize_and_split(gl)))

# Configurar pandas para mostrar todas las filas
#pd.set_option('display.max_rows', None)

df[['film_name','gender','genres_norm','tags']].head(10)


Unnamed: 0,film_name,gender,genres_norm,tags
10,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
11,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
12,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
13,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
14,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
15,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
16,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
17,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
18,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...","[Terror, Intriga]",[Basado en hechos reales]
32,Príncipes salvajes,Drama,[Drama],[]


In [38]:
df.head(5)

Unnamed: 0,film_name,gender,film_avg_rate,review_rate,review_title,review_text,genres_list,genres_norm,tags
10,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,5,"Bien, sin más...Me voy raudo y veloz a ver The...","""Desde que hace ya más de 50 años que William ...","[Terror, Intriga, Sobrenatural, Casas encantad...","[Terror, Intriga]",[Basado en hechos reales]
11,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,1,"Tenemos versión cristiana, evangélica …cuándo ...",Ya la has visto antes de verla en otras 200 pe...,"[Terror, Intriga, Sobrenatural, Casas encantad...","[Terror, Intriga]",[Basado en hechos reales]
12,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,1,Esto no es terror amigos,"""Hay que puntualizar que no es una peli de ter...","[Terror, Intriga, Sobrenatural, Casas encantad...","[Terror, Intriga]",[Basado en hechos reales]
13,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,4,Liberación la nuestra,La carrera de Lee Daniels es cuanto menos irre...,"[Terror, Intriga, Sobrenatural, Casas encantad...","[Terror, Intriga]",[Basado en hechos reales]
14,La liberación,"Terror, Intriga, Sobrenatural, Casas encantada...",4.5,2,El terror que nunca llega,"""Intenta sumergirnos en el clásico subgénero d...","[Terror, Intriga, Sobrenatural, Casas encantad...","[Terror, Intriga]",[Basado en hechos reales]


In [42]:
# Seleccionar columnas del dataframe ya modificado
df_export = df[['film_name','film_avg_rate','review_rate','review_title','review_text','genres_norm']].copy()

# Renombrar 'genres_norm' a 'genres'
df_export = df_export.rename(columns={'genres_norm':'genres'})

# Exportar a CSV
df_export.to_csv("../data/films_clean.csv", index=False, encoding="utf-8")

print("Nuevo CSV creado con columnas filtradas:", df_export.shape)


Nuevo CSV creado con columnas filtradas: (5332, 6)
