In [1]:
import pandas as pd
import os
import sys 

In [2]:
# Subo dos niveles desde data_analysis -> src -> g5-backend
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "../..")))

In [3]:
from src.paths import RUTA_TITULO
from src.paths import DIR_DATA_PROCESADA
from src.helpers import leer_tsv_chunks

In [4]:
titulos_iterable = leer_tsv_chunks(RUTA_TITULO)

# Conjunto para almacenar tipos únicos
tipos_unicos = set()

# Leer chunk por chunk y añadir los tipos únicos al conjunto
for chunk in titulos_iterable:
    tipos_unicos.update(chunk['titleType'].unique())

# Convertir a lista y ordenar alfabéticamente
lista_tipos = sorted(list(tipos_unicos))
print("Tipos de títulos únicos encontrados:")
for tipo in lista_tipos:
    print(f"- {tipo}")

Tipos de títulos únicos encontrados:
- movie
- short
- tvEpisode
- tvMiniSeries
- tvMovie
- tvPilot
- tvSeries
- tvShort
- tvSpecial
- video
- videoGame


In [5]:
# Lista de tipos que queremos filtrar
tipos_buscados = ['short', 'tvMovie', 'tvShort', 'tvSpecial']

# Diccionario para almacenar los resultados de cada tipo
resultados = {tipo: [] for tipo in tipos_buscados}

# Leer chunks y filtrar
titulos_iterable = leer_tsv_chunks(RUTA_TITULO)

for chunk in titulos_iterable:
    for tipo in tipos_buscados:
        # Si aún no tenemos 5 registros de este tipo, buscamos más
        if len(resultados[tipo]) < 5:
            filtrados = chunk[chunk['titleType'] == tipo]
            # Tomamos solo los que faltan hasta llegar a 5
            resultados[tipo].extend(filtrados.head(5 - len(resultados[tipo])).to_dict('records'))
    
    # Verificar si ya tenemos 5 de cada tipo
    if all(len(registros) >= 5 for registros in resultados.values()):
        break

# Mostrar resultados con tabla alineada
for tipo in tipos_buscados:
    print(f"\n=== {tipo.upper()} ===")
    header = f"{'Título Original':<35} | {'Año Inicio':<10} | {'Duración':<8} | Géneros"
    print(header)
    print("-" * len(header))
    
    for registro in resultados[tipo]:
        titulo = registro['originalTitle'][:35]  # Limitar a 35 caracteres
        anio = registro['startYear']
        duracion = registro['runtimeMinutes']
        generos = registro['genres']
        print(f"{titulo:<35} | {anio:<10} | {duracion:<8} | {generos}")


=== SHORT ===
Título Original                     | Año Inicio | Duración | Géneros
---------------------------------------------------------------------
Carmencita                          | 1894       | 1        | Documentary,Short
Le clown et ses chiens              | 1892       | 5        | Animation,Short
Pauvre Pierrot                      | 1892       | 5        | Animation,Comedy,Romance
Un bon bock                         | 1892       | 12       | Animation,Short
Blacksmith Scene                    | 1893       | 1        | Short

=== TVMOVIE ===
Título Original                     | Año Inicio | Duración | Géneros
---------------------------------------------------------------------
Julius Caesar                       | 1938       | 101      | Drama,History
As You Like It                      | 1946       | \N       | Drama
A Midsummer Night's Dream           | 1946       | 150      | Drama,Fantasy
Hamlet Part 1                       | 1947       | 88       | Drama
The Merch

In [6]:
# Tipos de películas que queremos mantener
tipos_peliculas = ['movie', 'tvMovie']

# Lista para ir acumulando los chunks filtrados
peliculas_filtradas = []

In [7]:
# Leer y filtrar por chunks
titulos_iterable = leer_tsv_chunks(RUTA_TITULO)
for chunk in titulos_iterable:
    # Filtrar solo los tipos que queremos
    chunk_filtrado = chunk[chunk['titleType'].isin(tipos_peliculas)]
    peliculas_filtradas.append(chunk_filtrado)

# Concatenar todos los chunks filtrados en un único DataFrame
df_peliculas = pd.concat(peliculas_filtradas, ignore_index=True)

# Mostrar información general
print(f"Total de registros filtrados: {len(df_peliculas)}")
print("\nDistribución por tipo:")
print(df_peliculas['titleType'].value_counts())

print("\nPrimeras 5 películas de cada tipo:")
for tipo in tipos_peliculas:
    print(f"\n=== {tipo.upper()} ===")
    print(df_peliculas[df_peliculas['titleType'] == tipo].head()[['primaryTitle', 'startYear', 'runtimeMinutes', 'genres']])

Total de registros filtrados: 876594

Distribución por tipo:
titleType
movie      724491
tvMovie    152103
Name: count, dtype: int64

Primeras 5 películas de cada tipo:

=== MOVIE ===
                    primaryTitle startYear runtimeMinutes  \
0                     Miss Jerry      1894             45   
1  The Corbett-Fitzsimmons Fight      1897            100   
2                       Bohemios      1905            100   
3    The Story of the Kelly Gang      1906             70   
4               The Prodigal Son      1907             90   

                       genres  
0                     Romance  
1      Documentary,News,Sport  
2                          \N  
3  Action,Adventure,Biography  
4                       Drama  

=== TVMOVIE ===
                    primaryTitle startYear runtimeMinutes         genres
20302              Julius Caesar      1938            101  Drama,History
26711             As You Like It      1946             \N          Drama
27062  A Midsummer Ni

In [8]:
# Función para contar valores nulos y '\N'
def contar_nulos(df, columna):
    nulos_N = df[df[columna] == '\\N'].shape[0]  # Contar '\N'
    nulos_nan = df[columna].isna().sum()         # Contar NaN
    total = nulos_N + nulos_nan
    porcentaje = (total / len(df)) * 100
    return {
        'Valores \\N': nulos_N,
        'Valores NaN': nulos_nan,
        'Total Nulos': total,
        'Porcentaje': f"{porcentaje:.2f}%"
    }

In [9]:
# Analizar cada columna
print("Análisis de valores nulos por columna:")
print("-" * 50)

for columna in df_peliculas.columns:
    resultados = contar_nulos(df_peliculas, columna)
    print(f"\nColumna: {columna}")
    print(f"- Valores '\\N': {resultados['Valores \\N']:,}")
    print(f"- Valores NaN: {resultados['Valores NaN']:,}")
    print(f"- Total nulos: {resultados['Total Nulos']:,}")
    print(f"- Porcentaje: {resultados['Porcentaje']}")

# Mostrar también cuántos registros tienen al menos un valor nulo
registros_con_nulos = df_peliculas[df_peliculas.apply(lambda x: (x == '\\N').any() or x.isna().any(), axis=1)]
print(f"\nRegistros con al menos un valor nulo: {len(registros_con_nulos):,} ({(len(registros_con_nulos)/len(df_peliculas)*100):.2f}% del total)")

Análisis de valores nulos por columna:
--------------------------------------------------

Columna: tconst
- Valores '\N': 0
- Valores NaN: 0
- Total nulos: 0
- Porcentaje: 0.00%

Columna: titleType
- Valores '\N': 0
- Valores NaN: 0
- Total nulos: 0
- Porcentaje: 0.00%

Columna: primaryTitle
- Valores '\N': 0
- Valores NaN: 3
- Total nulos: 3
- Porcentaje: 0.00%

Columna: originalTitle
- Valores '\N': 0
- Valores NaN: 3
- Total nulos: 3
- Porcentaje: 0.00%

Columna: isAdult
- Valores '\N': 0
- Valores NaN: 0
- Total nulos: 0
- Porcentaje: 0.00%

Columna: startYear
- Valores '\N': 111,390
- Valores NaN: 0
- Total nulos: 111,390
- Porcentaje: 12.71%

Columna: endYear
- Valores '\N': 876,594
- Valores NaN: 0
- Total nulos: 876,594
- Porcentaje: 100.00%

Columna: runtimeMinutes
- Valores '\N': 314,612
- Valores NaN: 0
- Total nulos: 314,612
- Porcentaje: 35.89%

Columna: genres
- Valores '\N': 90,763
- Valores NaN: 0
- Total nulos: 90,763
- Porcentaje: 10.35%

Registros con al menos un va

In [10]:
# Columnas a verificar
columnas_a_filtrar = ['genres', 'primaryTitle', 'originalTitle', 'runtimeMinutes']

# Crear una máscara para filtrar
mascara = True  # Comenzamos con todos los registros
for columna in columnas_a_filtrar:
    # Filtrar tanto '\N' como NaN
    mascara = mascara & (df_peliculas[columna] != '\\N') & (~df_peliculas[columna].isna())

# Aplicar el filtro
df_peliculas_limpio = df_peliculas[mascara]

# Mostrar información sobre los registros filtrados
registros_eliminados = len(df_peliculas) - len(df_peliculas_limpio)
print(f"Registros originales: {len(df_peliculas):,}")
print(f"Registros después de eliminar nulos: {len(df_peliculas_limpio):,}")
print(f"Registros eliminados: {registros_eliminados:,} ({(registros_eliminados/len(df_peliculas)*100):.2f}%)")

print("\nDistribución por tipo después de la limpieza:")
print(df_peliculas_limpio['titleType'].value_counts())

print("\nMuestra de 5 registros limpios:")
df_peliculas_limpio[['primaryTitle', 'titleType', 'startYear', 'runtimeMinutes', 'genres']].head()

Registros originales: 876,594
Registros después de eliminar nulos: 530,367
Registros eliminados: 346,227 (39.50%)

Distribución por tipo después de la limpieza:
titleType
movie      431138
tvMovie     99229
Name: count, dtype: int64

Muestra de 5 registros limpios:


Unnamed: 0,primaryTitle,titleType,startYear,runtimeMinutes,genres
0,Miss Jerry,movie,1894,45,Romance
1,The Corbett-Fitzsimmons Fight,movie,1897,100,"Documentary,News,Sport"
3,The Story of the Kelly Gang,movie,1906,70,"Action,Adventure,Biography"
4,The Prodigal Son,movie,1907,90,Drama
8,The Fairylogue and Radio-Plays,movie,1908,120,"Adventure,Fantasy"


In [11]:
# Filtrar películas del 2019
df_peliculas_filtrado = df_peliculas_limpio[df_peliculas_limpio['startYear'] == '2019']

print(f"Total de películas del 2019: {len(df_peliculas_filtrado):,}")
print("\nDistribución por tipo:")
print(df_peliculas_filtrado['titleType'].value_counts())

print("\nEstadísticas de duración (en minutos):")
print(df_peliculas_filtrado['runtimeMinutes'].astype(float).describe())

print("\nMuestra de películas del 2019:")
df_peliculas_filtrado.head(10)


Total de películas del 2019: 16,833

Distribución por tipo:
titleType
movie      14637
tvMovie     2196
Name: count, dtype: int64

Estadísticas de duración (en minutos):
count    16833.000000
mean        93.571021
std        514.616846
min          1.000000
25%         70.000000
50%         88.000000
75%        101.000000
max      59460.000000
Name: runtimeMinutes, dtype: float64

Muestra de películas del 2019:


Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
87763,tt0116991,movie,Mariette in Ecstasy,Mariette in Ecstasy,0,2019,\N,101,Drama
217353,tt0385887,movie,Motherless Brooklyn,Motherless Brooklyn,0,2019,\N,144,"Crime,Drama,Mystery"
233764,tt0437086,movie,Alita: Battle Angel,Alita: Battle Angel,0,2019,\N,122,"Action,Adventure,Sci-Fi"
235270,tt0441881,movie,Danger Close,Danger Close: The Battle of Long Tan,0,2019,\N,118,"Action,Drama,War"
237327,tt0448115,movie,Shazam!,Shazam!,0,2019,\N,132,"Action,Adventure,Comedy"
254146,tt0783640,movie,The Last Full Measure,The Last Full Measure,0,2019,\N,116,"Drama,War"
254769,tt0791072,movie,Enemigo,Enemigo,0,2019,\N,93,Drama
255734,tt0800325,movie,The Dirt,The Dirt,0,2019,\N,107,"Biography,Comedy,Drama"
256662,tt0810836,movie,Dirt Music,Dirt Music,0,2019,\N,105,"Crime,Drama,Romance"
259568,tt0837563,movie,Pet Sematary,Pet Sematary,0,2019,\N,100,"Horror,Mystery,Thriller"


In [12]:
def guardar_csv(df, nombre_archivo):
    os.makedirs(DIR_DATA_PROCESADA, exist_ok=True)
    df.to_csv(os.path.join(DIR_DATA_PROCESADA, nombre_archivo), index=False, encoding="utf-8")
    print(f"Archivo guardado: {nombre_archivo}")

In [13]:
guardar_csv(df_peliculas_filtrado, "peliculas_2019.csv")

Archivo guardado: peliculas_2019.csv
