# Análisis de datos de plataformas streaming

### Mayo 2025
### by Francis

## Carga de datos

In [1]:
import pandas as pd

def read_csv(ruta_csv):

    """
    Lee un archivo CSV y devuelve un Dataframe de pandas.
    
    Args:
        ruta_csv (str): Ruta al archivo CSV.
        
    Returns:
        pandas.DataFrame: Dataframe con los datos del archivo CSV.
    """
    return pd.read_csv(ruta_csv)

In [13]:
df_netflix = read_csv(r"C:\Users\FRANCIS\Documents\Proyecto_Streaming\data\netflix_titles.csv")


### Convertir columnas con fechas a datetime 

In [21]:
def convertir_fecha(df, columna):
    
    """
    Convierte una columna con fechas a datetime en un DataFrame.
    
    Args:
        df (pandas.DataFrame) : DataFrame que contiene la columna con fechas.
        column (str) : Nombre de la columna con fechas a convertir.
        
    Returns:
        pandas.DataFrame : DataFrame con la columna convertida a tipo datetime.
    """
    df[columna] = pd.to_datetime(df[columna], errors='coerce')
    return df

### Eliminar filas con valores nulos

In [None]:
import pandas as pd

def filas_null(df, columna, umbral=0.05):
    """
    Elimina filas con valores nulos en un DataFrame si son pocas o si la columna no es esencial.
    
    Args:
        df (pandas.DataFrame) : DataFrame que contiene valores nulos.
        columna (str) : Nombre de la columna con valores nulos.
        umbral (float) : Proporción máxima de valores nulos permitida antes de eliminar las filas (por defecto 5%).
        
    Returns:
        pandas.DataFrame : DataFrame con valores nulos eliminados si cumplen la condición.
    """
    # Calcular la proporción de valores nulos en la columna
    proporción_nulos = df[columna].isnull().sum() / len(df)

    # Si el porcentaje de valores nulos es menor que el umbral, eliminamos las filas
    if proporción_nulos < umbral:
        df_limpio = df.dropna(subset=[columna])
    else:
        # Si la columna es importante y tiene muchos nulos, se puede imputar con la mediana/moda
        if df[columna].dtype == 'object':
            df_limpio = df.fillna({columna: df[columna].mode()[0]})
        else:
            df_limpio = df.fillna({columna: df[columna].median()})
    
    return df_limpio


## Limpieza del dataframe Netflix_titles.csv

### Carga del dataframe

In [None]:
df_netflix = read_csv(r"C:\Users\FRANCIS\Documents\Proyecto_Streaming\data\netflix_titles.csv")

### Inspección del dataframe

In [None]:
df_netflix.head()

In [None]:
df_netflix.info()

### Aplicación de las funciones de limpieza

In [22]:
df_netflix = convertir_fecha(df_netflix, 'date_added')

In [None]:
df_netflix['year_added'] = df_netflix['date_added'].dt.year
df_netflix['month_added'] = df_netflix['date_added'].dt.month


In [25]:
print(df_netflix['year_added'])

0       2021.0
1       2021.0
2       2021.0
3       2021.0
4       2021.0
         ...  
8802    2019.0
8803    2019.0
8804    2019.0
8805    2020.0
8806    2019.0
Name: year_added, Length: 8807, dtype: float64
