In [42]:
import pandas as pd



In [43]:
def load_file(file_path):
    "Carga un archivo en un DataFrame, soportando formatos csv, xlsx, html y json."
    if file_path.endswith('.csv'):
        return pd.read_csv(file_path)
    elif file_path.endswith('.xlsx'):
        return pd.read_excel(file_path)
    elif file_path.endswith('.html'):
        return pd.read_html(file_path)[0]
    elif file_path.endswith('.json'):
        return pd.read_json(file_path)
    else:
        raise ValueError("Formato de archivo no soportado")

In [44]:
def fill_na_ffill(df):
    "Sustituye valores nulos con el método forward fill (ffill)."
    return df.ffill()

In [45]:
def fill_na_bfill(df):
    "Sustituye valores nulos con el método backward fill (bfill)."
    return df.bfill()

In [46]:
def fill_na_with_string(df, value="SIN DATOS"):
    "Sustituye valores nulos con un string concreto."
    return df.fillna(value)


In [47]:
def fill_na_with_mean(df):
    "Sustituye valores nulos con el promedio de la columna."
    for col in df.select_dtypes(include=['number']).columns:
        df[col] = df[col].fillna(df[col].mean())
    return df

In [48]:
def fill_na_with_median(df):
    "Sustituye valores nulos con la mediana de la columna."
    for col in df.select_dtypes(include=['number']).columns:
        df[col] = df[col].fillna(df[col].median())
    return df

In [49]:
def fill_na_with_constant(df, constant_value=0):
    "Sustituye valores nulos con una constante específica."
    return df.fillna(constant_value)

In [50]:
def check_null_values(df):
    "Identifica valores nulos por columna y en el dataframe."
    nulls_per_column = df.isnull().sum()
    total_nulls = df.isnull().sum().sum()
    return {'nulls_per_column': nulls_per_column, 'total_nulls': total_nulls}

In [51]:
# Prueba con el archivo proporcionado
file_path = 'sandiego_estadosunidos.csv'
df = load_file(file_path)

In [52]:
# Aplicamos todas las funciones para probarlas
df = fill_na_ffill(df)
df = fill_na_bfill(df)
df = fill_na_with_string(df)
df = fill_na_with_mean(df)
df = fill_na_with_median(df)
df = fill_na_with_constant(df, constant_value=0)

null_info = check_null_values(df)



In [None]:
# Mostramos los resultados
print("Valores nulos por columna:\n", null_info['nulls_per_column'])
print("Total de valores nulos:", null_info['total_nulls'])