# Análisis descriptivo univariado

## Importar librerias

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns

colors = ['#1D1B1D', '#3B393B', '#605A39', '#7A6E45', '#9F8A6A', '#C6A078', '#B65022', '#D47138', '#F2E3C6', '#F5E1B0', '#F4F4F4', '#E0E0E0', '#2F2B2F', '#D9C6AD', '#987E5A']
sns.set_palette(sns.color_palette(colors))

## Análisis univariado

In [2]:
def univariate_analysis_numeric(df):
    # Obtener solo las columnas numéricas
    numeric_columns = df.select_dtypes(include=['float64', 'int64'])

    # Iterar sobre cada columna numérica
    for column in numeric_columns.columns:
        print(f"Análisis univariado para la columna '{column}':")
        print("----------------------------------------")
        
        # Estadísticas descriptivas
        print("Estadísticas descriptivas:")
        print(numeric_columns[column].describe())
        print()

        # Gráfico de distribución (histograma y KDE)
        plt.figure(figsize=(10, 5))
        plt.subplot(1, 2, 1)
        sns.distplot(df[column], kde=False, bins=30, color=colors[0])
        plt.title(f'Distribución de {column}')

        # Boxplot
        plt.subplot(1, 2, 2)
        sns.boxplot(data=df[column], orient='v', palette=colors)
        plt.title(f'Boxplot de {column}')

        plt.tight_layout()
        plt.show()
        print()

In [3]:
def univariate_analysis_categorical(df):
    # Obtener solo las columnas categóricas
    categorical_columns = df.select_dtypes(include=['object', 'category'])

    # Iterar sobre cada columna categórica
    for column in categorical_columns.columns:
        print(f"Análisis univariado para la columna '{column}':")
        print("----------------------------------------")
        
        # Conteo de frecuencia de cada categoría
        print("Frecuencia de cada categoría:")
        print(categorical_columns[column].value_counts())
        print()

        # Gráfico de barras para las frecuencias de categorías, ordenadas en orden descendente
        plt.figure(figsize=(15, 5))
        sns.countplot(x=column, data=categorical_columns, order=categorical_columns[column].value_counts().index, palette=colors)
        plt.title(f'Frecuencia de categorías en {column}')
        plt.xticks(rotation=90)
        plt.tight_layout()
        plt.show()
        print()

In [4]:
def generar_reporte_nulos(df):
    # Reporte de registros nulos (NaN)
    nulos_nan = df.isnull().sum()
    nulos_nan = nulos_nan[nulos_nan > 0]  # Filtrar solo columnas con nulos

    # Reporte de registros None
    nulos_none = (df == None).sum()
    nulos_none = nulos_none[nulos_none > 0]  # Filtrar solo columnas con nulos

    # Reporte de registros en blanco ("")
    nulos_blank = (df == '').sum()
    nulos_blank = nulos_blank[nulos_blank > 0]  # Filtrar solo columnas con nulos

    # Imprimir reportes
    if not nulos_nan.empty:
        print('Registros nulos por columna (NaN):')
        print(nulos_nan)
        print('---------------------------------')
    
    if not nulos_none.empty:
        print('Registros en "None" por columna:')
        print(nulos_none)
        print('---------------------------------')

    if not nulos_blank.empty:
        print('Registros en "" por columna:')
        print(nulos_blank)
        print('---------------------------------')