# Cargar base de datos

In [2]:
# Importar Librerías
import os
import pandas as pd
import numpy as np
from scipy import stats

# Obtener la ruta del directorio actual
current_directory = os.path.dirname(_file) if "file_" in locals() else os.getcwd()

# Construir la ruta al archivo xlsx
file_path = os.path.join(current_directory, 'base.xlsx')

# Cargar el archivo xlsx en un DataFrame
df = pd.read_excel(file_path)

# Primeras cinco filas

In [4]:
# Se imprimien las primeras cinco filas de la base de datos

df.head(5)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


# Resumen variables cuantitativas

In [6]:
def resumen_estadistico(variables, base):
    '''
    Genera un resumen estadístico con medidas descriptivas para variables numéricas seleccionadas.

    Parameters
    ----------
    variables : list of str
        Lista con los nombres de las columnas numéricas para calcular el resumen estadístico.
    base : pandas.DataFrame
        Base de datos en formato DataFrame

    Returns
    -------
    resumen : pandas.DataFrame
        DataFrame con las estadísticas: mínimo, cuartil 1 (Q1), mediana, cuartil 3 (Q3),
        máximo y promedio para cada variable.
    '''
    
    # Crear tabla con índice de las estadísticas
    resumen = pd.DataFrame(index=[
        'Mínimo', 'Q1', 'Mediana', 'Q3', 'Máximo', 'Promedio'
    ])

    # Calcular las estadísticas para cada variable
    for var in variables:
        resumen[var] = [
            base[var].min(),
            base[var].quantile(0.25),
            base[var].median(),
            base[var].quantile(0.75),
            base[var].max(),
            base[var].mean()
        ]

    # Transponer y redondear la tabla para una mejor visualización
    resumen = resumen.T
    resumen = resumen.round(2)

    return resumen

In [7]:
# Seleccionar las variable cuantitativas 
variables = [
    'age',                
    'balance',
    'duration',
    'campaign',
    'pdays',
    'previous'
]

resumen = resumen_estadistico(variables, df)
print(resumen)

          Mínimo     Q1  Mediana      Q3    Máximo  Promedio
age         18.0   33.0     39.0    48.0      95.0     40.94
balance  -8019.0   72.0    448.0  1428.0  102127.0   1362.27
duration     0.0  103.0    180.0   319.0    4918.0    258.16
campaign     1.0    1.0      2.0     3.0      63.0      2.76
pdays       -1.0   -1.0     -1.0    -1.0     871.0     40.20
previous     0.0    0.0      0.0     0.0     275.0      0.58
