**Fase 1: Exploración y Limpieza**

. Exploración Inicial:

- Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.

- Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.
  
- Une los dos conjuntos de datos de la forma más eficiente.

In [60]:
# 1. Instalación de bibliotecas: 


import pandas as pd 
import numpy as np 
from IPython.display import display #He añadido esta para poder ver el dataframe dentro de la función

In [62]:
# 2. Exploración inicial de los datos de Customer Flight Activity

# Primero hago el proceso de exploración y análisis de la primera base de datos

def explorar_dataset(filepath, index_col=0, n=5):
    """
    Carga un dataset y realiza una exploración inicial.
    
    Parámetros:
    - filepath: Ruta del archivo CSV a cargar.
    - index_col: Columna que se usará como índice (por defecto 0).
    - n: Número de filas a mostrar para las funciones head, tail y sample.
    """
    # Leer el dataset
    df = pd.read_csv('Customer_Flight_Activity.csv', index_col=index_col)
    
    # Eliminar la columna del índice (si es necesario)
    if isinstance(index_col, int):
        print(f"Usando la columna {index_col} como índice.")
    elif isinstance(index_col, str):
        print(f"Usando la columna '{index_col}' como índice.")
    
    # Tamaño y estructura del DataFrame
    print("\n--- Información general del DataFrame ---")
    df.info()  # Información general
    print("\nPrimeras filas del DataFrame:")
    display(df.head(n))  # Mostrar las primeras n filas con display
    print("\nFilas aleatorias del DataFrame:")
    display(df.sample(n))  # Mostrar n filas aleatorias con display
    print(f"\nTamaño del dataset: {df.size} elementos")
    print(f"Forma del dataset: {df.shape[0]} filas, {df.shape[1]} columnas")

    # Exploración de columnas
    print("\n--- Información sobre las columnas ---")
    pd.set_option('display.max_columns', None)  # Ver todas las columnas
    print(f"Columnas del dataset: {df.columns.tolist()}")
    print("\nConteo de valores no nulos por columna:")
    print(df.count())  # Conteo de valores no nulos por columna

    # Retornar el DataFrame para posibles análisis adicionales
    return df




In [63]:
ruta = 'Customer_Flight_Activity.csv'
dataset = explorar_dataset(ruta, index_col=0, n=5)

Usando la columna 0 como índice.

--- Información general del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
Index: 405624 entries, 100018 to 999986
Data columns (total 9 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Year                         405624 non-null  int64  
 1   Month                        405624 non-null  int64  
 2   Flights Booked               405624 non-null  int64  
 3   Flights with Companions      405624 non-null  int64  
 4   Total Flights                405624 non-null  int64  
 5   Distance                     405624 non-null  int64  
 6   Points Accumulated           405624 non-null  float64
 7   Points Redeemed              405624 non-null  int64  
 8   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(8)
memory usage: 30.9 MB

Primeras filas del DataFrame:


Unnamed: 0_level_0,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
100018,2017,1,3,0,3,1521,152.0,0,0
100102,2017,1,10,4,14,2030,203.0,0,0
100140,2017,1,6,0,6,1200,120.0,0,0
100214,2017,1,0,0,0,0,0.0,0,0
100272,2017,1,0,0,0,0,0.0,0,0



Filas aleatorias del DataFrame:


Unnamed: 0_level_0,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
737474,2018,1,3,0,3,2202,220.0,0,0
477362,2017,4,6,0,6,630,63.0,0,0
201574,2017,2,0,0,0,0,0.0,0,0
803747,2018,9,14,2,16,2928,292.0,0,0
323448,2017,6,8,4,12,4932,493.0,0,0



Tamaño del dataset: 3650616 elementos
Forma del dataset: 405624 filas, 9 columnas

--- Información sobre las columnas ---
Columnas del dataset: ['Year', 'Month', 'Flights Booked', 'Flights with Companions', 'Total Flights', 'Distance', 'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed']

Conteo de valores no nulos por columna:
Year                           405624
Month                          405624
Flights Booked                 405624
Flights with Companions        405624
Total Flights                  405624
Distance                       405624
Points Accumulated             405624
Points Redeemed                405624
Dollar Cost Points Redeemed    405624
dtype: int64


In [64]:
def estandarizar_columnas(df):
    """Estandariza los nombres de las columnas del DataFrame."""
    df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_").str.replace(r'[^\w\s]', '', regex=True)
    print(f"Nombres de columnas estandarizados: {df.columns.tolist()}")
    return df

estandarizar_columnas(df)

Nombres de columnas estandarizados: ['year', 'month', 'flights_booked', 'flights_with_companions', 'total_flights', 'distance', 'points_accumulated', 'points_redeemed', 'dollar_cost_points_redeemed']


Unnamed: 0_level_0,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
100018,2017,1,3,0,3,1521,152.0,0,0
100102,2017,1,10,4,14,2030,203.0,0,0
100140,2017,1,6,0,6,1200,120.0,0,0
100214,2017,1,0,0,0,0,0.0,0,0
100272,2017,1,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...
999902,2018,12,0,0,0,0,0.0,0,0
999911,2018,12,0,0,0,0,0.0,0,0
999940,2018,12,3,0,3,1233,123.0,0,0
999982,2018,12,0,0,0,0,0.0,0,0


In [76]:
def valores_unicos_por_columna(df):
    """Calcula y muestra la cantidad de valores únicos por columna."""
    print("\n--- Valores únicos por columna ---")
    valores_unicos = {col: len(df[col].unique()) for col in df.columns}
    valores_unicos_df = pd.DataFrame(
        list(valores_unicos.items()),
        columns=['Columna', 'Valores únicos']
    )
    display(valores_unicos_df)
    return valores_unicos_df


valores_unicos = valores_unicos_por_columna(df)


--- Valores únicos por columna ---


Unnamed: 0,Columna,Valores únicos
0,year,2
1,month,12
2,flights_booked,22
3,flights_with_companions,12
4,total_flights,33
5,distance,4746
6,points_accumulated,1549
7,points_redeemed,587
8,dollar_cost_points_redeemed,49


In [66]:
def procesar_columnas_numericas(df, columnas_numericas=None):
    """Procesa las columnas numéricas del DataFrame y muestra estadísticas como un DataFrame."""
    # Si no se especifican columnas, detectarlas automáticamente
    if columnas_numericas is None:
        columnas_numericas = df.select_dtypes(include='number').columns.tolist()
        print(f"\nColumnas numéricas detectadas automáticamente: {columnas_numericas}")
    
    # Crear un diccionario para almacenar las estadísticas de cada columna
    estadisticas = {}
    
    # Procesar solo las columnas especificadas
    for columna in columnas_numericas:
        if columna in df.columns:
            # Calcular estadísticas para la columna
            stats = df[columna].describe()
            estadisticas[columna] = stats
            
            # Filtrar valores negativos
            if (df[columna] < 0).any():
                print(f"\nSe encontraron valores negativos en '{columna}', filtrando...")
                df = df[df[columna] >= 0]
        else:
            print(f"\nLa columna '{columna}' no existe en el DataFrame.")
    
    # Convertir el diccionario de estadísticas en un DataFrame
    df_estadisticas = pd.DataFrame(estadisticas)
    print("\nEstadísticas descriptivas:")
    print(df_estadisticas.T)  # Transponer para que las columnas sean filas
    
    return df

# Especificar las columnas que quieres procesar
columnas_a_procesar = [
    'flights_booked', 
    'flights_with_companions', 
    'total_flights', 
    'distance', 
    'points_accumulated', 
    'points_redeemed', 
    'dollar_cost_points_redeemed'
]

# Llamar a la función con las columnas deseadas
df_procesado = procesar_columnas_numericas(df, columnas_numericas=columnas_a_procesar)



Estadísticas descriptivas:
                                count         mean          std  min  25%  \
flights_booked               405624.0     4.115052     5.225518  0.0  0.0   
flights_with_companions      405624.0     1.031805     2.076869  0.0  0.0   
total_flights                405624.0     5.146858     6.521227  0.0  0.0   
distance                     405624.0  1208.880059  1433.155320  0.0  0.0   
points_accumulated           405624.0   123.692721   146.599831  0.0  0.0   
points_redeemed              405624.0    30.696872   125.486049  0.0  0.0   
dollar_cost_points_redeemed  405624.0     2.484503    10.150038  0.0  0.0   

                               50%     75%     max  
flights_booked                 1.0     8.0    21.0  
flights_with_companions        0.0     1.0    11.0  
total_flights                  1.0    10.0    32.0  
distance                     488.0  2336.0  6293.0  
points_accumulated            50.0   239.0   676.5  
points_redeemed                0.0   

In [78]:
# 3. Exploración inicial de los datos de Customer Loyalty History

def explorar_dataset(filepath, index_col=0, n=5):
    """
    Carga un dataset y realiza una exploración inicial.
    
    Parámetros:
    - filepath: Ruta del archivo CSV a cargar.
    - index_col: Columna que se usará como índice (por defecto 0).
    - n: Número de filas a mostrar para las funciones head, tail y sample.
    """
    # Leer el dataset
    df_2 = pd.read_csv('Customer_Loyalty_History.csv', index_col=index_col)
    
    # Eliminar la columna del índice (si es necesario)
    if isinstance(index_col, int):
        print(f"Usando la columna {index_col} como índice.")
    elif isinstance(index_col, str):
        print(f"Usando la columna '{index_col}' como índice.")
    
    # Tamaño y estructura del DataFrame
    print("\n--- Información general del DataFrame ---")
    df_2.info()  # Información general
    print("\nPrimeras filas del DataFrame:")
    display(df_2.head(n))  # Mostrar las primeras n filas con display
    print("\nFilas aleatorias del DataFrame:")
    display(df_2.sample(n))  # Mostrar n filas aleatorias con display
    print(f"\nTamaño del dataset: {df_2.size} elementos")
    print(f"Forma del dataset: {df_2.shape[0]} filas, {df_2.shape[1]} columnas")

    # Exploración de columnas
    print("\n--- Información sobre las columnas ---")
    pd.set_option('display.max_columns', None)  # Ver todas las columnas
    print(f"Columnas del dataset: {df_2.columns.tolist()}")
    print("\nConteo de valores no nulos por columna:")
    print(df_2.count())  # Conteo de valores no nulos por columna

    # Retornar el DataFrame para posibles análisis adicionales
    return df_2

# Uso de la función
ruta_2 = 'Customer_Loyalty_History.csv'
dataset_2 = explorar_dataset(ruta, index_col=0, n=5)

Usando la columna 0 como índice.

--- Información general del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
Index: 16737 entries, 480934 to 652627
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Country             16737 non-null  object 
 1   Province            16737 non-null  object 
 2   City                16737 non-null  object 
 3   Postal Code         16737 non-null  object 
 4   Gender              16737 non-null  object 
 5   Education           16737 non-null  object 
 6   Salary              12499 non-null  float64
 7   Marital Status      16737 non-null  object 
 8   Loyalty Card        16737 non-null  object 
 9   CLV                 16737 non-null  float64
 10  Enrollment Type     16737 non-null  object 
 11  Enrollment Year     16737 non-null  int64  
 12  Enrollment Month    16737 non-null  int64  
 13  Cancellation Year   2067 non-null   float64
 14  Cancellation Month  2067 

Unnamed: 0_level_0,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,



Filas aleatorias del DataFrame:


Unnamed: 0_level_0,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
828076,Canada,Quebec,Montreal,H4G 3T4,Female,High School or Below,42799.0,Single,Star,2624.1,Standard,2015,7,,
898495,Canada,Ontario,Toronto,P1W 1K4,Female,Bachelor,49937.0,Married,Nova,4196.43,Standard,2013,7,,
840667,Canada,Ontario,Toronto,M2M 7K8,Female,Bachelor,47970.0,Married,Nova,5207.64,Standard,2015,3,2018.0,11.0
148487,Canada,British Columbia,West Vancouver,V6V 8Z3,Male,Master,106899.0,Married,Aurora,11981.98,Standard,2015,8,,
140392,Canada,British Columbia,Vancouver,V5R 1W3,Female,Bachelor,96814.0,Married,Star,3963.39,Standard,2013,7,,



Tamaño del dataset: 251055 elementos
Forma del dataset: 16737 filas, 15 columnas

--- Información sobre las columnas ---
Columnas del dataset: ['Country', 'Province', 'City', 'Postal Code', 'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card', 'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month', 'Cancellation Year', 'Cancellation Month']

Conteo de valores no nulos por columna:
Country               16737
Province              16737
City                  16737
Postal Code           16737
Gender                16737
Education             16737
Salary                12499
Marital Status        16737
Loyalty Card          16737
CLV                   16737
Enrollment Type       16737
Enrollment Year       16737
Enrollment Month      16737
Cancellation Year      2067
Cancellation Month     2067
dtype: int64


In [77]:
def valores_unicos_por_columna(df_2):
    """Calcula y muestra la cantidad de valores únicos por columna."""
    print("\n--- Valores únicos por columna ---")
    valores_unicos = {col: len(df_2[col].unique()) for col in df_2.columns}
    valores_unicos_df_2 = pd.DataFrame(
        list(valores_unicos.items()),
        columns=['Columna', 'Valores únicos']
    )
    display(valores_unicos_df_2)
    return valores_unicos_df_2


valores_unicos = valores_unicos_por_columna(df_2)


--- Valores únicos por columna ---


Unnamed: 0,Columna,Valores únicos
0,country,1
1,province,11
2,city,29
3,postal_code,55
4,gender,2
5,education,5
6,salary,5891
7,marital_status,3
8,loyalty_card,3
9,clv,7984


In [69]:
df_2 = pd.read_csv('Customer_Loyalty_History.csv', index_col=0)

def estandarizar_columnas(df_2):
    """Estandariza los nombres de las columnas del DataFrame."""
    df_2.columns = df_2.columns.str.strip().str.lower().str.replace(" ", "_").str.replace(r'[^\w\s]', '', regex=True)
    print(f"Nombres de columnas estandarizados: {df_2.columns.tolist()}")
    return df_2


estandarizar_columnas(df_2)

Nombres de columnas estandarizados: ['country', 'province', 'city', 'postal_code', 'gender', 'education', 'salary', 'marital_status', 'loyalty_card', 'clv', 'enrollment_type', 'enrollment_year', 'enrollment_month', 'cancellation_year', 'cancellation_month']


Unnamed: 0_level_0,country,province,city,postal_code,gender,education,salary,marital_status,loyalty_card,clv,enrollment_type,enrollment_year,enrollment_month,cancellation_year,cancellation_month
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
823768,Canada,British Columbia,Vancouver,V6E 3Z3,Female,College,,Married,Star,61850.19,Standard,2012,12,,
680886,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,89210.0,Married,Star,67907.27,Standard,2014,9,,
776187,Canada,British Columbia,Vancouver,V5R 1W3,Male,College,,Single,Star,74228.52,Standard,2014,3,,
906428,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,-57297.0,Married,Star,10018.66,2018 Promotion,2018,4,,


In [72]:
def procesar_columnas_numericas(df_2, columnas_numericas=None):
    """Procesa las columnas numéricas del DataFrame y muestra estadísticas con describe()."""
    # Si no se especifican columnas, detectarlas automáticamente
    if columnas_numericas is None:
        columnas_numericas = df_2.select_dtypes(include='number').columns.tolist()
        print(f"\nColumnas numéricas detectadas automáticamente: {columnas_numericas}")
    
    # Procesar solo las columnas especificadas
    for columna in columnas_numericas:
        if columna in df_2.columns:
            print(f"\nEstadísticas de la columna '{columna}':")
            print(df_2[columna].describe())
            
            # Filtrar valores negativos
            if (df_2[columna] < 0).any():
                print(f"\nSe encontraron valores negativos en '{columna}', filtrando...")
                df = df_2[df_2[columna] >= 0]
        else:
            print(f"\nLa columna '{columna}' no existe en el DataFrame.")
    
    return df

# Especificar las columnas que quieres procesar
columnas_a_procesar = [ 'salary', 'clv' ]

# Llamar a la función con las columnas deseadas
df_procesado2 = procesar_columnas_numericas(df_2, columnas_numericas=columnas_a_procesar)


Estadísticas de la columna 'salary':
count     12499.000000
mean      79245.609409
std       35008.297285
min      -58486.000000
25%       59246.500000
50%       73455.000000
75%       88517.500000
max      407228.000000
Name: salary, dtype: float64

Se encontraron valores negativos en 'salary', filtrando...

Estadísticas de la columna 'clv':
count    16737.000000
mean      7988.896536
std       6860.982280
min       1898.010000
25%       3980.840000
50%       5780.180000
75%       8940.580000
max      83325.380000
Name: clv, dtype: float64


In [87]:
def estadisticas_numericas(df_2, columnas=None):
 
    # Seleccionar columnas numéricas especificadas o todas si no se indican
    if columnas is not None:
        columnas_existentes = [col for col in columnas if col in df_2.columns]
        if not columnas_existentes:
            raise ValueError("Ninguna de las columnas especificadas existe en el DataFrame.")
        df_2 = df_2[columnas_existentes]
        print(f"Analizando las siguientes columnas numéricas: {columnas_existentes}")
    else:
        print("Analizando todas las columnas numéricas del DataFrame.")

    # Calcular estadísticas descriptivas
    estadisticas = df_2.select_dtypes(include='number').describe()
    estadisticas_transpuestas = estadisticas.T

    print("\n--- Estadísticas descriptivas de variables numéricas ---")
    display(estadisticas)

    print("\n--- Estadísticas descriptivas transpuestas (numéricas) ---")
    display(estadisticas_transpuestas)

    return {
        'estadisticas': estadisticas,
        'estadisticas_transpuestas': estadisticas_transpuestas
    }

# Ejemplo de uso
estadisticas_num = estadisticas_numericas(df_2, columnas=['salary', 'clv'])

Analizando las siguientes columnas numéricas: ['salary', 'clv']

--- Estadísticas descriptivas de variables numéricas ---


Unnamed: 0,salary,clv
count,12499.0,16737.0
mean,79245.609409,7988.896536
std,35008.297285,6860.98228
min,-58486.0,1898.01
25%,59246.5,3980.84
50%,73455.0,5780.18
75%,88517.5,8940.58
max,407228.0,83325.38



--- Estadísticas descriptivas transpuestas (numéricas) ---


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
clv,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38


In [91]:
def frecuencias_categoricas(df_2):
    """Calcula y muestra la frecuencia de valores únicos en columnas categóricas."""
    print("\n--- Frecuencia de valores únicos en columnas categóricas ---")
    frecuencias_categoricas = []
    for col in df_2.select_dtypes(include='object').columns:
        frecuencias = df_2[col].value_counts().reset_index()
        frecuencias.columns = ['Valor', 'Frecuencia']
        frecuencias['Columna'] = col
        frecuencias_categoricas.append(frecuencias)

    if frecuencias_categoricas:
        frecuencias_categoricas_df = pd.concat(frecuencias_categoricas, ignore_index=True)
        display(frecuencias_categoricas_df)
        return frecuencias_categoricas_df
    else:
        print("No se encontraron columnas categóricas.")
        return None
    
frecuencias = frecuencias_categoricas(df_2)


--- Frecuencia de valores únicos en columnas categóricas ---


Unnamed: 0,Valor,Frecuencia,Columna
0,Canada,16737,country
1,Ontario,5404,province
2,British Columbia,4409,province
3,Quebec,3300,province
4,Alberta,969,province
...,...,...,...
106,Star,7637,loyalty_card
107,Nova,5671,loyalty_card
108,Aurora,3429,loyalty_card
109,Standard,15766,enrollment_type


In [94]:
def estadisticas_descriptivas(df_2):
   
    print("\n--- Estadísticas descriptivas de variables categóricas ---")
    estadisticas_categoricas = df_2.describe(include=[object])
    display(estadisticas_categoricas)

    return {'estadisticas_categoricas': estadisticas_categoricas }


estadisticas = estadisticas_descriptivas(df_2)



--- Estadísticas descriptivas de variables categóricas ---


Unnamed: 0,country,province,city,postal_code,gender,education,marital_status,loyalty_card,enrollment_type
count,16737,16737,16737,16737,16737,16737,16737,16737,16737
unique,1,11,29,55,2,5,3,3,2
top,Canada,Ontario,Toronto,V6E 3D9,Female,Bachelor,Married,Star,Standard
freq,16737,5404,3351,911,8410,10475,9735,7637,15766
