In [1]:

# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
def cargar_dataframes(ruta_csv1, ruta_csv2, ruta_csv3):
    """Carga los dataframes desde archivos CSV.

    Args:
    - ruta_flight (str): La ruta al archivo CSV de Customer Flight Activity.
    - ruta_loyalty (str): La ruta al archivo CSV de Customer Loyalty History.

    Returns:
    - df_flight (DataFrame): El dataframe cargado desde el archivo CSV de Customer Flight Activity.
    - df_loyalty (DataFrame): El dataframe cargado desde el archivo CSV de Customer Loyalty History.
    """
    df_clientes = pd.read_csv(ruta_csv1, index_col=0).reset_index()
    df_productos = pd.read_csv(ruta_csv2, index_col=0, on_bad_lines="warn").reset_index()
    df_ventas = pd.read_csv(ruta_csv3, index_col=0).reset_index()
    
    return df_clientes, df_productos, df_ventas


cargar_dataframes("files/clientes.csv","files/productos.csv", "files/ventas.csv")

def union_dataframes(df1, df2, df3):
    """
    Unimos los DataFrames utilizando la función merge de pandas.
    Args:
    - df1 (DataFrame): El primer DataFrame a unir.
    - df2 (DataFrame): El segundo DataFrame a unir.
    - df3 (DataFrame): El tercer DataFrame a unir.

    Returns:
    - df (DataFrame): El DataFrame resultante de la unión de los tres DataFrames.
    """
    # Unir los DataFrames df1 y df2 utilizando merge
    df_temp = pd.merge(df1, df2, left_index=True, right_index=True)

    # Unir el DataFrame temporal con df3
    df = pd.merge(df_temp, df3, left_index=True, right_index=True)

    return df

df_clientes, df_productos, df_ventas = cargar_dataframes("files/clientes.csv","files/productos.csv", "files/ventas.csv")
df = union_dataframes(df_clientes, df_productos, df_ventas)
df.head()

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address,index,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.,723,A1,2023-11-22,2,17.98
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.,498,C3,2023-11-21,1,5.49
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.,121,D4,2023-11-20,3,32.97
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.,885,L12,2023-11-19,1,6.49
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,,347,Q17,2023-11-18,2,7.98


In [3]:
def exploracion_dataframe(dataframe, columna_control):
    """
    Realiza un análisis exploratorio básico de un DataFrame, mostrando información sobre duplicados,
    valores nulos, tipos de datos, valores únicos para columnas categóricas y estadísticas descriptivas
    para columnas categóricas y numéricas, agrupadas por la columna de control.

    Parámetros:
    - dataframe (DataFrame): El DataFrame que se va a explorar.
    - columna_control (str): El nombre de la columna que se utilizará como control para dividir el DataFrame.

    Returns: 
    No devuelve nada directamente, pero imprime en la consola la información exploratoria.
    """
    
    print(f"Los duplicados que tenemos en el conjunto de datos son: {dataframe.duplicated().sum()}")
    print("\n ..................... \n")
    
    
    # generamos un DataFrame para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(dataframe.isnull().sum() / dataframe.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    
    print("\n ..................... \n")
    print(f"Los tipos de las columnas son:")
    display(pd.DataFrame(dataframe.dtypes, columns = ["tipo_dato"]))
    
    
    print("\n ..................... \n")
    print("Los valores que tenemos para las columnas categóricas son: ")
    dataframe_categoricas = dataframe.select_dtypes(include = "O")
    
    for col in dataframe_categoricas.columns:
        print(f"La columna {col.upper()} tiene las siguientes valore únicos:")
        display(pd.DataFrame(dataframe[col].value_counts()).head())    
    
    # como estamos en un problema de A/B testing y lo que realmente nos importa es comparar entre el grupo de control y el de test, los principales estadísticos los vamos a sacar de cada una de las categorías
    
    for categoria in dataframe[columna_control].unique():
        
        dataframe_filtrado = dataframe[dataframe[columna_control] == categoria]
    
        print("\n ..................... \n")
        print(f"Los principales estadísticos de las columnas categóricas para el {categoria.upper()} son: ")
        display(dataframe_filtrado.describe(include = "O").T)
        
        print("\n ..................... \n")
        print(f"Los principales estadísticos de las columnas numéricas para el {categoria.upper()} son: ")
        display(dataframe_filtrado.describe().T)
        
exploracion_dataframe(df, "ID")

Los duplicados que tenemos en el conjunto de datos son: 0

 ..................... 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos
email,9.52381
gender,9.52381
City,19.047619
Country,19.047619
Address,4.761905
Descripción,4.761905



 ..................... 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
id,int64
first_name,object
last_name,object
email,object
gender,object
City,object
Country,object
Address,object
index,object
ID,object



 ..................... 

Los valores que tenemos para las columnas categóricas son: 
La columna FIRST_NAME tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
first_name,Unnamed: 1_level_1
Cheri,1
Viola,1
Mildred,1
Sena,1
Lauren,1


La columna LAST_NAME tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
last_name,Unnamed: 1_level_1
Dunsmore,1
Maggiore,1
Kearns,1
MacElane,1
Grime,1


La columna EMAIL tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
email,Unnamed: 1_level_1
cdunsmore0@instagram.com,1
vmaggioreb@cpanel.net,1
mkearnsj@twitter.com,1
smacelanei@youtu.be,1
lgrimeh@illinois.edu,1


La columna GENDER tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
Male,10
Female,9


La columna CITY tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
City,Unnamed: 1_level_1
Palma De Mallorca,2
Lugo,2
Lleida,2
Malaga,2
Murcia,2


La columna COUNTRY tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Country,Unnamed: 1_level_1
Spain,17


La columna ADDRESS tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Address,Unnamed: 1_level_1
076 Rockefeller Crossing,1
0046 Utah Junction,1
789 Toban Junction,1
8032 Claremont Trail,1
0 Darwin Circle,1


La columna INDEX tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
index,Unnamed: 1_level_1
A1,1
O15,1
Y25,1
X24,1
W23,1


La columna ID tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
ID,Unnamed: 1_level_1
Pizza Margherita,1
Ravioli de Ricotta y Espinacas,1
Cacciatore,1
Cannoli,1
Gelato de Limón,1


La columna NOMBRE_PRODUCTO tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Nombre_Producto,Unnamed: 1_level_1
Platos Preparados,3
Productos Secos,3
Productos Lácteos,2
Productos Congelados,2
Embutidos,2


La columna PRECIO tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Precio,Unnamed: 1_level_1
Italia,21


La columna ORIGEN tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Origen,Unnamed: 1_level_1
Clásica pizza italiana con tomate,1
Raviolis rellenos de ricotta y espinacas frescas,1
Salchichas de cerdo condimentadas con hierbas y especias,1
Postre siciliano con masa crujiente rellena de crema de ricotta y chocolate,1
Gelato italiano cremoso con sabor a limón fresco,1


La columna DESCRIPCIÓN tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Descripción,Unnamed: 1_level_1
mozzarella fresca y albahaca.,1
una delicia italiana para disfrutar en casa.,1
perfectas para aperitivos.,1
una delicia tradicional.,1
un postre refrescante y delicioso.,1


La columna ID_PRODUCTO tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
ID_Producto,Unnamed: 1_level_1
A1,1
AG33,1
AO41,1
AN40,1
AM39,1


La columna FECHA_VENTA tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
Fecha_Venta,Unnamed: 1_level_1
2023-11-22,1
2023-11-07,1
2023-10-30,1
2023-10-31,1
2023-11-01,1



 ..................... 

Los principales estadísticos de las columnas categóricas para el PIZZA MARGHERITA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Cheri,1
last_name,1,1,Dunsmore,1
email,1,1,cdunsmore0@instagram.com,1
gender,1,1,Female,1
City,1,1,Palma De Mallorca,1
Country,1,1,Spain,1
Address,1,1,076 Rockefeller Crossing,1
index,1,1,A1,1
ID,1,1,Pizza Margherita,1
Nombre_Producto,1,1,Platos Preparados,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el PIZZA MARGHERITA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Categoría,1.0,8.99,,8.99,8.99,8.99,8.99,8.99
ID_Cliente,1.0,723.0,,723.0,723.0,723.0,723.0,723.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,17.98,,17.98,17.98,17.98,17.98,17.98



 ..................... 

Los principales estadísticos de las columnas categóricas para el RISOTTO DE CHAMPIÑONES son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Hunt,1
last_name,1,1,Bartomeu,1
email,1,1,hbartomeu1@nsw.gov.au,1
gender,1,1,Male,1
City,1,1,Lugo,1
Country,1,1,Spain,1
Address,1,1,0046 Utah Junction,1
index,1,1,B2,1
ID,1,1,Risotto de Champiñones,1
Nombre_Producto,1,1,Platos Preparados,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el RISOTTO DE CHAMPIÑONES son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Categoría,1.0,6.75,,6.75,6.75,6.75,6.75,6.75
ID_Cliente,1.0,498.0,,498.0,498.0,498.0,498.0,498.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,5.49,,5.49,5.49,5.49,5.49,5.49



 ..................... 

Los principales estadísticos de las columnas categóricas para el TIRAMISÚ son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Michaeline,1.0
last_name,1,1,Paynton,1.0
email,1,1,mpaynton2@narod.ru,1.0
gender,1,1,Female,1.0
City,0,0,,
Country,1,1,Spain,1.0
Address,1,1,0 Corry Crossing,1.0
index,1,1,C3,1.0
ID,1,1,Tiramisú,1.0
Nombre_Producto,1,1,Postres,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el TIRAMISÚ son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
Categoría,1.0,5.49,,5.49,5.49,5.49,5.49,5.49
ID_Cliente,1.0,121.0,,121.0,121.0,121.0,121.0,121.0
Cantidad,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
Total,1.0,32.97,,32.97,32.97,32.97,32.97,32.97



 ..................... 

Los principales estadísticos de las columnas categóricas para el PANETTONE son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Filmer,1.0
last_name,1,1,Eirwin,1.0
email,1,1,feirwin3@intel.com,1.0
gender,0,0,,
City,1,1,Leon,1.0
Country,1,1,Spain,1.0
Address,1,1,5 American Ash Road,1.0
index,1,1,D4,1.0
ID,1,1,Panettone,1.0
Nombre_Producto,1,1,Repostería,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el PANETTONE son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,4.0,,4.0,4.0,4.0,4.0,4.0
Categoría,1.0,10.99,,10.99,10.99,10.99,10.99,10.99
ID_Cliente,1.0,885.0,,885.0,885.0,885.0,885.0,885.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,6.49,,6.49,6.49,6.49,6.49,6.49



 ..................... 

Los principales estadísticos de las columnas categóricas para el ORECCHIETTE son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Tanhya,1.0
last_name,1,1,Lubbock,1.0
email,1,1,tlubbock4@huffingtonpost.com,1.0
gender,1,1,Female,1.0
City,1,1,"Hospitalet De Llobregat, L'",1.0
Country,1,1,Spain,1.0
Address,1,1,9289 Merry Circle,1.0
index,1,1,E5,1.0
ID,1,1,Orecchiette,1.0
Nombre_Producto,1,1,Productos Secos,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el ORECCHIETTE son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,5.0,,5.0,5.0,5.0,5.0,5.0
Categoría,1.0,4.29,,4.29,4.29,4.29,4.29,4.29
ID_Cliente,1.0,347.0,,347.0,347.0,347.0,347.0,347.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,7.98,,7.98,7.98,7.98,7.98,7.98



 ..................... 

Los principales estadísticos de las columnas categóricas para el POLENTA TRADICIONAL son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Stacy,1
last_name,1,1,Minchinton,1
email,1,1,sminchinton5@ameblo.jp,1
gender,1,1,Male,1
City,1,1,Palma De Mallorca,1
Country,1,1,Spain,1
Address,1,1,4 Meadow Vale Way,1
index,1,1,F6,1
ID,1,1,Polenta Tradicional,1
Nombre_Producto,1,1,Harinas,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el POLENTA TRADICIONAL son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,6.0,,6.0,6.0,6.0,6.0,6.0
Categoría,1.0,3.75,,3.75,3.75,3.75,3.75,3.75
ID_Cliente,1.0,619.0,,619.0,619.0,619.0,619.0,619.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,7.89,,7.89,7.89,7.89,7.89,7.89



 ..................... 

Los principales estadísticos de las columnas categóricas para el MOZZARELLA DI BUFALA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Harv,1
last_name,1,1,Sandes,1
email,1,1,hsandes6@who.int,1
gender,1,1,Male,1
City,1,1,Lleida,1
Country,1,1,Spain,1
Address,1,1,20 Menomonie Circle,1
index,1,1,G7,1
ID,1,1,Mozzarella di Bufala,1
Nombre_Producto,1,1,Productos Lácteos,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el MOZZARELLA DI BUFALA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,7.0,,7.0,7.0,7.0,7.0,7.0
Categoría,1.0,9.25,,9.25,9.25,9.25,9.25,9.25
ID_Cliente,1.0,812.0,,812.0,812.0,812.0,812.0,812.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,13.5,,13.5,13.5,13.5,13.5,13.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el ARROZ ARBORIO son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Aubree,1.0
last_name,1,1,Jirsa,1.0
email,0,0,,
gender,1,1,Female,1.0
City,1,1,Santander,1.0
Country,0,0,,
Address,1,1,8294 Schurz Court,1.0
index,1,1,J10,1.0
ID,1,1,Arroz Arborio,1.0
Nombre_Producto,1,1,Productos Secos,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el ARROZ ARBORIO son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,8.0,,8.0,8.0,8.0,8.0,8.0
Categoría,1.0,4.89,,4.89,4.89,4.89,4.89,4.89
ID_Cliente,1.0,170.0,,170.0,170.0,170.0,170.0,170.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,5.75,,5.75,5.75,5.75,5.75,5.75



 ..................... 

Los principales estadísticos de las columnas categóricas para el CAFÉ ESPRESSO son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Tymon,1.0
last_name,1,1,Darragh,1.0
email,1,1,tdarragh8@free.fr,1.0
gender,1,1,Male,1.0
City,0,0,,
Country,1,1,Spain,1.0
Address,1,1,41 Trailsway Way,1.0
index,1,1,K11,1.0
ID,1,1,Café Espresso,1.0
Nombre_Producto,1,1,Café,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el CAFÉ ESPRESSO son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,9.0,,9.0,9.0,9.0,9.0,9.0
Categoría,1.0,6.49,,6.49,6.49,6.49,6.49,6.49
ID_Cliente,1.0,29.0,,29.0,29.0,29.0,29.0,29.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,14.98,,14.98,14.98,14.98,14.98,14.98



 ..................... 

Los principales estadísticos de las columnas categóricas para el SARDINAS EN ACEITE DE OLIVA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Igor,1.0
last_name,1,1,Dwelley,1.0
email,1,1,idwelley9@flickr.com,1.0
gender,1,1,Male,1.0
City,1,1,Lugo,1.0
Country,1,1,Spain,1.0
Address,0,0,,
index,1,1,L12,1.0
ID,1,1,Sardinas en Aceite de Oliva,1.0
Nombre_Producto,1,1,Pescados en Conserva,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el SARDINAS EN ACEITE DE OLIVA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,10.0,,10.0,10.0,10.0,10.0,10.0
Categoría,1.0,3.99,,3.99,3.99,3.99,3.99,3.99
ID_Cliente,1.0,567.0,,567.0,567.0,567.0,567.0,567.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,7.49,,7.49,7.49,7.49,7.49,7.49



 ..................... 

Los principales estadísticos de las columnas categóricas para el GNOCCHI DE PATATA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Chase,1.0
last_name,1,1,Godilington,1.0
email,1,1,cgodilingtona@spiegel.de,1.0
gender,1,1,Male,1.0
City,0,0,,
Country,0,0,,
Address,1,1,13 Bluestem Court,1.0
index,1,1,N14,1.0
ID,1,1,Gnocchi de Patata,1.0
Nombre_Producto,1,1,Productos Congelados,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el GNOCCHI DE PATATA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,11.0,,11.0,11.0,11.0,11.0,11.0
Categoría,1.0,5.25,,5.25,5.25,5.25,5.25,5.25
ID_Cliente,1.0,123.0,,123.0,123.0,123.0,123.0,123.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,9.78,,9.78,9.78,9.78,9.78,9.78



 ..................... 

Los principales estadísticos de las columnas categóricas para el RAVIOLI DE RICOTTA Y ESPINACAS son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Viola,1.0
last_name,1,1,Maggiore,1.0
email,1,1,vmaggioreb@cpanel.net,1.0
gender,1,1,Female,1.0
City,1,1,Malaga,1.0
Country,0,0,,
Address,1,1,57 Chinook Hill,1.0
index,1,1,O15,1.0
ID,1,1,Ravioli de Ricotta y Espinacas,1.0
Nombre_Producto,1,1,Productos Congelados,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el RAVIOLI DE RICOTTA Y ESPINACAS son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,12.0,,12.0,12.0,12.0,12.0,12.0
Categoría,1.0,6.75,,6.75,6.75,6.75,6.75,6.75
ID_Cliente,1.0,845.0,,845.0,845.0,845.0,845.0,845.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,5.99,,5.99,5.99,5.99,5.99,5.99



 ..................... 

Los principales estadísticos de las columnas categóricas para el PASTA DE TRIGO son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Maegan,1
last_name,1,1,Miner,1
email,1,1,mminerc@guardian.co.uk,1
gender,1,1,Female,1
City,1,1,Malaga,1
Country,1,1,Spain,1
Address,1,1,0016 Corben Place,1
index,1,1,Q17,1
ID,1,1,Pasta de Trigo,1
Nombre_Producto,1,1,Productos Secos,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el PASTA DE TRIGO son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,13.0,,13.0,13.0,13.0,13.0,13.0
Categoría,1.0,3.99,,3.99,3.99,3.99,3.99,3.99
ID_Cliente,1.0,432.0,,432.0,432.0,432.0,432.0,432.0
Cantidad,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
Total,1.0,19.47,,19.47,19.47,19.47,19.47,19.47



 ..................... 

Los principales estadísticos de las columnas categóricas para el SALSA DE TOMATE CASERA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Elena,1.0
last_name,1,1,Crummey,1.0
email,1,1,ecrummeyd@imgur.com,1.0
gender,0,0,,
City,1,1,Valladolid,1.0
Country,0,0,,
Address,1,1,76694 Sherman Street,1.0
index,1,1,R18,1.0
ID,1,1,Salsa de Tomate Casera,1.0
Nombre_Producto,1,1,Salsas,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el SALSA DE TOMATE CASERA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,14.0,,14.0,14.0,14.0,14.0,14.0
Categoría,1.0,2.49,,2.49,2.49,2.49,2.49,2.49
ID_Cliente,1.0,789.0,,789.0,789.0,789.0,789.0,789.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,6.75,,6.75,6.75,6.75,6.75,6.75



 ..................... 

Los principales estadísticos de las columnas categóricas para el ACEITE DE OLIVA VIRGEN EXTRA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Cyndy,1
last_name,1,1,Toothill,1
email,1,1,ctoothille@canalblog.com,1
gender,1,1,Female,1
City,1,1,Lleida,1
Country,1,1,Spain,1
Address,1,1,1165 Erie Point,1
index,1,1,S19,1
ID,1,1,Aceite de Oliva Virgen Extra,1
Nombre_Producto,1,1,Aceites,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el ACEITE DE OLIVA VIRGEN EXTRA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,15.0,,15.0,15.0,15.0,15.0,15.0
Categoría,1.0,9.99,,9.99,9.99,9.99,9.99,9.99
ID_Cliente,1.0,356.0,,356.0,356.0,356.0,356.0,356.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,10.5,,10.5,10.5,10.5,10.5,10.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el QUESO PARMESANO son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Lionello,1
last_name,1,1,Shelborne,1
email,1,1,lshelbornef@e-recht24.de,1
gender,1,1,Male,1
City,1,1,Murcia,1
Country,1,1,Spain,1
Address,1,1,21845 Holy Cross Terrace,1
index,1,1,T20,1
ID,1,1,Queso Parmesano,1
Nombre_Producto,1,1,Productos Lácteos,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el QUESO PARMESANO son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,16.0,,16.0,16.0,16.0,16.0,16.0
Categoría,1.0,7.89,,7.89,7.89,7.89,7.89,7.89
ID_Cliente,1.0,621.0,,621.0,621.0,621.0,621.0,621.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,4.25,,4.25,4.25,4.25,4.25,4.25



 ..................... 

Los principales estadísticos de las columnas categóricas para el SALAMI TOSCANO son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Yance,1.0
last_name,1,1,Martinetto,1.0
email,0,0,,
gender,1,1,Male,1.0
City,1,1,Pamplona/Iruña,1.0
Country,1,1,Spain,1.0
Address,1,1,4 Anthes Pass,1.0
index,1,1,U21,1.0
ID,1,1,Salami Toscano,1.0
Nombre_Producto,1,1,Embutidos,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el SALAMI TOSCANO son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,17.0,,17.0,17.0,17.0,17.0,17.0
Categoría,1.0,5.75,,5.75,5.75,5.75,5.75,5.75
ID_Cliente,1.0,908.0,,908.0,908.0,908.0,908.0,908.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,14.5,,14.5,14.5,14.5,14.5,14.5



 ..................... 

Los principales estadísticos de las columnas categóricas para el GELATO DE LIMÓN son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Lauren,1
last_name,1,1,Grime,1
email,1,1,lgrimeh@illinois.edu,1
gender,1,1,Male,1
City,1,1,Pamplona/Iruña,1
Country,1,1,Spain,1
Address,1,1,0 Darwin Circle,1
index,1,1,W23,1
ID,1,1,Gelato de Limón,1
Nombre_Producto,1,1,Helados,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el GELATO DE LIMÓN son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,18.0,,18.0,18.0,18.0,18.0,18.0
Categoría,1.0,4.25,,4.25,4.25,4.25,4.25,4.25
ID_Cliente,1.0,276.0,,276.0,276.0,276.0,276.0,276.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,8.75,,8.75,8.75,8.75,8.75,8.75



 ..................... 

Los principales estadísticos de las columnas categóricas para el CANNOLI son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Sena,1.0
last_name,1,1,MacElane,1.0
email,1,1,smacelanei@youtu.be,1.0
gender,1,1,Female,1.0
City,0,0,,
Country,1,1,Spain,1.0
Address,1,1,8032 Claremont Trail,1.0
index,1,1,X24,1.0
ID,1,1,Cannoli,1.0
Nombre_Producto,1,1,Dulces,1.0



 ..................... 

Los principales estadísticos de las columnas numéricas para el CANNOLI son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,19.0,,19.0,19.0,19.0,19.0,19.0
Categoría,1.0,3.99,,3.99,3.99,3.99,3.99,3.99
ID_Cliente,1.0,543.0,,543.0,543.0,543.0,543.0,543.0
Cantidad,1.0,2.0,,2.0,2.0,2.0,2.0,2.0
Total,1.0,13.98,,13.98,13.98,13.98,13.98,13.98



 ..................... 

Los principales estadísticos de las columnas categóricas para el CACCIATORE son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Mildred,1
last_name,1,1,Kearns,1
email,1,1,mkearnsj@twitter.com,1
gender,1,1,Female,1
City,1,1,Barcelona,1
Country,1,1,Spain,1
Address,1,1,789 Toban Junction,1
index,1,1,Y25,1
ID,1,1,Cacciatore,1
Nombre_Producto,1,1,Embutidos,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el CACCIATORE son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,20.0,,20.0,20.0,20.0,20.0,20.0
Categoría,1.0,6.75,,6.75,6.75,6.75,6.75,6.75
ID_Cliente,1.0,987.0,,987.0,987.0,987.0,987.0,987.0
Cantidad,1.0,1.0,,1.0,1.0,1.0,1.0,1.0
Total,1.0,6.99,,6.99,6.99,6.99,6.99,6.99



 ..................... 

Los principales estadísticos de las columnas categóricas para el CICERI E TRIA son: 


Unnamed: 0,count,unique,top,freq
first_name,1,1,Frasquito,1
last_name,1,1,Skeemor,1
email,1,1,fskeemork@t-online.de,1
gender,1,1,Male,1
City,1,1,Murcia,1
Country,1,1,Spain,1
Address,1,1,46 Golf View Alley,1
index,1,1,GG33,1
ID,1,1,Ciceri e Tria,1
Nombre_Producto,1,1,Platos Preparados,1



 ..................... 

Los principales estadísticos de las columnas numéricas para el CICERI E TRIA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1.0,21.0,,21.0,21.0,21.0,21.0,21.0
Categoría,1.0,5.89,,5.89,5.89,5.89,5.89,5.89
ID_Cliente,1.0,234.0,,234.0,234.0,234.0,234.0,234.0
Cantidad,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
Total,1.0,26.97,,26.97,26.97,26.97,26.97,26.97


In [4]:
def configurar_visualizacion():
    """Configura la visualización de pandas para mostrar todas las columnas y formato de los números."""
    pd.set_option('display.max_columns', None)
    pd.set_option('display.float_format', '{:.2f}'.format)
    

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21 entries, 0 to 20
Data columns (total 20 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               21 non-null     int64  
 1   first_name       21 non-null     object 
 2   last_name        21 non-null     object 
 3   email            19 non-null     object 
 4   gender           19 non-null     object 
 5   City             17 non-null     object 
 6   Country          17 non-null     object 
 7   Address          20 non-null     object 
 8   index            21 non-null     object 
 9   ID               21 non-null     object 
 10  Nombre_Producto  21 non-null     object 
 11  Categoría        21 non-null     float64
 12  Precio           21 non-null     object 
 13  Origen           21 non-null     object 
 14  Descripción      20 non-null     object 
 15  ID_Cliente       21 non-null     int64  
 16  ID_Producto      21 non-null     object 
 17  Fecha_Venta      21 non

In [6]:
def imputar_valores_nulos(df, columnas_desconocido):
    """Imputa valores nulos en una lista de columnas del DataFrame utilizando 'fillna' con 'Unknown'.

    Args:
    - df (DataFrame): El DataFrame en el que se imputarán los valores nulos.
    - columnas_desconocido (list): Lista de nombres de las columnas en las que se imputarán los valores nulos.
    """
    # Iterar sobre la lista de columnas a las que se les cambiarán los nulos por "Unknown"
    
    for columna in columnas_desconocido:
        # Reemplazar los nulos por el valor "Unknown" para cada una de las columnas de la lista
        df[columna] = df[columna].fillna("Unknown")
        
    # Comprobar si quedan nulos en las columnas categóricas
    print("Después del reemplazo usando 'fillna', quedan los siguientes nulos:")
    print(df[columnas_desconocido].isnull().sum())
    
    return df

columnas_desconocido = ["email","gender","City","Country","Address", "Descripción"]
imputar_valores_nulos(df,columnas_desconocido)

Después del reemplazo usando 'fillna', quedan los siguientes nulos:
email          0
gender         0
City           0
Country        0
Address        0
Descripción    0
dtype: int64


Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address,index,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.,723,A1,2023-11-22,2,17.98
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.,498,C3,2023-11-21,1,5.49
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,Unknown,Spain,0 Corry Crossing,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.,121,D4,2023-11-20,3,32.97
3,4,Filmer,Eirwin,feirwin3@intel.com,Unknown,Leon,Spain,5 American Ash Road,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.,885,L12,2023-11-19,1,6.49
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,Unknown,347,Q17,2023-11-18,2,7.98
5,6,Stacy,Minchinton,sminchinton5@ameblo.jp,Male,Palma De Mallorca,Spain,4 Meadow Vale Way,F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...,perfecta como acompañamiento.,619,T20,2023-11-17,1,7.89
6,7,Harv,Sandes,hsandes6@who.int,Male,Lleida,Spain,20 Menomonie Circle,G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfala,suave y deliciosamente cremosa.,812,Y25,2023-11-16,2,13.5
7,8,Aubree,Jirsa,Unknown,Female,Santander,Unknown,8294 Schurz Court,J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...,absorbe los sabores de forma exquisita.,170,U21,2023-11-15,1,5.75
8,9,Tymon,Darragh,tdarragh8@free.fr,Male,Unknown,Spain,41 Trailsway Way,K11,Café Espresso,Café,6.49,Italia,Café espresso italiano con un aroma y sabor in...,la esencia de la cultura del café en Italia.,29,Z26,2023-11-14,2,14.98
9,10,Igor,Dwelley,idwelley9@flickr.com,Male,Lugo,Spain,Unknown,L12,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.,567,AA27,2023-11-13,1,7.49


In [7]:
def eliminar_columnas(dataframe, columnas):
    """Elimina columnas del DataFrame.

    Args:
    - dataframe (DataFrame): El DataFrame del que se eliminarán las columnas.
    - columnas (list): La lista de nombres de las columnas que se eliminarán.
    """
    dataframe.drop(columns=columnas, inplace=True)

columnas_eliminar = ["id", "index", "Precio", "Country"]
eliminar_columnas(df, columnas_eliminar)


In [8]:
def transformar_nombres_columnas(dataframe):
    """Transforma los nombres de las columnas del DataFrame.

    Args:
    - dataframe (DataFrame): El DataFrame cuyos nombres de columnas se transformarán.
    """
    nuevas_columnas = [col.replace(" ", '_').lower() for col in dataframe.columns]
    dataframe.columns = nuevas_columnas
    dataframe.rename(columns={ 'nombre_producto': 'clasificacion_plato', 'id': 'nombre_producto',}, inplace=True)
    
    return dataframe

transformar_nombres_columnas(df)


<class 'pandas.core.frame.DataFrame'>
Index: 21 entries, 0 to 20
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   first_name           21 non-null     object 
 1   last_name            21 non-null     object 
 2   email                21 non-null     object 
 3   gender               21 non-null     object 
 4   city                 21 non-null     object 
 5   address              21 non-null     object 
 6   nombre_producto      21 non-null     object 
 7   clasificacion_plato  21 non-null     object 
 8   categoría            21 non-null     float64
 9   origen               21 non-null     object 
 10  descripción          21 non-null     object 
 11  id_cliente           21 non-null     int64  
 12  id_producto          21 non-null     object 
 13  fecha_venta          21 non-null     object 
 14  cantidad             21 non-null     int64  
 15  total                21 non-null     float64
dt