In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import ttest_ind, norm, chi2_contingency
from scipy.stats import shapiro
from scipy.stats import mannwhitneyu
from sklearn.linear_model import LinearRegression

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [2]:
#Cuando se pase al soporte la ruta tiene que ser: ./files/{ruta}.csv
def leer_cvs(ruta):
    try:
        df = pd.read_csv(f'files/{ruta}.csv', error_bad_lines=False, warn_bad_lines=False)
        return df
    except FileNotFoundError:
        print('No se ha encontrado el archivo')
        return None

In [3]:
df_clientes = leer_cvs('clientes')
df_clientes

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
...,...,...,...,...,...,...,...,...
995,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
996,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
997,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
998,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive


In [4]:
df_ventas = leer_cvs('ventas')
df_ventas

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98
...,...,...,...,...,...
95,234,AR136,2023-09-04,1,8.45
96,987,AS137,2023-09-03,2,12.50
97,543,AT138,2023-09-02,1,4.75
98,234,AU139,2023-09-01,2,9.98


In [5]:
df_productos = leer_cvs('productos')
df_productos

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.
C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.
D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.
E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,
F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...,perfecta como acompañamiento.
G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfala,suave y deliciosamente cremosa.
J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...,absorbe los sabores de forma exquisita.
K11,Café Espresso,Café,6.49,Italia,Café espresso italiano con un aroma y sabor in...,la esencia de la cultura del café en Italia.
L12,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.


In [6]:
def minuscula(dataframe):
    dataframe.columns = map(str.lower, dataframe.columns)
    return dataframe

In [7]:
minuscula(df_clientes)
minuscula(df_ventas)
minuscula(df_productos)

Unnamed: 0,id,nombre_producto,categoría,precio,origen,descripción
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.
C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.
D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.
E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,
F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...,perfecta como acompañamiento.
G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfala,suave y deliciosamente cremosa.
J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...,absorbe los sabores de forma exquisita.
K11,Café Espresso,Café,6.49,Italia,Café espresso italiano con un aroma y sabor in...,la esencia de la cultura del café en Italia.
L12,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.


In [8]:
def exploracion_dataframe(dataframe):

    #Nos enseña los duplicados en el DF
    print(f"Tenemos {dataframe.duplicated().sum()} duplicados en el conjunto de datos.")
    print("\n ----- \n")
    
    
    #Nos muestra un DataFrame para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(dataframe.isnull().sum() / dataframe.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    
    print("\n ----- \n")
    #Nos muestra los tipos de columnas
    print(f"Los tipos de las columnas son:")
    display(pd.DataFrame(dataframe.dtypes, columns = ["tipo_dato"]))
    
    
    print("\n ----- \n")
    #Nos muestra los valores de las columnas categóricas
    print("Los valores que tenemos para las COLUMNAS CATEGÓRICAS son: ")
    dataframe_categoricas = dataframe.select_dtypes(include = "O")
    
    for col in dataframe_categoricas.columns:
        print(f"La columna {col.upper()} tiene las siguientes valores únicos:")
        display(pd.DataFrame(dataframe[col].value_counts()).head())    
    
    #Sacamos los principales estadísticos de cada una de las categorías

    columnas_numericas = dataframe.select_dtypes(include=['int', 'float']).columns
    columnas_categoricas = dataframe.select_dtypes(include='O').columns

    for col in columnas_categoricas:
        print("\n ----- \n")
        print(f"Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el {col.upper()} son: ")
        display(dataframe[[col]].describe().T)

    for col in columnas_numericas:
        print("\n ----- \n")
        print(f"Los principales estadísticos de las COLUMNAS NUMÉRICAS para el {col.upper()} son: ")
        display(dataframe[[col]].describe().T)


In [9]:
exploracion_dataframe(df_productos)

Tenemos 0 duplicados en el conjunto de datos.

 ----- 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos
descripción,4.761905



 ----- 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
id,object
nombre_producto,object
categoría,float64
precio,object
origen,object
descripción,object



 ----- 

Los valores que tenemos para las COLUMNAS CATEGÓRICAS son: 
La columna ID tiene las siguientes valores únicos:


Unnamed: 0,id
Pizza Margherita,1
Ravioli de Ricotta y Espinacas,1
Cacciatore,1
Cannoli,1
Gelato de Limón,1


La columna NOMBRE_PRODUCTO tiene las siguientes valores únicos:


Unnamed: 0,nombre_producto
Platos Preparados,3
Productos Secos,3
Productos Lácteos,2
Productos Congelados,2
Embutidos,2


La columna PRECIO tiene las siguientes valores únicos:


Unnamed: 0,precio
Italia,21


La columna ORIGEN tiene las siguientes valores únicos:


Unnamed: 0,origen
Clásica pizza italiana con tomate,1
Raviolis rellenos de ricotta y espinacas frescas,1
Salchichas de cerdo condimentadas con hierbas y especias,1
Postre siciliano con masa crujiente rellena de crema de ricotta y chocolate,1
Gelato italiano cremoso con sabor a limón fresco,1


La columna DESCRIPCIÓN tiene las siguientes valores únicos:


Unnamed: 0,descripción
mozzarella fresca y albahaca.,1
una delicia italiana para disfrutar en casa.,1
perfectas para aperitivos.,1
una delicia tradicional.,1
un postre refrescante y delicioso.,1



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el ID son: 


Unnamed: 0,count,unique,top,freq
id,21,21,Pizza Margherita,1



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el NOMBRE_PRODUCTO son: 


Unnamed: 0,count,unique,top,freq
nombre_producto,21,14,Platos Preparados,3



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el PRECIO son: 


Unnamed: 0,count,unique,top,freq
precio,21,1,Italia,21



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el ORIGEN son: 


Unnamed: 0,count,unique,top,freq
origen,21,21,Clásica pizza italiana con tomate,1



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el DESCRIPCIÓN son: 


Unnamed: 0,count,unique,top,freq
descripción,20,20,mozzarella fresca y albahaca.,1



 ----- 

Los principales estadísticos de las COLUMNAS NUMÉRICAS para el CATEGORÍA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
categoría,21.0,6.089048,2.272386,2.49,4.25,5.75,6.75,10.99


In [10]:
def imputar_nulos(dataframe):
    for col in dataframe.columns:
        dataframe[col] = dataframe[col].fillna('desconocido')

    print("Después del reemplazo usando 'fillna' quedan los siguientes nulos")
    print(dataframe.isnull().sum())

In [12]:
imputar_nulos(df_clientes)

Después del reemplazo usando 'fillna' quedan los siguientes nulos
id            0
first_name    0
last_name     0
email         0
gender        0
city          0
country       0
address       0
dtype: int64


In [14]:
df_union = pd.concat([df_clientes, df_ventas], axis=1)
df_union

Unnamed: 0,id,first_name,last_name,email,gender,city,country,address,id_cliente,id_producto,fecha_venta,cantidad,total
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing,723.0,A1,2023-11-22,2.0,17.98
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction,498.0,C3,2023-11-21,1.0,5.49
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,desconocido,Spain,0 Corry Crossing,121.0,D4,2023-11-20,3.0,32.97
3,4,Filmer,Eirwin,feirwin3@intel.com,desconocido,Leon,Spain,5 American Ash Road,885.0,L12,2023-11-19,1.0,6.49
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle,347.0,Q17,2023-11-18,2.0,7.98
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace,,,,,
996,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway,,,,,
997,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road,,,,,
998,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive,,,,,
