In [132]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import ttest_ind, norm, chi2_contingency
from scipy.stats import shapiro
from scipy.stats import mannwhitneyu
from sklearn.linear_model import LinearRegression

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [133]:
#Cuando se pase al soporte la ruta tiene que ser: ./files/{ruta}.csv
def leer_cvs(ruta):
    try:
        df = pd.read_csv(f'files/{ruta}.csv', error_bad_lines=False, warn_bad_lines=False)
        return df
    except FileNotFoundError:
        print('No se ha encontrado el archivo')
        return None

In [134]:
df_clientes = leer_cvs('clientes')
df_clientes

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
...,...,...,...,...,...,...,...,...
995,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
996,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
997,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
998,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive


In [135]:
df_ventas = leer_cvs('ventas')
df_ventas

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98
...,...,...,...,...,...
95,234,AR136,2023-09-04,1,8.45
96,987,AS137,2023-09-03,2,12.50
97,543,AT138,2023-09-02,1,4.75
98,234,AU139,2023-09-01,2,9.98


In [136]:
df_productos = leer_cvs('productos')
df_productos

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.
C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.
D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.
E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,
F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...,perfecta como acompañamiento.
G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfala,suave y deliciosamente cremosa.
J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...,absorbe los sabores de forma exquisita.
K11,Café Espresso,Café,6.49,Italia,Café espresso italiano con un aroma y sabor in...,la esencia de la cultura del café en Italia.
L12,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.


In [137]:
def minuscula(dataframe):
    dataframe.columns = map(str.lower, dataframe.columns)
    return dataframe

In [138]:
minuscula(df_clientes)
minuscula(df_ventas)
minuscula(df_productos)

Unnamed: 0,id,nombre_producto,categoría,precio,origen,descripción
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.
C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.
D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.
E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,
F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...,perfecta como acompañamiento.
G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfala,suave y deliciosamente cremosa.
J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...,absorbe los sabores de forma exquisita.
K11,Café Espresso,Café,6.49,Italia,Café espresso italiano con un aroma y sabor in...,la esencia de la cultura del café en Italia.
L12,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.


In [139]:
def exploracion_dataframe(dataframe):

    #Nos enseña los duplicados en el DF
    print(f"Tenemos {dataframe.duplicated().sum()} duplicados en el conjunto de datos.")
    print("\n ----- \n")
    
    
    #Nos muestra un DataFrame para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(dataframe.isnull().sum() / dataframe.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    
    print("\n ----- \n")
    #Nos muestra los tipos de columnas
    print(f"Los tipos de las columnas son:")
    display(pd.DataFrame(dataframe.dtypes, columns = ["tipo_dato"]))
    
    
    print("\n ----- \n")
    #Nos muestra los valores de las columnas categóricas
    print("Los valores que tenemos para las COLUMNAS CATEGÓRICAS son: ")
    dataframe_categoricas = dataframe.select_dtypes(include = "O")
    
    for col in dataframe_categoricas.columns:
        print(f"La columna {col.upper()} tiene las siguientes valores únicos:")
        display(pd.DataFrame(dataframe[col].value_counts()).head())    
    
    #Sacamos los principales estadísticos de cada una de las categorías

    columnas_numericas = dataframe.select_dtypes(include=['int', 'float']).columns
    columnas_categoricas = dataframe.select_dtypes(include='O').columns

    for col in columnas_categoricas:
        print("\n ----- \n")
        print(f"Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el {col.upper()} son: ")
        display(dataframe[[col]].describe().T)

    for col in columnas_numericas:
        print("\n ----- \n")
        print(f"Los principales estadísticos de las COLUMNAS NUMÉRICAS para el {col.upper()} son: ")
        display(dataframe[[col]].describe().T)


In [148]:
exploracion_dataframe(df_clientes)

Tenemos 0 duplicados en el conjunto de datos.

 ----- 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos



 ----- 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
id,int64
first_name,object
last_name,object
email,object
gender,object
city,object
country,object
address,object



 ----- 

Los valores que tenemos para las COLUMNAS CATEGÓRICAS son: 
La columna FIRST_NAME tiene las siguientes valores únicos:


Unnamed: 0,first_name
Germain,3
Em,3
Hunt,3
Moyra,2
Francoise,2


La columna LAST_NAME tiene las siguientes valores únicos:


Unnamed: 0,last_name
Bartolini,2
Bignall,2
Armatidge,2
Espinosa,2
Whitsey,2


La columna EMAIL tiene las siguientes valores únicos:


Unnamed: 0,email
desconocido,27
cdunsmore0@instagram.com,1
hrodliffis@com.com,1
srickesiesie@shop-pro.jp,1
abasantif@seattletimes.com,1


La columna GENDER tiene las siguientes valores únicos:


Unnamed: 0,gender
Male,424
Female,422
desconocido,77
Polygender,19
Genderqueer,15


La columna CITY tiene las siguientes valores únicos:


Unnamed: 0,city
desconocido,124
Madrid,51
Granada,42
Palma De Mallorca,41
Malaga,36


La columna COUNTRY tiene las siguientes valores únicos:


Unnamed: 0,country
Spain,846
desconocido,154


La columna ADDRESS tiene las siguientes valores únicos:


Unnamed: 0,address
desconocido,41
7 Toban Center,2
076 Rockefeller Crossing,1
9 Steensland Pass,1
92 Amoth Trail,1



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el FIRST_NAME son: 


Unnamed: 0,count,unique,top,freq
first_name,1000,940,Germain,3



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el LAST_NAME son: 


Unnamed: 0,count,unique,top,freq
last_name,1000,986,Bartolini,2



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el EMAIL son: 


Unnamed: 0,count,unique,top,freq
email,1000,974,desconocido,27



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el GENDER son: 


Unnamed: 0,count,unique,top,freq
gender,1000,9,Male,424



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el CITY son: 


Unnamed: 0,count,unique,top,freq
city,1000,56,desconocido,124



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el COUNTRY son: 


Unnamed: 0,count,unique,top,freq
country,1000,2,Spain,846



 ----- 

Los principales estadísticos de las COLUMNAS CATEGÓRICAS para el ADDRESS son: 


Unnamed: 0,count,unique,top,freq
address,1000,959,desconocido,41



 ----- 

Los principales estadísticos de las COLUMNAS NUMÉRICAS para el ID son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1000.0,500.5,288.819436,1.0,250.75,500.5,750.25,1000.0


In [141]:
def imputar_nulos(dataframe):
    for col in dataframe.columns:
        dataframe[col] = dataframe[col].fillna('desconocido')

    print("Después del reemplazo usando 'fillna' quedan los siguientes nulos")
    print(dataframe.isnull().sum())

In [142]:
imputar_nulos(df_clientes)

Después del reemplazo usando 'fillna' quedan los siguientes nulos
id            0
first_name    0
last_name     0
email         0
gender        0
city          0
country       0
address       0
dtype: int64


In [143]:
imputar_nulos(df_productos)

Después del reemplazo usando 'fillna' quedan los siguientes nulos
id                 0
nombre_producto    0
categoría          0
precio             0
origen             0
descripción        0
dtype: int64


In [154]:
def guardado(dataframe, nombre):
    try:
        dataframe.to_csv(f'files/{nombre}_limpio.csv')
        print('El dataframe ha sido guardado con éxito.')
    except Exception as e:
        print(f'Error en el guardado: {e}')

In [156]:
guardado(df_clientes, 'clientes')
guardado(df_ventas, 'ventas')
guardado(df_productos, 'productos')

El dataframe ha sido guardado con éxito.
El dataframe ha sido guardado con éxito.
El dataframe ha sido guardado con éxito.


---------

In [127]:
df_merge = df_clientes.merge( right=df_ventas, how='left',
                        left_on='id', right_on='id_cliente')

df_merge.sample(10)

Unnamed: 0,id,first_name,last_name,email,gender,city,country,address,id_cliente,id_producto,fecha_venta,cantidad,total
643,604,Abdel,Harlow,aharlowgr@harvard.edu,Male,Sevilla,Spain,2 Spohn Parkway,,,,,
620,581,Leeann,Kasbye,lkasbyeg4@purevolume.com,Female,Sant Cugat Del Valles,Spain,2 Oriole Street,,,,,
701,660,Johnath,Rainsdon,jrainsdonib@godaddy.com,Female,Santander,Spain,6 John Wall Junction,,,,,
1039,983,Margareta,MacArthur,mmacarthurra@weebly.com,Genderfluid,Valencia,Spain,5 Park Meadow Way,,,,,
1030,974,Luke,Insley,linsleyr1@ftc.gov,Male,Pamplona/Iruña,Spain,desconocido,,,,,
188,188,Tove,Aldridge,taldridge57@theguardian.com,Female,Granada,desconocido,01361 Utah Trail,,,,,
401,377,Janith,Brunt,jbruntag@marriott.com,Female,Valladolid,Spain,5482 Huxley Park,,,,,
132,132,Neely,Maggiore,nmaggiore3n@thetimes.co.uk,Genderfluid,desconocido,Spain,652 Sachtjen Crossing,,,,,
1031,975,Dasya,Althrope,dalthroper2@yahoo.co.jp,Female,"Palmas De Gran Canaria, Las",Spain,22119 Artisan Lane,,,,,
1002,946,Gannie,Jaffrey,gjaffreyq9@miitbeian.gov.cn,Male,Murcia,Spain,370 Arrowood Center,,,,,


In [128]:
df_merge

Unnamed: 0,id,first_name,last_name,email,gender,city,country,address,id_cliente,id_producto,fecha_venta,cantidad,total
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing,,,,,
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction,,,,,
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,desconocido,Spain,0 Corry Crossing,,,,,
3,4,Filmer,Eirwin,feirwin3@intel.com,desconocido,Leon,Spain,5 American Ash Road,,,,,
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1065,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace,,,,,
1066,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway,,,,,
1067,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road,,,,,
1068,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive,,,,,


In [129]:
df_productos = df_productos.reset_index()
df_productos = df_productos.rename(columns={'index':'id_producto'})
df_productos

Unnamed: 0,id_producto,id,nombre_producto,categoría,precio,origen,descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.
4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...,desconocido
5,F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...,perfecta como acompañamiento.
6,G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfala,suave y deliciosamente cremosa.
7,J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...,absorbe los sabores de forma exquisita.
8,K11,Café Espresso,Café,6.49,Italia,Café espresso italiano con un aroma y sabor in...,la esencia de la cultura del café en Italia.
9,L12,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.


In [105]:
df_unido = df_merge.merge( right=df_productos, how='left',
                        left_on='id_producto', right_on='id_producto')

df_unido.sample(10)

Unnamed: 0,id_x,first_name,last_name,email,gender,city,country,address,id_cliente,id_producto,fecha_venta,cantidad,total,id_y,nombre_producto,categoría,precio,origen,descripción
674,635,Dehlia,Vedishchev,dvedishchevhm@wiley.com,Female,Donostia-San Sebastian,desconocido,291 Oak Valley Circle,,,,,,,,,,,
263,243,Laurie,Harlowe,lharlowe6q@csmonitor.com,desconocido,Ceuta,Spain,desconocido,,,,,,,,,,,
521,496,Pinchas,Rains,prainsdr@moonfruit.com,Male,Lleida,desconocido,396 1st Trail,,,,,,,,,,,
167,167,Lorelei,Verheijden,lverheijden4m@vimeo.com,Female,Pamplona/Iruña,desconocido,09188 Prentice Park,,,,,,,,,,,
446,422,Dwight,Rottenbury,drottenburybp@umich.edu,Male,desconocido,Spain,5 Stephen Avenue,,,,,,,,,,,
1026,970,Niki,Bonsey,nbonseyqx@deliciousdays.com,desconocido,Barcelona,Spain,3045 Goodland Crossing,,,,,,,,,,,
734,693,Taylor,Dafydd,tdafyddj8@chicagotribune.com,Male,Salamanca,Spain,82 Westport Center,,,,,,,,,,,
996,940,Burlie,Waterhous,bwaterhousq3@cbslocal.com,Male,Valladolid,Spain,78 Gulseth Parkway,,,,,,,,,,,
316,296,Lindsay,Gosling,lgosling87@twitpic.com,Female,Salamanca,Spain,8783 Main Circle,,,,,,,,,,,
1045,987,Cecil,Hemms,chemmsre@reverbnation.com,Male,desconocido,Spain,1737 Commercial Lane,987.0,BR86,2023-10-24,1.0,5.25,,,,,,


In [130]:
df_sin_nulos = df_unido.dropna()

In [131]:
df_sin_nulos

Unnamed: 0,id_x,first_name,last_name,email,gender,city,country,address,id_cliente,id_producto,fecha_venta,cantidad,total,id_y,nombre_producto,categoría,precio,origen,descripción
120,121,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,desconocido,4679 Fair Oaks Trail,121.0,D4,2023-11-20,3.0,32.97,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,un regalo tradicional en Italia.
170,170,Brigit,Witt,bwitt4p@va.gov,Female,Dos Hermanas,Spain,38 Ohio Point,170.0,U21,2023-11-15,1.0,5.75,Salami Toscano,Embutidos,5.75,Italia,Salami de cerdo italiano curado con hierbas y ...,un acompañamiento perfecto para tablas de emb...
371,347,Egbert,Leborgne,eleborgne9m@reuters.com,Male,Sevilla,Spain,7 Quincy Way,347.0,Q17,2023-11-18,2.0,7.98,Pasta de Trigo,Productos Secos,3.99,Italia,Deliciosa pasta de trigo durum italiana,ideal para platos de pasta tradicionales.
523,498,Padgett,Painter,ppainterdt@scientificamerican.com,Male,Barcelona,Spain,5 Artisan Lane,498.0,C3,2023-11-21,1.0,5.49,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,mascarpone y cacao en polvo.
658,619,Nicky,Bernier,nbernierh6@4shared.com,Agender,Valladolid,Spain,55 Waubesa Trail,619.0,T20,2023-11-17,1.0,7.89,Queso Parmesano,Productos Lácteos,7.89,Italia,El famoso queso italiano,madurado durante meses para obtener su sabor ...
764,723,Sephira,Bleackley,sbleackleyk2@liveinternet.ru,desconocido,Girona,desconocido,4 Birchwood Road,723.0,A1,2023-11-22,2.0,17.98,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.
857,812,Quinn,Brenton,qbrentonmj@blogtalkradio.com,Female,Gijon,Spain,5495 Lakeland Junction,812.0,Y25,2023-11-16,2.0,13.5,Cacciatore,Embutidos,6.75,Italia,Salchichas de cerdo condimentadas con hierbas ...,perfectas para aperitivos.
940,885,Windham,Badham,wbadhamok@wired.com,Male,"Hospitalet De Llobregat, L'",Spain,68 Nelson Junction,885.0,L12,2023-11-19,1.0,6.49,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,Sardinas frescas en aceite de oliva,un bocado delicioso y saludable.
