In [1]:
import pandas as pd
import numpy as np
import io
pd.set_option('display.max_columns', None)

In [2]:
df_clientes = pd.read_csv("files/clientes.csv", index_col=0)

df_clientes.head(2)

Unnamed: 0_level_0,first_name,last_name,email,gender,City,Country,Address
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction


In [3]:
df_productos = pd.read_csv("files/productos.csv", index_col=0)

df_productos.head(2)

Unnamed: 0_level_0,Nombre_Producto,Categoría,Precio,Origen,Descripción,Descripción_2,Descripción_3,Descripción_4,Descripción_5
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate,mozzarella fresca y albahaca.,,,
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos,una delicia italiana para disfrutar en casa.,,,


In [4]:
df_productos["Descripción"] = df_productos[['Descripción',' Descripción_2', ' Descripción_3', ' Descripción_4', ' Descripción_5']].apply(list, axis=1)

In [5]:
df_productos.drop([' Descripción_2', ' Descripción_3', ' Descripción_4', ' Descripción_5'], axis=1, inplace=True) #Esto mete en la lista también los nan, habría que mirarlo 

In [6]:
df_ventas = pd.read_csv("files/ventas.csv", index_col=0)

df_ventas.head(2)

Unnamed: 0_level_0,ID_Producto,Fecha_Venta,Cantidad,Total
ID_Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
723,A1,2023-11-22,2,17.98
498,C3,2023-11-21,1,5.49


# Exploración

In [7]:
df_clientes.shape

(1000, 7)

In [8]:
df_productos.shape

(33, 5)

In [9]:
df_ventas.shape

(100, 4)

- Las ventas tienen el ID_producto que es el index de productos. El index de clientes es el mismo que el de ventas (ID_Cliente)

- Hay 1000 clientes, 4 ventas y 33 productos

# Limpieza

## Clientes

In [10]:
df_clientes.head(5)

Unnamed: 0_level_0,first_name,last_name,email,gender,City,Country,Address
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle


In [11]:
df_clientes.columns = df_clientes.columns.str.lower()

In [12]:
for col in df_clientes.columns:
    print(f"La columna {col} tiene {df_clientes[col].isna().sum()} nulos")

La columna first_name tiene 0 nulos
La columna last_name tiene 0 nulos
La columna email tiene 27 nulos
La columna gender tiene 77 nulos
La columna city tiene 124 nulos
La columna country tiene 154 nulos
La columna address tiene 41 nulos


In [13]:
df_clientes["email"] = df_clientes["email"].fillna("Unknown")

In [14]:
df_clientes["email"].isna().sum()

0

In [15]:
df_clientes["gender"] = df_clientes["gender"].fillna("Other / Prefer not to say")

In [16]:
df_clientes["gender"].isna().sum()

0

In [17]:
df_clientes["country"] = df_clientes["country"].fillna("Spain")

In [18]:
df_clientes["city"] = df_clientes["city"].fillna("Unknown")

In [19]:
df_clientes["address"] = df_clientes["address"].fillna("Unknown")

In [20]:
for col in df_clientes.columns:
    print(f"La columna {col} tiene {df_clientes[col].isna().sum()} nulos")

La columna first_name tiene 0 nulos
La columna last_name tiene 0 nulos
La columna email tiene 0 nulos
La columna gender tiene 0 nulos
La columna city tiene 0 nulos
La columna country tiene 0 nulos
La columna address tiene 0 nulos


In [21]:
for col in df_clientes.columns:
    print(f"La columna {col} tiene {df_clientes[col].duplicated().sum()} duplicados")

La columna first_name tiene 60 duplicados
La columna last_name tiene 14 duplicados
La columna email tiene 26 duplicados
La columna gender tiene 991 duplicados
La columna city tiene 944 duplicados
La columna country tiene 999 duplicados
La columna address tiene 41 duplicados


Los duplicados de email y de address son por los "Unknown" cumputados por los nulos.

In [22]:
df_clientes[df_clientes.duplicated(subset=["email"], keep=False)].sort_values("email")

Unnamed: 0_level_0,first_name,last_name,email,gender,city,country,address
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
8,Aubree,Jirsa,Unknown,Female,Santander,Spain,8294 Schurz Court
846,Nicolle,Erridge,Unknown,Female,Pontevedra,Spain,7336 Upham Circle
779,Rozanne,Rolinson,Unknown,Female,Cadiz,Spain,8239 Porter Junction
733,Lazare,Anderton,Unknown,Other / Prefer not to say,Girona,Spain,16 Grover Point
666,Micki,Van Der Hoog,Unknown,Female,Barcelona,Spain,4 Hayes Hill
602,Renaud,Aberkirdo,Unknown,Male,Unknown,Spain,112 Gerald Lane
601,Cecilia,Lush,Unknown,Female,Malaga,Spain,03819 Mallard Avenue
593,Noreen,Crann,Unknown,Female,Leon,Spain,875 Lake View Point
578,Malinda,Baldazzi,Unknown,Agender,Torrevieja,Spain,4079 Westend Parkway
539,Margalo,Steketee,Unknown,Female,Zamora,Spain,7 Warbler Street


## Productos

In [23]:
for col in df_productos.columns:
    print(f"La columna {col} tiene {df_productos[col].isna().sum()} nulos")

La columna Nombre_Producto tiene 0 nulos
La columna Categoría tiene 0 nulos
La columna Precio tiene 0 nulos
La columna Origen tiene 0 nulos
La columna Descripción tiene 0 nulos


In [24]:
df_productos.columns = df_productos.columns.str.lower()

In [25]:
#con esto se hace un join de los elementos de una lista nueva que contiene solo aquellos elementos que no son nan
df_productos["descripción"] = df_productos["descripción"].apply(lambda x: ",".join(str(e) for e in x if isinstance(e, str))) 

Con esto quedarían eliminados los elementos de la lista que eran nulos.

In [26]:
df_productos.duplicated().sum()

0

In [27]:
#pip install deep_translator

In [28]:
# Con esto se traduce el df a inglés, para que esté como los demás. En if del map se especifica que si una celda no es str, no se traduce. Así se evitan errores.

from deep_translator import GoogleTranslator

df_productos = df_productos.map(lambda x: GoogleTranslator(source="es", target="en").translate(x) if isinstance(x, str) else x)

In [29]:
# También traducimos el título de las columnas
df_productos.rename({col: GoogleTranslator(source="es", target="en").translate(col).lower() for col in df_productos.columns}, axis=1, inplace=True)

In [30]:
df_productos.head()

Unnamed: 0_level_0,product name,category,price,origin,description
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A1,Margherita Pizza,Prepared dishes,8.99,Italy,"Classic Italian pizza with tomato, fresh mozza..."
B2,Mushroom risotto,Prepared dishes,6.75,Italy,"Creamy risotto with fresh mushrooms, an Italia..."
C3,Tiramisú,Desserts,5.49,Italy,Italian classic dessert with coffee sponge cak...
D4,Panettone,Confectionery,10.99,Italy,Italian Christmas sweet bread with fruits conf...
E5,Orechiette,Dry products,4.29,Italy,Small pastes shaped like oecchiette ideal for ...


## Ventas

In [31]:
for col in df_ventas.columns:
    print(f"La columna {col} tiene {df_ventas[col].isna().sum()} nulos")

La columna ID_Producto tiene 0 nulos
La columna Fecha_Venta tiene 0 nulos
La columna Cantidad tiene 0 nulos
La columna Total tiene 0 nulos


In [32]:
df_ventas.duplicated().sum()

0

In [36]:
df_ventas.rename({col: GoogleTranslator(source="es", target="en").translate(col).lower() for col in df_ventas.columns}, axis=1, inplace=True)

# Unión de los DataFrames

In [37]:
display(
    df_productos.head(),
    df_clientes.head(),
    df_ventas.head())

Unnamed: 0_level_0,product name,category,price,origin,description
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A1,Margherita Pizza,Prepared dishes,8.99,Italy,"Classic Italian pizza with tomato, fresh mozza..."
B2,Mushroom risotto,Prepared dishes,6.75,Italy,"Creamy risotto with fresh mushrooms, an Italia..."
C3,Tiramisú,Desserts,5.49,Italy,Italian classic dessert with coffee sponge cak...
D4,Panettone,Confectionery,10.99,Italy,Italian Christmas sweet bread with fruits conf...
E5,Orechiette,Dry products,4.29,Italy,Small pastes shaped like oecchiette ideal for ...


Unnamed: 0_level_0,first_name,last_name,email,gender,city,country,address
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
3,Michaeline,Paynton,mpaynton2@narod.ru,Female,Unknown,Spain,0 Corry Crossing
4,Filmer,Eirwin,feirwin3@intel.com,Other / Prefer not to say,Leon,Spain,5 American Ash Road
5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle


Unnamed: 0_level_0,id_product,date_,amount,total
ID_Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
723,A1,2023-11-22,2,17.98
498,C3,2023-11-21,1,5.49
121,D4,2023-11-20,3,32.97
885,L12,2023-11-19,1,6.49
347,Q17,2023-11-18,2,7.98


Habría que unir:
- clientes y ventas por ID_cliente
- productos y ventas por id_product 

En clientes, id es index y en ventas ID_cliente, también lo es 

En producto ID es index, pero en ventas no 

In [53]:
df_ventas_clientes = df_ventas.join(df_clientes, how='inner').sort_index() #esto devuelve solo los datos de los clientes que están en ventas

df_ventas_clientes.shape

(100, 11)

In [54]:
df_final = df_ventas_clientes.join(df_productos, how='left', on="id_product")

df_final.head()

Unnamed: 0_level_0,id_product,date_,amount,total,first_name,last_name,email,gender,city,country,address,product name,category,price,origin,description
ID_Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
29,Z26,2023-11-14,2,14.98,Jere,Bampkin,jbampkins@wunderground.com,Male,Jaen,Spain,4478 Mockingbird Avenue,Calzone,Pizzas,7.49,Italy,"Closed and baked pizza, stuffed with cheese, t..."
121,D4,2023-11-20,3,32.97,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,Spain,4679 Fair Oaks Trail,Panettone,Confectionery,10.99,Italy,Italian Christmas sweet bread with fruits conf...
123,AU47,2023-10-24,1,5.25,Noreen,Mouncher,nmouncher3e@theguardian.com,Female,Zaragoza,Spain,3 Esker Circle,,,,,
123,AF32,2023-11-08,2,9.78,Noreen,Mouncher,nmouncher3e@theguardian.com,Female,Zaragoza,Spain,3 Esker Circle,,,,,
170,U21,2023-11-15,1,5.75,Brigit,Witt,bwitt4p@va.gov,Female,Dos Hermanas,Spain,38 Ohio Point,Salami Tuscan,Embutidos,5.75,Italy,"Italian pork salami with herbs and spices, a p..."


In [56]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 29 to 987
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id_product    100 non-null    object 
 1   date_         100 non-null    object 
 2   amount        100 non-null    int64  
 3   total         100 non-null    float64
 4   first_name    100 non-null    object 
 5   last_name     100 non-null    object 
 6   email         100 non-null    object 
 7   gender        100 non-null    object 
 8   city          100 non-null    object 
 9   country       100 non-null    object 
 10  address       100 non-null    object 
 11  product name  10 non-null     object 
 12  category      10 non-null     object 
 13  price         10 non-null     float64
 14  origin        10 non-null     object 
 15  description   10 non-null     object 
dtypes: float64(2), int64(1), object(13)
memory usage: 13.3+ KB


In [65]:
df_final["date_"] = df_final["date_"].astype("datetime64[ns]")

In [66]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 29 to 987
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   id_product    100 non-null    object        
 1   date_         100 non-null    datetime64[ns]
 2   amount        100 non-null    int64         
 3   total         100 non-null    float64       
 4   first_name    100 non-null    object        
 5   last_name     100 non-null    object        
 6   email         100 non-null    object        
 7   gender        100 non-null    object        
 8   city          100 non-null    object        
 9   country       100 non-null    object        
 10  address       100 non-null    object        
 11  product name  10 non-null     object        
 12  category      10 non-null     object        
 13  price         10 non-null     float64       
 14  origin        10 non-null     object        
 15  description   10 non-null     object        