In [1]:
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [2]:
df_clientes = pd.read_csv('clientes.csv')

df_clientes.head(5)

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle


In [4]:
df_productos = pd.read_csv('productos.csv')

df_productos.head(9)

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate mozzarella f...
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos una de...
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...
5,F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...
6,G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfal...
7,H8,Pesto Genovese,Salsas,5.99,Italia,Una salsa italiana de albahaca piñones queso p...
8,I9,Lasagna Bolognesa,Platos Preparados,7.49,Italia,Clásica lasaña con salsa boloñesa bechamel y q...


In [5]:
df_ventas = pd.read_csv('ventas.csv')

df_ventas.head(5)

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98


# Ejercicios ETL Parte I

En este caso trabajas en una empresa de venta al por menor de productos italianos y debes realizar la limpieza, transformación e integración de datos de ventas, productos y clientes para su análisis.

Los pasos que deberás seguir en este ejercicio son:


Lectura de la Información:

- Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).

- Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.

In [9]:
df_clientes.tail()

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
995,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
996,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
997,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
998,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive
999,1000,Grissel,Siberry,gsiberryrr@wikispaces.com,Female,Leon,Spain,42274 Waywood Terrace


In [26]:
df_clientes['City'].isna().sum()

np.int64(124)

In [28]:
df_clientes['City'].value_counts(dropna=False)

City
NaN                                         124
Madrid                                       51
Granada                                      42
Palma De Mallorca                            41
Malaga                                       36
Vitoria-Gasteiz                              32
Palmas De Gran Canaria, Las                  31
Pamplona/Iruña                               27
Valencia                                     27
Sevilla                                      24
Pontevedra                                   24
Cadiz                                        24
Lleida                                       23
Valladolid                                   22
Zamora                                       22
Santander                                    22
Donostia-San Sebastian                       21
Albacete                                     20
Leon                                         20
Logroño                                      20
Vigo                               

In [11]:
df_productos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               33 non-null     object 
 1   Nombre_Producto  33 non-null     object 
 2   Categoría        33 non-null     object 
 3   Precio           33 non-null     float64
 4   Origen           33 non-null     object 
 5   Descripción      33 non-null     object 
dtypes: float64(1), object(5)
memory usage: 1.7+ KB


In [12]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Cliente   100 non-null    int64  
 1   ID_Producto  100 non-null    object 
 2   Fecha_Venta  100 non-null    object 
 3   Cantidad     100 non-null    int64  
 4   Total        100 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ KB


In [13]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       973 non-null    object
 4   gender      923 non-null    object
 5   City        876 non-null    object
 6   Country     846 non-null    object
 7   Address     959 non-null    object
dtypes: int64(1), object(7)
memory usage: 62.6+ KB


In [16]:
df_clientes.describe(include='O').T

Unnamed: 0,count,unique,top,freq
first_name,1000,940,Germain,3
last_name,1000,986,Rolinson,2
email,973,973,cdunsmore0@instagram.com,1
gender,923,8,Male,424
City,876,55,Madrid,51
Country,846,1,Spain,846
Address,959,958,7 Toban Center,2


In [6]:
df_clientes['gender'].value_counts(dropna=False)*100

gender
Male           42400
Female         42200
NaN             7700
Polygender      1900
Genderqueer     1500
Agender         1200
Genderfluid     1100
Bigender        1100
Non-binary       900
Name: count, dtype: int64

In [29]:
df_clientes['id'].duplicated().any()

np.False_

In [32]:
df_productos['ID'].duplicated().any()

np.False_


Transformación de Datos:

- Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.

- Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.

- Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.

In [33]:
df_clientes_renombrado = df_clientes.rename(columns={'id':'ID_Cliente'})

In [35]:
df_clientes_renombrado.head(5)

Unnamed: 0,ID_Cliente,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle


In [36]:
df_unido = pd.merge(df_clientes_renombrado, df_ventas, on='ID_Cliente')

In [37]:
df_unido.head(5)

Unnamed: 0,ID_Cliente,first_name,last_name,email,gender,City,Country,Address,ID_Producto,Fecha_Venta,Cantidad,Total
0,29,Jere,Bampkin,jbampkins@wunderground.com,Male,Jaen,Spain,4478 Mockingbird Avenue,Z26,2023-11-14,2,14.98
1,121,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,,4679 Fair Oaks Trail,D4,2023-11-20,3,32.97
2,123,Noreen,Mouncher,nmouncher3e@theguardian.com,Female,Zaragoza,,3 Esker Circle,AF32,2023-11-08,2,9.78
3,123,Noreen,Mouncher,nmouncher3e@theguardian.com,Female,Zaragoza,,3 Esker Circle,AU47,2023-10-24,1,5.25
4,170,Brigit,Witt,bwitt4p@va.gov,Female,Dos Hermanas,Spain,38 Ohio Point,U21,2023-11-15,1,5.75


In [38]:
df_productos_renombrado = df_productos.rename(columns={'ID':'ID_Producto'})

In [39]:
df_productos_renombrado.head(5)

Unnamed: 0,ID_Producto,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate mozzarella f...
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos una de...
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...


In [40]:
df_completo = pd.merge(df_unido, df_productos_renombrado, on='ID_Producto')

In [41]:
df_completo.head(5)

Unnamed: 0,ID_Cliente,first_name,last_name,email,gender,City,Country,Address,ID_Producto,Fecha_Venta,Cantidad,Total,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,29,Jere,Bampkin,jbampkins@wunderground.com,Male,Jaen,Spain,4478 Mockingbird Avenue,Z26,2023-11-14,2,14.98,Calzone,Pizzas,7.49,Italia,Pizza cerrada y horneada rellena de queso sals...
1,121,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,,4679 Fair Oaks Trail,D4,2023-11-20,3,32.97,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
2,170,Brigit,Witt,bwitt4p@va.gov,Female,Dos Hermanas,Spain,38 Ohio Point,U21,2023-11-15,1,5.75,Salami Toscano,Embutidos,5.75,Italia,Salami de cerdo italiano curado con hierbas y ...
3,347,Egbert,Leborgne,eleborgne9m@reuters.com,Male,Sevilla,Spain,7 Quincy Way,Q17,2023-11-18,2,7.98,Pasta de Trigo,Productos Secos,3.99,Italia,Deliciosa pasta de trigo durum italiana ideal ...
4,498,Padgett,Painter,ppainterdt@scientificamerican.com,Male,Barcelona,Spain,5 Artisan Lane,C3,2023-11-21,1,5.49,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
