Ejercicios ETL Parte I
En este caso trabajas en una empresa de venta al por menor de productos italianos y debes realizar la limpieza, transformación e integración de datos de ventas, productos y clientes para su análisis.

Los pasos que deberás seguir en este ejercicio son:

Lectura de la Información:

Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).

Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.

Transformación de Datos:

Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.

Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.

Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.

NOTA Este ejercicio debe realizarse en un archivo .py

In [1]:
import os
from dotenv import load_dotenv

In [2]:
import requests
import pandas as pd
import os
from dotenv import load_dotenv

In [3]:
pd.read_csv("ventas.csv")

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98
...,...,...,...,...,...
95,234,AR136,2023-09-04,1,8.45
96,987,AS137,2023-09-03,2,12.50
97,543,AT138,2023-09-02,1,4.75
98,234,AU139,2023-09-01,2,9.98


In [6]:
df_ventas = pd.read_csv("ventas.csv")
df_ventas.head(5)

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98


In [7]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Cliente   100 non-null    int64  
 1   ID_Producto  100 non-null    object 
 2   Fecha_Venta  100 non-null    object 
 3   Cantidad     100 non-null    int64  
 4   Total        100 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ KB


In [8]:
df_ventas.isnull().sum()

ID_Cliente     0
ID_Producto    0
Fecha_Venta    0
Cantidad       0
Total          0
dtype: int64

In [10]:
df_ventas.nunique()

ID_Cliente      30
ID_Producto    100
Fecha_Venta     80
Cantidad         3
Total           28
dtype: int64

In [12]:
df_ventas.drop_duplicates(inplace=True)

In [13]:
df_ventas.shape

(100, 5)

In [14]:
df_ventas.sample(10)

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
35,987,BH76,2023-11-03,1,4.25
10,123,AF32,2023-11-08,2,9.78
42,567,BO83,2023-10-27,2,12.5
39,876,BL80,2023-10-30,1,6.99
36,798,BI77,2023-11-02,2,14.5
87,654,AJ128,2023-09-12,1,5.25
14,356,AJ36,2023-11-04,2,10.5
44,234,BQ85,2023-10-25,2,9.98
37,321,BJ78,2023-11-01,1,8.75
89,234,AL130,2023-09-10,1,8.45


In [4]:
pd.read_csv("clientes.csv")

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
...,...,...,...,...,...,...,...,...
995,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
996,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
997,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
998,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive


In [27]:
df_clientes = pd.read_csv("clientes.csv")
df_clientes.head(10)

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
5,6,Stacy,Minchinton,sminchinton5@ameblo.jp,Male,Palma De Mallorca,Spain,4 Meadow Vale Way
6,7,Harv,Sandes,hsandes6@who.int,Male,Lleida,Spain,20 Menomonie Circle
7,8,Aubree,Jirsa,,Female,Santander,,8294 Schurz Court
8,9,Tymon,Darragh,tdarragh8@free.fr,Male,,Spain,41 Trailsway Way
9,10,Igor,Dwelley,idwelley9@flickr.com,Male,Lugo,Spain,


In [28]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       973 non-null    object
 4   gender      923 non-null    object
 5   City        876 non-null    object
 6   Country     846 non-null    object
 7   Address     959 non-null    object
dtypes: int64(1), object(7)
memory usage: 62.6+ KB


In [29]:
df_clientes.columns

Index(['id', 'first_name', 'last_name', 'email', 'gender', 'City', 'Country',
       'Address'],
      dtype='object')

In [30]:
df_clientes.isnull().sum()

id              0
first_name      0
last_name       0
email          27
gender         77
City          124
Country       154
Address        41
dtype: int64

In [31]:
df_clientes.nunique()

id            1000
first_name     940
last_name      986
email          973
gender           8
City            55
Country          1
Address        958
dtype: int64

In [32]:
df_clientes.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Length: 1000, dtype: bool

In [34]:
df_clientes.drop_duplicates(inplace=True)

In [35]:
df_clientes.shape

(1000, 8)

In [37]:
df_clientes.sample(10)

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
628,629,Opaline,Alti,oaltihg@ifeng.com,,,Spain,4934 Heath Junction
58,59,Marj,Fetter,mfetter1m@go.com,Female,Valencia,,964 Veith Drive
73,74,Tate,Capehorn,tcapehorn21@comsenz.com,Male,Barcelona,Spain,
873,874,Roch,Twamley,rtwamleyo9@yellowbook.com,Bigender,Getafe,,1019 Maywood Junction
610,611,Jacinda,Kenna,jkennagy@sbwire.com,Female,,Spain,48639 Erie Park
482,483,Clemente,Ruthen,cruthende@seattletimes.com,Male,Granada,,9 Crescent Oaks Point
642,643,Matt,Bishop,mbishophu@discuz.net,Non-binary,Donostia-San Sebastian,Spain,414 Forster Terrace
992,993,Evangelina,Dutton,eduttonrk@altervista.org,Genderqueer,Girona,Spain,60 Redwing Road
649,650,Anna,Edinburgh,aedinburghi1@salon.com,Female,"Coruña, A",Spain,6603 Ryan Hill
439,440,Kalila,Goldspink,,Female,Sevilla,,973 Loomis Avenue


In [38]:
df_clientes.fillna("Desconocido",inplace=True)

In [40]:
df_clientes.head(10)

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,Desconocido,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,Desconocido,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
5,6,Stacy,Minchinton,sminchinton5@ameblo.jp,Male,Palma De Mallorca,Spain,4 Meadow Vale Way
6,7,Harv,Sandes,hsandes6@who.int,Male,Lleida,Spain,20 Menomonie Circle
7,8,Aubree,Jirsa,Desconocido,Female,Santander,Desconocido,8294 Schurz Court
8,9,Tymon,Darragh,tdarragh8@free.fr,Male,Desconocido,Spain,41 Trailsway Way
9,10,Igor,Dwelley,idwelley9@flickr.com,Male,Lugo,Spain,Desconocido


In [41]:
df_clientes.isnull().sum()

id            0
first_name    0
last_name     0
email         0
gender        0
City          0
Country       0
Address       0
dtype: int64

In [45]:
pd.read_csv("productos_1.csv",sep=";")

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,"Clásica pizza italiana con tomate, mozzarella ..."
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,"Risotto cremoso con champiñones frescos, una d..."
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...
5,F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...
6,G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfal...
7,H8,Pesto Genovese,Salsas,5.99,Italia,"Una salsa italiana de albahaca, piñones, queso..."
8,I9,Lasagna Bolognesa,Platos Preparados,7.49,Italia,"Clásica lasaña con salsa boloñesa, bechamel y ..."
9,J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...
