# Ejercicios ETL Parte I
En este caso trabajas en una empresa de venta al por menor de productos italianos y debes realizar la limpieza, transformación e integración de datos de ventas, productos y clientes para su análisis.

Los pasos que deberás seguir en este ejercicio son:

1. Lectura de la Información:

- Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).
- Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.

In [1]:
import pandas as pd

In [5]:
clientes = pd.read_csv("files/clientes.csv")
clientes.head(2)

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction


In [7]:
ventas = pd.read_csv("files/ventas.csv")
ventas.head(2)

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49


In [24]:
# Esto en caso de que algunas filas tengán más datos y sean necesarias más columnas.
df = pd.read_csv("files/productos.csv", names=["col1", "col2", "col3", "col4", "col5", "col6", "extra1", "extra2", "extra3", "extra4"], skiprows=1)
df.head()

In [28]:
productos = pd.read_csv("files/productos.csv")
productos.head(2)

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate; mozzarella ...
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos; una d...


In [50]:
def exploracion_df(df):

    display(df.head(5))
    print(f"\nEl df tiene las sigiuentes filas y columnas {df.shape}\n-----" )
    print(f"{df.columns}\n-----")
    display(f"{df.info()}\n-----")
    display(df.describe().T)


## Exploración Clientes

- Todas las columnas son del tipo correcto y son consistentes con los valores que contienen
- Revisar los nulos más adelante en las columnas email,gender,City,Country,Address 
- No hay filas duplicadas
- Modificar columnas para que la primera letra sea mayúscula con .title()
- Modificar id por Id_Cliente


In [51]:
exploracion_df(clientes)

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle



El df tiene las sigiuentes filas y columnas (1000, 8)
-----
Index(['id', 'first_name', 'last_name', 'email', 'gender', 'City', 'Country',
       'Address'],
      dtype='object')
-----
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       973 non-null    object
 4   gender      923 non-null    object
 5   City        876 non-null    object
 6   Country     846 non-null    object
 7   Address     959 non-null    object
dtypes: int64(1), object(7)
memory usage: 62.6+ KB


'None\n-----'

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,1000.0,500.5,288.819436,1.0,250.75,500.5,750.25,1000.0


In [42]:
clientes["Country"].unique()

array(['Spain', nan], dtype=object)

In [47]:
clientes["id"].duplicated().sum()

0

## Exploración Productos

- Consistencia con los valores de las columnas y el tipo de dato
- Modificar Descripción, sustituir los ";" por ","
- Modificar Precio y añadir €
- No hay nulos ni filas duplicadas
- Cambiar ID por ID_Producto


In [53]:
exploracion_df(productos)

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate; mozzarella ...
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos; una d...
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...



El df tiene las sigiuentes filas y columnas (33, 6)
-----
Index(['ID', 'Nombre_Producto', 'Categoría', 'Precio', 'Origen',
       'Descripción'],
      dtype='object')
-----
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               33 non-null     object 
 1   Nombre_Producto  33 non-null     object 
 2   Categoría        33 non-null     object 
 3   Precio           33 non-null     float64
 4   Origen           33 non-null     object 
 5   Descripción      33 non-null     object 
dtypes: float64(1), object(5)
memory usage: 1.7+ KB


'None\n-----'

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Precio,33.0,6.563939,2.441529,2.49,4.75,5.99,7.89,12.45


In [48]:
productos.duplicated().sum()

0

## Exploración Ventas

- Cambiar la columna Fecha_Venta a tipo Date
- Añadir a la columna Total €
- No hay nulos ni duplicados

In [52]:
exploracion_df(ventas)

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98



El df tiene las sigiuentes filas y columnas (100, 5)
-----
Index(['ID_Cliente', 'ID_Producto', 'Fecha_Venta', 'Cantidad', 'Total'], dtype='object')
-----
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Cliente   100 non-null    int64  
 1   ID_Producto  100 non-null    object 
 2   Fecha_Venta  100 non-null    object 
 3   Cantidad     100 non-null    int64  
 4   Total        100 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ KB


'None\n-----'

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID_Cliente,100.0,572.05,290.403877,29.0,234.0,543.0,876.0,987.0
Cantidad,100.0,1.65,0.729951,1.0,1.0,1.5,2.0,3.0
Total,100.0,11.2005,7.031316,4.25,5.93,8.75,12.5,32.97


In [49]:
ventas.duplicated().sum()

0


2. Transformación de Datos:

Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.

Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.

Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.

In [None]:
# Unir Ventas con Productos por IDproducto
# Unir ventas con clientes por IDCliente
# Primero tenemos que cambiar los nombres de las columnas

In [56]:
productos = productos.rename(columns={'ID': 'ID_Producto'})
productos.head(2)

Unnamed: 0,ID_Producto,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate; mozzarella ...
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos; una d...


In [57]:
clientes = clientes.rename(columns={'id': 'ID_Cliente'})
clientes.head(2)

Unnamed: 0,ID_Cliente,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction


In [60]:
union= pd.merge(clientes,ventas,left_on ='ID_Cliente', right_on = 'ID_Cliente',how ='inner')
union.head()

Unnamed: 0,ID_Cliente,first_name,last_name,email,gender,City,Country,Address,ID_Producto,Fecha_Venta,Cantidad,Total
0,29,Jere,Bampkin,jbampkins@wunderground.com,Male,Jaen,Spain,4478 Mockingbird Avenue,Z26,2023-11-14,2,14.98
1,121,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,,4679 Fair Oaks Trail,D4,2023-11-20,3,32.97
2,123,Noreen,Mouncher,nmouncher3e@theguardian.com,Female,Zaragoza,,3 Esker Circle,AF32,2023-11-08,2,9.78
3,123,Noreen,Mouncher,nmouncher3e@theguardian.com,Female,Zaragoza,,3 Esker Circle,AU47,2023-10-24,1,5.25
4,170,Brigit,Witt,bwitt4p@va.gov,Female,Dos Hermanas,Spain,38 Ohio Point,U21,2023-11-15,1,5.75


In [61]:
df = pd.merge(union,productos,left_on ='ID_Producto', right_on = 'ID_Producto',how ='inner')
df.head()

Unnamed: 0,ID_Cliente,first_name,last_name,email,gender,City,Country,Address,ID_Producto,Fecha_Venta,Cantidad,Total,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,29,Jere,Bampkin,jbampkins@wunderground.com,Male,Jaen,Spain,4478 Mockingbird Avenue,Z26,2023-11-14,2,14.98,Calzone,Pizzas,7.49,Italia,Pizza cerrada y horneada; rellena de queso; sa...
1,121,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,,4679 Fair Oaks Trail,D4,2023-11-20,3,32.97,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
2,170,Brigit,Witt,bwitt4p@va.gov,Female,Dos Hermanas,Spain,38 Ohio Point,U21,2023-11-15,1,5.75,Salami Toscano,Embutidos,5.75,Italia,Salami de cerdo italiano curado con hierbas y ...
3,347,Egbert,Leborgne,eleborgne9m@reuters.com,Male,Sevilla,Spain,7 Quincy Way,Q17,2023-11-18,2,7.98,Pasta de Trigo,Productos Secos,3.99,Italia,Deliciosa pasta de trigo durum italiana; ideal...
4,498,Padgett,Painter,ppainterdt@scientificamerican.com,Male,Barcelona,Spain,5 Artisan Lane,C3,2023-11-21,1,5.49,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
