In [3]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

In [4]:
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Ejercicios ETL Parte I
  - En este caso trabajas en una empresa de venta al por menor de productos italianos y debes realizar la limpieza, transformación e integración de datos de ventas, productos y clientes para su análisis.
  - Los pasos que deberás seguir en este ejercicio son:

1. Lectura de la Información:
   - Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).
   - Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.

2. Transformación de Datos:
   - Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.
   -Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.
   - Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.

- NOTA Este ejercicio debe realizarse en un archivo .py

In [None]:
df_productos = pd.read_csv('5.2-productos.csv', on_bad_lines='skip')

In [None]:
df_productos = pd.read_csv('productos.csv', delimiter=';')


In [7]:
df_productos.isnull().sum()

Nombre_Producto    0
Categoría          0
Precio             0
Origen             0
Descripción        0
dtype: int64

In [None]:
df_ventas = pd.read_csv('5.1-ventas.csv')
df_clientes = pd.read_csv('5.3-clientes.csv')

In [9]:
df_clientes

Unnamed: 0_level_0,first_name,last_name,email,gender,City,Country,Address
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
...,...,...,...,...,...,...,...
996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive


In [10]:
df_clientes['Country'].value_counts()

Country
Spain    846
Name: count, dtype: int64

In [11]:
df_clientes['Country'].isnull().sum()

np.int64(154)

In [12]:
df_clientes['City'].value_counts()

City
Madrid                                      51
Granada                                     42
Palma De Mallorca                           41
Malaga                                      36
Vitoria-Gasteiz                             32
Palmas De Gran Canaria, Las                 31
Pamplona/Iruña                              27
Valencia                                    27
Sevilla                                     24
Pontevedra                                  24
Cadiz                                       24
Lleida                                      23
Valladolid                                  22
Zamora                                      22
Santander                                   22
Donostia-San Sebastian                      21
Albacete                                    20
Leon                                        20
Logroño                                     20
Vigo                                        20
Santiago De Compostela                      18
Badajoz 

In [8]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, 1 to 1000
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   first_name  1000 non-null   object
 1   last_name   1000 non-null   object
 2   email       973 non-null    object
 3   gender      923 non-null    object
 4   City        876 non-null    object
 5   Country     846 non-null    object
 6   Address     959 non-null    object
dtypes: object(7)
memory usage: 62.5+ KB


In [38]:
df_clientes.isnull().sum()

ID_Cliente      0
first_name      0
last_name       0
email          27
gender         77
City          124
Country       154
Address        41
dtype: int64

In [26]:
df_ventas

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98
...,...,...,...,...,...
95,234,AR136,2023-09-04,1,8.45
96,987,AS137,2023-09-03,2,12.50
97,543,AT138,2023-09-02,1,4.75
98,234,AU139,2023-09-01,2,9.98


In [39]:
df_ventas.isnull().sum()

ID_Cliente     0
ID_Producto    0
Fecha_Venta    0
Cantidad       0
Total          0
dtype: int64

In [11]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Cliente   100 non-null    int64  
 1   ID_Producto  100 non-null    object 
 2   Fecha_Venta  100 non-null    object 
 3   Cantidad     100 non-null    int64  
 4   Total        100 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ KB


In [27]:
df_productos

Unnamed: 0,index,ID_Producto,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,"Clásica pizza italiana con tomate,mozzarella f..."
1,1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,"Risotto cremoso con champiñones frescos,una de..."
2,2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...
5,5,F6,Polenta Tradicional,Harinas,3.75,Italia,Harina de maíz italiana para preparar la tradi...
6,6,G7,Mozzarella di Bufala,Productos Lácteos,9.25,Italia,Mozzarella fresca elaborada con leche de búfal...
7,7,H8,Pesto Genovese,Salsas,5.99,Italia,"Una salsa italiana de albahaca,piñones,queso p..."
8,8,I9,Lasagna Bolognesa,Platos Preparados,7.49,Italia,"Clásica lasaña con salsa boloñesa,bechamel y q..."
9,9,J10,Arroz Arborio,Productos Secos,4.89,Italia,Arroz de grano corto perfecto para risottos it...


In [13]:
df_productos['Origen'].value_counts()

Origen
Italia    33
Name: count, dtype: int64

In [13]:
df_productos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 33 entries, A1 to GG33
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Nombre_Producto  33 non-null     object 
 1   Categoría        33 non-null     object 
 2   Precio           33 non-null     float64
 3   Origen           33 non-null     object 
 4   Descripción      33 non-null     object 
dtypes: float64(1), object(4)
memory usage: 1.5+ KB


In [16]:
df_productos.rename(columns={'ID': 'ID_Producto'}, inplace=True)

df_productos.head()

Unnamed: 0,index,ID_Producto,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,"Clásica pizza italiana con tomate,mozzarella f..."
1,1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,"Risotto cremoso con champiñones frescos,una de..."
2,2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,4,E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...


In [17]:
df_ventas_productos = pd.merge(df_ventas, df_productos, on='ID_Producto', how='left')
df_ventas_productos.head()


Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total,index,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,723,A1,2023-11-22,2,17.98,0.0,Pizza Margherita,Platos Preparados,8.99,Italia,"Clásica pizza italiana con tomate,mozzarella f..."
1,498,C3,2023-11-21,1,5.49,2.0,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
2,121,D4,2023-11-20,3,32.97,3.0,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
3,885,L12,2023-11-19,1,6.49,11.0,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,"Sardinas frescas en aceite de oliva,un bocado ..."
4,347,Q17,2023-11-18,2,7.98,16.0,Pasta de Trigo,Productos Secos,3.99,Italia,"Deliciosa pasta de trigo durum italiana,ideal ..."


In [24]:
df_total = pd.merge(df_ventas_productos, df_clientes, on='ID_Cliente', how='left')

df_total


Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total,index,Nombre_Producto,Categoría,Precio,Origen,Descripción,first_name,last_name,email,gender,City,Country,Address
0,723,A1,2023-11-22,2,17.98,0.0,Pizza Margherita,Platos Preparados,8.99,Italia,"Clásica pizza italiana con tomate,mozzarella f...",Sephira,Bleackley,sbleackleyk2@liveinternet.ru,,Girona,,4 Birchwood Road
1,498,C3,2023-11-21,1,5.49,2.0,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...,Padgett,Painter,ppainterdt@scientificamerican.com,Male,Barcelona,Spain,5 Artisan Lane
2,121,D4,2023-11-20,3,32.97,3.0,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...,Wye,Sinncock,wsinncock3c@fc2.com,Male,Santander,,4679 Fair Oaks Trail
3,885,L12,2023-11-19,1,6.49,11.0,Sardinas en Aceite de Oliva,Pescados en Conserva,3.99,Italia,"Sardinas frescas en aceite de oliva,un bocado ...",Windham,Badham,wbadhamok@wired.com,Male,"Hospitalet De Llobregat, L'",Spain,68 Nelson Junction
4,347,Q17,2023-11-18,2,7.98,16.0,Pasta de Trigo,Productos Secos,3.99,Italia,"Deliciosa pasta de trigo durum italiana,ideal ...",Egbert,Leborgne,eleborgne9m@reuters.com,Male,Sevilla,Spain,7 Quincy Way
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,234,AR136,2023-09-04,1,8.45,,,,,,,Anni,Handrock,ahandrock6h@vk.com,Female,Sevilla,Spain,10 Maple Road
96,987,AS137,2023-09-03,2,12.50,,,,,,,Cecil,Hemms,chemmsre@reverbnation.com,Male,,Spain,1737 Commercial Lane
97,543,AT138,2023-09-02,1,4.75,,,,,,,Mano,Briat,mbriatf2@parallels.com,,Sevilla,,90 Bultman Street
98,234,AU139,2023-09-01,2,9.98,,,,,,,Anni,Handrock,ahandrock6h@vk.com,Female,Sevilla,Spain,10 Maple Road


In [32]:
df_total.shape
print(f'El DataFrame tiene {df_total.shape[0]} filas y {df_total.shape[1]} columnas')

El DataFrame tiene 100 filas y 18 columnas


In [33]:
# Muestra los valores totales del DataFrame
df_total.size
print(f'El DataFrame tiene {df_total.size} valores')

El DataFrame tiene 1800 valores


In [35]:
columnas = ['index',            
'Nombre_Producto',    
'Categoría',          
'Precio',             
'Origen',            
'Descripción',        
'gender',             
'City',              
'Country' ]

In [36]:
for col in columnas:
    procentajes_nulos = (df_total[col].isna().sum() / len(df_total)) * 100
    print(f'La columna {col.upper()} {df_total[col].isnull().sum()} tiene valores nulos lo que es igual a {procentajes_nulos.round()} %')

La columna INDEX 90 tiene valores nulos lo que es igual a 90.0 %
La columna NOMBRE_PRODUCTO 90 tiene valores nulos lo que es igual a 90.0 %
La columna CATEGORÍA 90 tiene valores nulos lo que es igual a 90.0 %
La columna PRECIO 90 tiene valores nulos lo que es igual a 90.0 %
La columna ORIGEN 90 tiene valores nulos lo que es igual a 90.0 %
La columna DESCRIPCIÓN 90 tiene valores nulos lo que es igual a 90.0 %
La columna GENDER 17 tiene valores nulos lo que es igual a 17.0 %
La columna CITY 16 tiene valores nulos lo que es igual a 16.0 %
La columna COUNTRY 26 tiene valores nulos lo que es igual a 26.0 %


In [30]:
df_total.duplicated().sum()

np.int64(0)