In [1]:
# LIBRERÍAS
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro, kstest
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames
from itertools import combinations  # para las medidas de correlación
import warnings
warnings.filterwarnings("ignore")

In [1]:
from src import functions

### Pair ETL I


Ejercicios ETL Parte I

En este caso trabajas en una empresa de venta al por menor de productos italianos y debes realizar la limpieza, transformación e integración de datos de ventas, productos y clientes para su análisis.

Los pasos que deberás seguir en este ejercicio son:



**Lectura de la Información:**


- Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).


In [2]:
ventas_df = pd.read_csv('ventas.csv')
ventas_df.head()

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98


In [3]:
clientes_df = pd.read_csv('clientes.csv')
clientes_df

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle
...,...,...,...,...,...,...,...,...
995,996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
996,997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
997,998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
998,999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive


- Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.


In [16]:
exploracion_datos(ventas_df)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Cliente   100 non-null    int64  
 1   ID_Producto  100 non-null    object 
 2   Fecha_Venta  100 non-null    object 
 3   Cantidad     100 non-null    int64  
 4   Total        100 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ KB
None
___________________ FORMA DEL DATAFRAME ____________________

El número de filas que tenemos es de 100.
El número de columnas es de 5

_______________ NULOS, ÚNICOS Y DUPLICADOS _________________

La cantidad de valores NULOS por columna es de:

ID_Cliente     0
ID_Producto    0
Fecha_Venta    0
Cantidad       0
Total          0
dtype: int64
____________________________________________________________

La cantidad de valores ÚNICOS por columna es de:

La columna ID_Clie

In [15]:
exploracion_datos(clientes_df)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          1000 non-null   int64 
 1   first_name  1000 non-null   object
 2   last_name   1000 non-null   object
 3   email       973 non-null    object
 4   gender      923 non-null    object
 5   City        876 non-null    object
 6   Country     846 non-null    object
 7   Address     959 non-null    object
dtypes: int64(1), object(7)
memory usage: 62.6+ KB
None
___________________ FORMA DEL DATAFRAME ____________________

El número de filas que tenemos es de 1000.
El número de columnas es de 8

_______________ NULOS, ÚNICOS Y DUPLICADOS _________________

La cantidad de valores NULOS por columna es de:

id              0
first_name      0
last_name       0
email          27
gender         77
City          124
Country       154
Addr

**Transformación de Datos:**


- Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.


- Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.


- Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.
NOTA Este ejercicio debe realizarse en un archivo .py

In [38]:
ver_duplicados(clientes_df, 'email')

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
7,8,Aubree,Jirsa,,Female,Santander,,8294 Schurz Court
16,17,Yance,Martinetto,,Male,Pamplona/Iruña,Spain,4 Anthes Pass
42,43,Salmon,Ricciardello,,Male,Donostia-San Sebastian,Spain,5237 Montana Drive
81,82,Uta,Crasford,,Female,Lugo,Spain,
167,168,Storm,Musterd,,Female,Badajoz,Spain,
171,172,Madonna,McClymond,,Female,"Palmas De Gran Canaria, Las",Spain,70142 Prairieview Point
211,212,Darsey,Scargle,,Female,"Coruña, A",,04988 Roxbury Court
213,214,Hallsy,Deeney,,Male,Barcelona,Spain,8684 Crescent Oaks Trail
215,216,Alva,Gauchier,,Male,Badajoz,,7 Cherokee Center
231,232,Ethelred,Aireton,,Male,,Spain,6166 Starling Way


In [37]:
ver_duplicados(clientes_df, 'Address')

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
9,10,Igor,Dwelley,idwelley9@flickr.com,Male,Lugo,Spain,
34,35,Egon,Lafflin,elaffliny@a8.net,Male,Sevilla,Spain,
72,73,Reinald,Platts,rplatts20@phpbb.com,,Malaga,Spain,
73,74,Tate,Capehorn,tcapehorn21@comsenz.com,Male,Barcelona,Spain,
81,82,Uta,Crasford,,Female,Lugo,Spain,
114,115,Carole,Biasetti,cbiasetti36@soup.io,Female,,Spain,
147,148,Carling,Pharo,cpharo43@youku.com,Male,Donostia-San Sebastian,Spain,
156,157,Nancie,Radcliffe,nradcliffe4c@mozilla.org,Female,,Spain,
167,168,Storm,Musterd,,Female,Badajoz,Spain,
175,176,Darrick,Lennox,dlennox4v@ycombinator.com,Male,,,


In [45]:
pasar_minuscula(ventas_df)

{'ID_Cliente': 'id_cliente',
 'ID_Producto': 'id_producto',
 'Fecha_Venta': 'fecha_venta',
 'Cantidad': 'cantidad',
 'Total': 'total'}

In [44]:
pasar_minuscula(clientes_df)

{'id': 'id',
 'first_name': 'first_name',
 'last_name': 'last_name',
 'email': 'email',
 'gender': 'gender',
 'City': 'city',
 'Country': 'country',
 'Address': 'address'}

In [54]:
clientes_df['Country'].unique()

array(['Spain', nan], dtype=object)

In [59]:
clientes_df['City'].mode()

0    Madrid
Name: City, dtype: object

In [75]:
conteo_columnas_cat(clientes_df)

"Las columnas categóricas que tienen nulos son : Index(['email', 'gender', 'City', 'Address'], dtype='object')"

In [70]:
reemplazar_nulos_por_moda(clientes_df, 'Country')

'Hay 0 nulos'

In [87]:
reemplazar_unknown(columnas_desconocido, clientes_df)

Después del reemplazo usando 'fillna' quedan los siguientes nulos
City       0
email      0
Address    0
gender     0
dtype: int64
