In [10]:

# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import ttest_ind, norm, chi2_contingency, f_oneway

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

## ETL

En este caso trabajas en una empresa de venta al por menor de productos italianos y debes realizar la limpieza, transformación e integración de datos de ventas, productos y clientes para su análisis.

1. Lectura de la Información:

    - Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).

    - Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.

2. Transformación de Datos:

    - Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.

    - Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.

    - Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.

In [11]:
with open("files/productos.csv", 'r') as file:

    lines = file.readlines()

In [12]:
print(lines[8])

7,H8,Pesto Genovese,Salsas,5.99,Italia,"Una salsa italiana de albahaca, piñones, queso parmesano y aceite de oliva"



In [15]:
## revisar:
def unificar(lines):
    lista_columnas = lines[0][0:-1].split(",")
    #print(lista_columnas)
    lista_productos = []
    for line in lines[1:-1]:
        split = line.split(",")
        join = ",".join(split[5:-1])
        all = split[0:5]
        all.append(join)
        lista_productos.append(all)
    df_all = pd.DataFrame(lista_productos)
    df_all.columns = lista_columnas
    df_all = df_all.set_index("ID")
    return df_all.to_csv("files/productos1.csv")
    

In [14]:
unificar(lines)

ValueError: Length mismatch: Expected axis has 6 elements, new values have 7 elements

In [16]:
split = lines[8].split(",")
join = ",".join(split[5:])
all = split[0:5]
all.append(join)
print(all)


['7', 'H8', 'Pesto Genovese', 'Salsas', '5.99', 'Italia,"Una salsa italiana de albahaca, piñones, queso parmesano y aceite de oliva"\n']


In [17]:
#customer = pd.read_csv("files/clientes.csv").reset_index(inplace = True)
#sales = customer = pd.read_csv("files/ventas.csv", index_col = 0)
items = pd.read_csv("files/productos.csv",index_col = 0)
items= items.set_index("ID")



In [None]:
items.head()

Unnamed: 0_level_0,Nombre_Producto,Categoría,Precio,Origen,Descripción
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos
C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
E5,Orecchiette,Productos Secos,4.29,Italia,


In [19]:
def apertura_fichero(ruta):
    csv_apertura= pd.read_csv(ruta, index_col=0)
    csv_apertura.reset_index(inplace = True)
    display(csv_apertura.head())
    return csv_apertura


In [20]:
# se puede revisar y mejorar
def exploracion_datos(csv):
    forma = csv.shape
    print(f"La forma es {forma}")
    print("_______________")
    nulos = csv.isna().sum().reset_index()
    print(f"Los nulos son:")
    display(nulos)
    print("_______________")
    duplicados = csv.duplicated().sum()
    print(f"Hay {duplicados} duplicados")
    print("_______________")
    tipo_dato = csv.dtypes.reset_index()
    print(f"Los datos son de tipo:")
    display(tipo_dato)
    print("_______________")
    columnas = csv.columns
    print(f"Las columnas son {columnas}")

In [None]:
#para customers tenemos que hacer gestion nulos en columnas categoricas

In [77]:
customers = apertura_fichero("files/clientes.csv")

Unnamed: 0,id,first_name,last_name,email,gender,City,Country,Address
0,1,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing
1,2,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction
2,3,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing
3,4,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road
4,5,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle


In [78]:
exploracion_datos(customers)

La forma es (1000, 8)
_______________
Los nulos son:


Unnamed: 0,index,0
0,id,0
1,first_name,0
2,last_name,0
3,email,27
4,gender,77
5,City,124
6,Country,154
7,Address,41


_______________
Hay 0 duplicados
_______________
Los datos son de tipo:


Unnamed: 0,index,0
0,id,int64
1,first_name,object
2,last_name,object
3,email,object
4,gender,object
5,City,object
6,Country,object
7,Address,object


_______________
Las columnas son Index(['id', 'first_name', 'last_name', 'email', 'gender', 'City', 'Country',
       'Address'],
      dtype='object')


In [81]:
def customer_correcion(customers):
    #lista_ciudades = []
    for line in customers["City"]:
        split = line.split(",")
        customers["City"] =  " ".join(split)
        print(customers["City"])
        #lista_ciudades.append(all)
    #return customers["City"]

    
  

In [82]:
customers["City"]

0                Palma De Mallorca
1                             Lugo
2                              NaN
3                             Leon
4      Hospitalet De Llobregat, L'
                  ...             
995                         Zamora
996                     Pontevedra
997                           Vigo
998                   Dos Hermanas
999                           Leon
Name: City, Length: 1000, dtype: object

In [62]:
customer_correcion(customers)

0      Palma De Mallorca
1      Palma De Mallorca
2      Palma De Mallorca
3      Palma De Mallorca
4      Palma De Mallorca
             ...        
995    Palma De Mallorca
996    Palma De Mallorca
997    Palma De Mallorca
998    Palma De Mallorca
999    Palma De Mallorca
Name: City, Length: 1000, dtype: object

In [None]:
sales = apertura_fichero("files/ventas.csv")

Unnamed: 0,ID_Cliente,ID_Producto,Fecha_Venta,Cantidad,Total
0,723,A1,2023-11-22,2,17.98
1,498,C3,2023-11-21,1,5.49
2,121,D4,2023-11-20,3,32.97
3,885,L12,2023-11-19,1,6.49
4,347,Q17,2023-11-18,2,7.98


In [None]:
items = apertura_fichero("files/productos1.csv")

Unnamed: 0,ID,Nombre_Producto,Categoría,Precio,Origen,Descripción
0,A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate
1,B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos
2,C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
3,D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
4,E5,Orecchiette,Productos Secos,4.29,Italia,


In [None]:
exploracion_datos(items)

La forma es (33, 7)
_______________
Los nulos son:


Unnamed: 0,index,0
0,index,0
1,ID,0
2,Nombre_Producto,0
3,Categoría,0
4,Precio,0
5,Origen,0
6,Descripción,1


_______________
Hay 0 duplicados
_______________
Los datos son de tipo:


Unnamed: 0,index,0
0,index,int64
1,ID,object
2,Nombre_Producto,object
3,Categoría,object
4,Precio,float64
5,Origen,object
6,Descripción,object


_______________
Las columnas son Index(['index', 'ID', 'Nombre_Producto', 'Categoría', 'Precio', 'Origen',
       'Descripción'],
      dtype='object')


In [None]:
nulos = items.isna().sum().reset_index()
nulos

Unnamed: 0,index,0
0,index,0
1,ID,0
2,Nombre_Producto,0
3,Categoría,0
4,Precio,0
5,Origen,0
6,Descripción,1


In [None]:
exploracion_datos(items)

La forma es (21, 7)
_______________
Los nulos son:


Unnamed: 0,index,0
0,index,0
1,ID,0
2,Nombre_Producto,0
3,Categoría,0
4,Precio,0
5,Origen,0
6,Descripción,1


_______________
Hay 0 duplicados
_______________
Los datos son de tipo:


Unnamed: 0,index,0
0,index,object
1,ID,object
2,Nombre_Producto,object
3,Categoría,float64
4,Precio,object
5,Origen,object
6,Descripción,object


_______________
Las columnas son Index(['index', 'ID', 'Nombre_Producto', 'Categoría', 'Precio', 'Origen',
       'Descripción'],
      dtype='object')


In [None]:
exploracion_datos(sales)

La forma es (100, 5)
_______________
Los nulos son:


Unnamed: 0,index,0
0,ID_Cliente,0
1,ID_Producto,0
2,Fecha_Venta,0
3,Cantidad,0
4,Total,0


_______________
Hay 0 duplicados
_______________
Los datos son de tipo:


Unnamed: 0,index,0
0,ID_Cliente,int64
1,ID_Producto,object
2,Fecha_Venta,object
3,Cantidad,int64
4,Total,float64


_______________
Las columnas son Index(['ID_Cliente', 'ID_Producto', 'Fecha_Venta', 'Cantidad', 'Total'], dtype='object')
