
Lectura de la Información:

- Leer los archivos CSV (ventas.csv, productos.csv, clientes.csv).
- Explorar los conjuntos de datos para comprender su estructura, columnas, tipos de datos, etc.

Transformación de Datos:

- Limpiar los datos: manejar valores nulos, eliminar duplicados si los hay, corregir errores tipográficos, etc.
- Realizar la integración de datos: unir los conjuntos de datos apropiados para obtener una tabla única que contenga información de ventas junto con detalles de productos y clientes.
- Aplicar transformaciones relevantes según sea necesario: por ejemplo, convertir tipos de datos, renombrar columnas, crear nuevas características derivadas, etc.

In [1]:
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)

In [2]:
df_clientes = pd.read_csv("files/clientes.csv", index_col=0)
df_clientes.tail()

Unnamed: 0_level_0,first_name,last_name,email,gender,City,Country,Address
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
996,Ray,Tarpey,rtarpeyrn@bravesites.com,Female,Zamora,Spain,36384 Sommers Terrace
997,Flem,Roderham,froderhamro@dropbox.com,Male,Pontevedra,Spain,93177 Eastwood Parkway
998,Winifield,Blakes,wblakesrp@jiathis.com,Male,Vigo,Spain,03044 Grayhawk Road
999,Lanita,Espinosa,lespinosarq@discuz.net,Female,Dos Hermanas,Spain,2 Schmedeman Drive
1000,Grissel,Siberry,gsiberryrr@wikispaces.com,Female,Leon,Spain,42274 Waywood Terrace


In [3]:
df_productos = pd.read_csv("files/productos.csv", index_col=0)
df_productos.head()

Unnamed: 0_level_0,Nombre_Producto,Categoría,Precio,Origen,Descripción
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A1,Pizza Margherita,Platos Preparados,8.99,Italia,Clásica pizza italiana con tomate mozzarella f...
B2,Risotto de Champiñones,Platos Preparados,6.75,Italia,Risotto cremoso con champiñones frescos una de...
C3,Tiramisú,Postres,5.49,Italia,Postre clásico italiano con capas de bizcocho ...
D4,Panettone,Repostería,10.99,Italia,Pan dulce navideño italiano con frutas confita...
E5,Orecchiette,Productos Secos,4.29,Italia,Pequeñas pastas con forma de orecchiette ideal...


In [4]:
'''with open("files/productos.csv") as f:'''
    for i, line in enumerate(f):
        if i == 8:  # Recuerda que en Python la línea 9 es el índice 8
            print(f"Línea 9: {line}")
        else: 
            print(f"Línea 8: {line}")

IndentationError: unexpected indent (4129648587.py, line 2)

In [5]:
df_ventas = pd.read_csv("files/ventas.csv", index_col=0)
df_ventas.head()

Unnamed: 0_level_0,ID_Producto,Fecha_Venta,Cantidad,Total
ID_Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
723,A1,2023-11-22,2,17.98
498,C3,2023-11-21,1,5.49
121,D4,2023-11-20,3,32.97
885,L12,2023-11-19,1,6.49
347,Q17,2023-11-18,2,7.98


- Op1. Ignorar filas problemáticas (no recomendado para producción):
df = pd.read_csv("tuarchivo.csv", error_bad_lines=False) - 

- Op2. Manejar comillas correctamente
Si hay campos de texto que contienen comas, asegúrate de que estén entre comillas. Puedes indicarle eso a Pandas:
df = pd.read_csv("tuarchivo.csv", quotechar='"') - 

- Op3. Para depurar desde Python
Puedes imprimir solo la línea 9 así:
with open("tuarchivo.csv") as f:
    for i, line in enumerate(f):
        if i == 8:  # Recuerda que en Python la línea 9 es el índice 8
            print(f"Línea 9: {line}")





In [6]:
df_clientes.shape

(1000, 7)

In [7]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, 1 to 1000
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   first_name  1000 non-null   object
 1   last_name   1000 non-null   object
 2   email       973 non-null    object
 3   gender      923 non-null    object
 4   City        876 non-null    object
 5   Country     846 non-null    object
 6   Address     959 non-null    object
dtypes: object(7)
memory usage: 62.5+ KB


In [8]:
df_clientes.duplicated().sum()

0

In [9]:
df_productos.shape

(33, 5)

In [10]:
df_productos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 33 entries, A1 to GG33
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Nombre_Producto  33 non-null     object 
 1   Categoría        33 non-null     object 
 2   Precio           33 non-null     float64
 3   Origen           33 non-null     object 
 4   Descripción      33 non-null     object 
dtypes: float64(1), object(4)
memory usage: 1.5+ KB


In [11]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 723 to 987
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID_Producto  100 non-null    object 
 1   Fecha_Venta  100 non-null    object 
 2   Cantidad     100 non-null    int64  
 3   Total        100 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 3.9+ KB


In [12]:
df_ventas.shape

(100, 4)

In [13]:
mergeado_izq = df_clientes.merge( right=df_ventas, how='left', left_on='id', right_on='ID_Cliente')
mergeado_izq.head()

Unnamed: 0,first_name,last_name,email,gender,City,Country,Address,ID_Producto,Fecha_Venta,Cantidad,Total
0,Cheri,Dunsmore,cdunsmore0@instagram.com,Female,Palma De Mallorca,Spain,076 Rockefeller Crossing,,,,
1,Hunt,Bartomeu,hbartomeu1@nsw.gov.au,Male,Lugo,Spain,0046 Utah Junction,,,,
2,Michaeline,Paynton,mpaynton2@narod.ru,Female,,Spain,0 Corry Crossing,,,,
3,Filmer,Eirwin,feirwin3@intel.com,,Leon,Spain,5 American Ash Road,,,,
4,Tanhya,Lubbock,tlubbock4@huffingtonpost.com,Female,"Hospitalet De Llobregat, L'",Spain,9289 Merry Circle,,,,


In [15]:
mergeado_izq["ID_Producto"].unique()


array([nan, 'Z26', 'D4', 'AF32', 'AU47', 'U21', 'AP42', 'BC71', 'BQ85',
       'BS87', 'BW91', 'BZ94', 'CB96', 'CE99', 'CG101', 'CJ104', 'CL106',
       'CO109', 'CQ111', 'CT114', 'CV116', 'CY119', 'AE123', 'AL130',
       'AO133', 'AR136', 'AU139', 'AM39', 'AR44', 'BG75', 'AW49', 'BJ78',
       'BP84', 'AH126', 'Q17', 'AJ36', 'AH34', 'BM81', 'AD122', 'AY51',
       'C3', 'AN40', 'BE73', 'BV90', 'BY93', 'CD98', 'CI103', 'CN108',
       'CS113', 'CX118', 'AG125', 'AK129', 'AN132', 'AQ135', 'AT138',
       'AA27', 'BO83', 'AS45', 'T20', 'AK37', 'AV48', 'BK79', 'AJ128',
       'A1', 'AQ43', 'BN82', 'BT88', 'AI35', 'AC121', 'AX50', 'BI77',
       'Y25', 'AG33', 'AT46', 'BD72', 'BL80', 'BU89', 'CA95', 'CF100',
       'CK105', 'CP110', 'CU115', 'CZ120', 'AI127', 'L12', 'AL38', 'BF74',
       'AO41', 'BH76', 'BR86', 'BX92', 'CC97', 'CH102', 'CM107', 'CR112',
       'CW117', 'AF124', 'AM131', 'AP134', 'AS137', 'AV140'], dtype=object)

In [18]:
tabla_completa = mergeado_izq.merge( right=df_productos, how='left', left_on='ID_Producto', right_on='ID')
tabla_completa.sample(20)

Unnamed: 0,first_name,last_name,email,gender,City,Country,Address,ID_Producto,Fecha_Venta,Cantidad,Total,Nombre_Producto,Categoría,Precio,Origen,Descripción
371,Egbert,Leborgne,eleborgne9m@reuters.com,Male,Sevilla,Spain,7 Quincy Way,Q17,2023-11-18,2.0,7.98,Pasta de Trigo,Productos Secos,3.99,Italia,Deliciosa pasta de trigo durum italiana ideal ...
131,Rosalynd,Borne,rborne3m@shinystat.com,Female,Madrid,Spain,82 Buena Vista Junction,,,,,,,,,
355,Mannie,Tilsley,mtilsley96@wired.com,Male,,Spain,3 Main Circle,,,,,,,,,
809,Keir,Leadbetter,kleadbetterl9@fastcompany.com,Male,Albacete,Spain,567 Fairfield Lane,,,,,,,,,
200,Sim,Lacasa,slacasa5j@theguardian.com,Male,Palma De Mallorca,Spain,44532 Eagan Street,,,,,,,,,
181,Georgine,Wedge,gwedge50@google.nl,Female,Valladolid,Spain,3 Corben Junction,,,,,,,,,
748,Emanuel,Mateos,emateosjm@meetup.com,Male,,Spain,1 Sheridan Circle,,,,,,,,,
768,Joni,Siggins,jsigginsk6@github.com,Female,Albacete,Spain,8960 Jana Alley,,,,,,,,,
163,Douglas,Broady,dbroady4i@eventbrite.com,Male,Santa Cruz De Tenerife,Spain,71448 Dixon Drive,,,,,,,,,
276,Janeva,Puckring,jpuckring73@pinterest.com,Female,,Spain,7243 Shopko Hill,,,,,,,,,
