# Día 3: Lectura y escritura

### Objetivos:

*   Leer archivos CSV y Excel con **pandas**
*   Manipular datos cargados
*   Exportar a excel con formato automatizado
*   Usar **openyxl** para ajustes avanzados


Cada semana recibiras un archivo csv con las ventas semanales de un producto y región.
El objetivo es automatizar el proceso

In [23]:
import pandas as pd
import numpy as np

In [24]:
df = pd.read_csv('tienda_4.csv')

df.head()

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon
0,Lavavajillas,Electrodomésticos,1084800.0,56000.0,11/11/2022,Rafael Acosta,Bogotá,4,Tarjeta de crédito,3,4.60971,-74.08175
1,Cama box,Muebles,473800.0,25400.0,03/01/2020,Izabela de León,Cúcuta,5,Tarjeta de crédito,2,7.89391,-72.50782
2,Balón de baloncesto,Deportes y diversión,23700.0,0.0,25/12/2022,Maria Alfonso,Medellín,5,Nequi,1,6.25184,-75.56359
3,Modelado predictivo,Libros,57700.0,1300.0,23/11/2021,Lucas Olivera,Medellín,3,Nequi,1,6.25184,-75.56359
4,Auriculares,Electrónicos,138900.0,5600.0,25/04/2022,Blanca Ramirez,Bogotá,4,Tarjeta de crédito,7,4.60971,-74.08175


In [25]:
df.shape

(2358, 12)

In [26]:
# Vamos a crear una columna de ganacia

df['Ganancia'] = df['Precio'] - df['Costo de envío']

df.head()

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon,Ganancia
0,Lavavajillas,Electrodomésticos,1084800.0,56000.0,11/11/2022,Rafael Acosta,Bogotá,4,Tarjeta de crédito,3,4.60971,-74.08175,1028800.0
1,Cama box,Muebles,473800.0,25400.0,03/01/2020,Izabela de León,Cúcuta,5,Tarjeta de crédito,2,7.89391,-72.50782,448400.0
2,Balón de baloncesto,Deportes y diversión,23700.0,0.0,25/12/2022,Maria Alfonso,Medellín,5,Nequi,1,6.25184,-75.56359,23700.0
3,Modelado predictivo,Libros,57700.0,1300.0,23/11/2021,Lucas Olivera,Medellín,3,Nequi,1,6.25184,-75.56359,56400.0
4,Auriculares,Electrónicos,138900.0,5600.0,25/04/2022,Blanca Ramirez,Bogotá,4,Tarjeta de crédito,7,4.60971,-74.08175,133300.0


#### Parte 1: Agrupar las ventas por producto y región

In [27]:
# Agrupando las ventas por región

ventas_por_region = df.groupby('Lugar de Compra')['Ganancia'].sum()

ventas_por_region

Unnamed: 0_level_0,Ganancia
Lugar de Compra,Unnamed: 1_level_1
Armenia,270000.0
Barranquilla,32781700.0
Bogotá,397014900.0
Bucaramanga,24189100.0
Cali,117832300.0
Cartagena,23070400.0
Cúcuta,6938000.0
Inírida,1446700.0
Leticia,16192200.0
Manizales,1230400.0


In [28]:
# Vamos a destacar el top 3 de mejores regiones

top_3_regiones = ventas_por_region.nlargest(3)

top_3_regiones

Unnamed: 0_level_0,Ganancia
Lugar de Compra,Unnamed: 1_level_1
Bogotá,397014900.0
Medellín,238564700.0
Cali,117832300.0


In [29]:
# Vamos a agrupar las ventas por producto

ventas_por_producto = df.groupby('Producto')['Ganancia'].sum()

ventas_por_producto

Unnamed: 0_level_0,Ganancia
Producto,Unnamed: 1_level_1
Ajedrez de madera,1011800.0
Armario,15550500.0
Asistente virtual,9905200.0
Auriculares,3753400.0
Auriculares con micrófono,6051700.0
Balón de baloncesto,2325200.0
Balón de voleibol,2226200.0
Batería,32726400.0
Bicicleta,20284100.0
Bloques de construcción,1823000.0


In [30]:
# Top 3 mejores productos

top_3_productos = ventas_por_producto.nlargest(3)

top_3_productos

Unnamed: 0_level_0,Ganancia
Producto,Unnamed: 1_level_1
Iphone 15,91555500.0
TV LED UHD 4K,85500000.0
Smart TV,78382900.0


#### Parte 2: Crear una tabla en un Excel con la suma total por producto y región

In [40]:
resumen_1 = df.groupby('Producto')['Ganancia'].sum()
resumen_2 = df.groupby('Lugar de Compra')['Ganancia'].sum()

In [41]:
# Exportamos a Excel

with pd.ExcelWriter('ventas_por_producto_y_region.xlsx') as writer:
    resumen_1.to_excel(writer, sheet_name='Ventas por producto', index=False)
    resumen_2.to_excel(writer, sheet_name='Ventas por region', index=False)