# Ejercicios - Clase 8

Ejercicios de los bloques de introducción a python. Pandas

**Versión**: 1.0

**Fecha**: 21/10/2023

En este notebook vamos a seguir trabajando con el mismo conjunto de datos (dataset) creado artificialmente para los ejercicios. Los ejercicios de esta semana consisten en repetir el proceso de análisis que hicimos en la clase 6 con numpy, pero esta vez con Pandas.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/alfonso-santos/Intro-Python-Finanzas-2023/main/Ejercicios/datos/ventas_generadas.csv', index_col='Unnamed: 0')
df

Unnamed: 0,fecha,producto,productos_vendidos,precio_producto
0,2006-01-18,15,4,13.53
1,2023-05-31,2,4,3.57
2,2007-08-01,13,2,1.78
3,2013-11-17,8,3,2.11
4,2010-12-01,18,3,26.59
...,...,...,...,...
99995,2003-12-23,17,2,23.49
99996,2008-04-01,15,1,13.53
99997,2004-06-09,8,4,2.11
99998,2017-10-09,13,2,1.78


Vamos a hacer un preprocesado adicional para indicar los tipos de las columnas.

In [15]:
# Como podemos ver, fecha no es de tipo Datetime, sino object. Hay que cambiarlo antes de empezar
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   fecha               100000 non-null  object 
 1   producto            100000 non-null  int64  
 2   productos_vendidos  100000 non-null  int64  
 3   precio_producto     100000 non-null  float64
dtypes: float64(1), int64(2), object(1)
memory usage: 3.8+ MB


In [17]:
# Con esta celda estamos indicando que la columna fecha tenga formato datetime
df['fecha'] = pd.to_datetime(df['fecha'])

In [18]:
# Ahora sí, fecha tiene dtype datetime64
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   fecha               100000 non-null  datetime64[ns]
 1   producto            100000 non-null  int64         
 2   productos_vendidos  100000 non-null  int64         
 3   precio_producto     100000 non-null  float64       
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 3.8 MB


In [19]:
# Si volvemos a ver el dataframe, vemos que en aspecto no ha cambiado nada.
df

Unnamed: 0,fecha,producto,productos_vendidos,precio_producto
0,2006-01-18,15,4,13.53
1,2023-05-31,2,4,3.57
2,2007-08-01,13,2,1.78
3,2013-11-17,8,3,2.11
4,2010-12-01,18,3,26.59
...,...,...,...,...
99995,2003-12-23,17,2,23.49
99996,2008-04-01,15,1,13.53
99997,2004-06-09,8,4,2.11
99998,2017-10-09,13,2,1.78


In [31]:
# ¿Y si ahora separo la fecha en tres columnas: year, month y day para simplificar las cosas?
df['year'] = df['fecha'].dt.strftime('%Y').astype(int)
df['month'] = df['fecha'].dt.strftime("%m").astype(int)
df['day'] = df['fecha'].dt.strftime("%d").astype(int)

In [32]:
# Veamos el aspecto del dataframe
df

Unnamed: 0,fecha,producto,productos_vendidos,precio_producto,year,month,day
0,2006-01-18,15,4,13.53,2006,1,18
1,2023-05-31,2,4,3.57,2023,5,31
2,2007-08-01,13,2,1.78,2007,8,1
3,2013-11-17,8,3,2.11,2013,11,17
4,2010-12-01,18,3,26.59,2010,12,1
...,...,...,...,...,...,...,...
99995,2003-12-23,17,2,23.49,2003,12,23
99996,2008-04-01,15,1,13.53,2008,4,1
99997,2004-06-09,8,4,2.11,2004,6,9
99998,2017-10-09,13,2,1.78,2017,10,9


## Ejercicio 1

Obtén el total de ventas del producto con ID 16 en el año 2008.

In [36]:
id_producto = 16

# TO-DO filtra el dataframe original df para quedarte solamente con el id_producto = 16
df_producto = df[df['producto'] == id_producto]

# TO-DO filtra el dataframe previo df_producto para quedarte solamente con el año 2008
df_filtrado = df_producto[df_producto['year'] == 2008]

# Vemos el aspecto que tiene ahora el dataframe
df_filtrado

Unnamed: 0,fecha,producto,productos_vendidos,precio_producto,year,month,day
66,2008-11-28,16,1,3.75,2008,11,28
426,2008-10-23,16,3,3.75,2008,10,23
486,2008-08-30,16,4,3.75,2008,8,30
3234,2008-05-06,16,2,3.75,2008,5,6
3726,2008-11-19,16,4,3.75,2008,11,19
...,...,...,...,...,...,...,...
98751,2008-12-12,16,3,3.75,2008,12,12
98925,2008-01-15,16,4,3.75,2008,1,15
99051,2008-10-08,16,4,3.75,2008,10,8
99075,2008-05-30,16,4,3.75,2008,5,30


In [37]:
# A partir de aquí, df_filtrado contiene tu matriz con las filas que quieres procesar

# TO-DO termina el resto del programa calculando el precio total de ventas
ventas = df_filtrado['productos_vendidos']
ventas_total = ventas.sum()

print("El total de ventas del producto con ID 16 en 2008 es {}".format(ventas_total))

El total de ventas del producto con ID 16 en 2008 es 542


Respuesta esperada:

- El total de ventas del producto con ID 16 en 2008 es 542

## Ejercicio 2

Define una función que haga todo el proceso anterior de calcular el total de ventas de un producto determinado en un año específico. Completa la siguiente función:

In [38]:
def obtiene_total_ventas(datos, id_producto, anno):
    # TO-DO completa la función
    df_producto = df[df['producto'] == id_producto]
    df_filtrado = df_producto[df_producto['year'] == anno]
    
    ventas = df_filtrado['productos_vendidos']
    return ventas.sum()

In [41]:
df['producto'].unique()

array([15,  2, 13,  8, 18,  4,  3, 17, 19, 14, 10, 12,  5,  7, 11, 16,  6,
        1,  9,  0])

Imprime el ID del producto que más se ha vendido en cada año.

In [46]:
# Para que el código funcione, necesitas definir estas 2 variables:
#   anno: El año que se está procesando en el bucle
#   best_producto: El producto más vendido en el año correspondiente

# TO-DO Para cada año, tienes que buscar el mayor número de ventas de cada producto
for anno in df['year'].sort_values().unique():
    best_ventas = 0
    best_producto = -1
    for id_producto in df['producto'].unique():
        ventas = obtiene_total_ventas(df, id_producto, anno)
        if best_ventas < ventas:
            best_ventas = ventas
            best_producto = id_producto
    print("En el año {} el producto con más ventas es {}".format(anno, best_producto))

En el año 2000 el producto con más ventas es 14
En el año 2001 el producto con más ventas es 7
En el año 2002 el producto con más ventas es 9
En el año 2003 el producto con más ventas es 9
En el año 2004 el producto con más ventas es 8
En el año 2005 el producto con más ventas es 10
En el año 2006 el producto con más ventas es 6
En el año 2007 el producto con más ventas es 17
En el año 2008 el producto con más ventas es 8
En el año 2009 el producto con más ventas es 18
En el año 2010 el producto con más ventas es 19
En el año 2011 el producto con más ventas es 17
En el año 2012 el producto con más ventas es 15
En el año 2013 el producto con más ventas es 13
En el año 2014 el producto con más ventas es 15
En el año 2015 el producto con más ventas es 18
En el año 2016 el producto con más ventas es 12
En el año 2017 el producto con más ventas es 10
En el año 2018 el producto con más ventas es 6
En el año 2019 el producto con más ventas es 17
En el año 2020 el producto con más ventas es 19

Respuesta esperada:

```
En el año 2000 el producto con más ventas es 14
En el año 2001 el producto con más ventas es 7
En el año 2002 el producto con más ventas es 9
En el año 2003 el producto con más ventas es 9
En el año 2004 el producto con más ventas es 8
En el año 2005 el producto con más ventas es 10
En el año 2006 el producto con más ventas es 6
En el año 2007 el producto con más ventas es 17
En el año 2008 el producto con más ventas es 8
En el año 2009 el producto con más ventas es 18
En el año 2010 el producto con más ventas es 19
En el año 2011 el producto con más ventas es 17
En el año 2012 el producto con más ventas es 15
En el año 2013 el producto con más ventas es 13
En el año 2014 el producto con más ventas es 15
En el año 2015 el producto con más ventas es 18
En el año 2016 el producto con más ventas es 12
En el año 2017 el producto con más ventas es 10
En el año 2018 el producto con más ventas es 6
En el año 2019 el producto con más ventas es 17
En el año 2020 el producto con más ventas es 19
En el año 2021 el producto con más ventas es 7
En el año 2022 el producto con más ventas es 1
En el año 2023 el producto con más ventas es 18
```

## Ejercicio 3

Además del producto con más ventas, ahora tienes que calcular cuánto se ha ganado cada año con la venta del producto más vendido.

In [58]:
df[["producto", "precio_producto"]].groupby(by="producto").max()

Unnamed: 0_level_0,precio_producto
producto,Unnamed: 1_level_1
0,20.15
1,23.06
2,3.57
3,10.65
4,9.13
5,0.96
6,15.76
7,26.32
8,2.11
9,21.8


In [80]:
# Para que el código funcione, necesitas definir estas 3 variables:
#   anno: El año que se está procesando en el bucle
#   best_producto: El producto más vendido en el año correspondiente
#   ganancia: El valor de vender ese producto N veces


# TO-DO Construye un diccionario con el que puedas guardar el precio de cada producto
precio_producto = {}
for id_producto in df['producto'].unique():
    precio_producto[id_producto] = df[df['producto'] == id_producto]['precio_producto'].values[0]

# TO-DO Para cada año, tienes que buscar el mayor número de ventas de cada producto
#       Además, ahora tendrás que calcular el precio ganado por el mejor
for anno in df['year'].sort_values().unique():
    best_ventas = 0
    best_producto = -1
    for id_producto in df['producto'].unique():
        ventas = obtiene_total_ventas(df, id_producto, anno)
        if best_ventas < ventas:
            best_ventas = ventas
            best_producto = id_producto
    ganancia = precio_producto[best_producto] * best_ventas
    print("En el año {} el producto con más ventas es {}. Se han ganado {:.2f}€".format(anno, best_producto, ganancia))

En el año 2000 el producto con más ventas es 14. Se han ganado 1567.98€
En el año 2001 el producto con más ventas es 7. Se han ganado 15370.88€
En el año 2002 el producto con más ventas es 9. Se han ganado 12753.00€
En el año 2003 el producto con más ventas es 9. Se han ganado 12687.60€
En el año 2004 el producto con más ventas es 8. Se han ganado 1297.65€
En el año 2005 el producto con más ventas es 10. Se han ganado 2003.30€
En el año 2006 el producto con más ventas es 6. Se han ganado 9329.92€
En el año 2007 el producto con más ventas es 17. Se han ganado 13906.08€
En el año 2008 el producto con más ventas es 8. Se han ganado 1314.53€
En el año 2009 el producto con más ventas es 18. Se han ganado 15555.15€
En el año 2010 el producto con más ventas es 19. Se han ganado 4527.09€
En el año 2011 el producto con más ventas es 17. Se han ganado 14986.62€
En el año 2012 el producto con más ventas es 15. Se han ganado 8483.31€
En el año 2013 el producto con más ventas es 13. Se han ganado 1

Respuesta esperada:

```
En el año 2000 el producto con más ventas es 14. Se han ganado 1567.98€
En el año 2001 el producto con más ventas es 7. Se han ganado 15370.88€
En el año 2002 el producto con más ventas es 9. Se han ganado 12753.00€
En el año 2003 el producto con más ventas es 9. Se han ganado 12687.60€
En el año 2004 el producto con más ventas es 8. Se han ganado 1297.65€
En el año 2005 el producto con más ventas es 10. Se han ganado 2003.30€
En el año 2006 el producto con más ventas es 6. Se han ganado 9329.92€
En el año 2007 el producto con más ventas es 17. Se han ganado 13906.08€
En el año 2008 el producto con más ventas es 8. Se han ganado 1314.53€
En el año 2009 el producto con más ventas es 18. Se han ganado 15555.15€
En el año 2010 el producto con más ventas es 19. Se han ganado 4527.09€
En el año 2011 el producto con más ventas es 17. Se han ganado 14986.62€
En el año 2012 el producto con más ventas es 15. Se han ganado 8483.31€
En el año 2013 el producto con más ventas es 13. Se han ganado 1071.56€
En el año 2014 el producto con más ventas es 15. Se han ganado 8090.94€
En el año 2015 el producto con más ventas es 18. Se han ganado 15262.66€
En el año 2016 el producto con más ventas es 12. Se han ganado 306.87€
En el año 2017 el producto con más ventas es 10. Se han ganado 2103.80€
En el año 2018 el producto con más ventas es 6. Se han ganado 9314.16€
En el año 2019 el producto con más ventas es 17. Se han ganado 13083.93€
En el año 2020 el producto con más ventas es 19. Se han ganado 4483.35€
En el año 2021 el producto con más ventas es 7. Se han ganado 15607.76€
En el año 2022 el producto con más ventas es 1. Se han ganado 13028.90€
En el año 2023 el producto con más ventas es 18. Se han ganado 16166.72€
```