# Ejercicios - Clase 10

Ejercicios de los bloques de introducción a python. Pandas III

**Versión**: 1.0

**Fecha**: 28/10/2023

En este notebook vamos a trabajar con un dataset que vamos a generar en el propio notebook. Es un dataset sencillo donde entender los conceptos más complejos de Pandas.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Generación del Dataset

En el dataset vamos a representar cuántas frutas de cada tipo se venden en una lista de ciudades. Para ello vamos a definir dos listas, `nombre_frutas` y `nombre_ciudades` con varias opciones para generar una tabla.

In [None]:
nombre_frutas = ["Peras", "Manzanas", "Naranjas", "Platanos", "Kiwis", "Aguacates", "Melocotones", "Piñas", "Papayas", "Fresas"]
nombre_ciudades = ["Madrid", "Barcelona", "Sevilla", "Burgos", "Segovia", "Cádiz"]

Ahora, vamos a definir en otra lista, `habitantes`, el número de habitantes por ciudad (aproximado).

In [None]:
habitantes = [3200000, 1600000, 700000, 200000, 50000, 120000]

Nuestro dataset va a generar de forma aleatoria el número de frutas que comen por ciudad, considerando que un ciudadano solamente come un tipo de fruta.

In [None]:
# Creamos el generador de números aleatorios
rng = np.random.default_rng(42)

# Creamos las probabilidades entre [0, 1) de que las frutas se coman en cada ciudad
probs = rng.uniform(0, 1, size=(len(nombre_ciudades), len(nombre_frutas))) # (6,10)

# Seleccionamos aleatoriamente las frutas que no se comen en cada ciudad
i_zero = rng.choice(len(nombre_frutas), size=len(nombre_ciudades), replace=True) # (6,)
probs[np.arange(len(nombre_ciudades)), i_zero] = 0 # (6,10)

# Normalizamos las probabilidades para que sumen 1
# keepdims=True => mantiene las dimensiones (6,1); keepdims=False => (6,)
probs_normalizadas = probs / probs.sum(axis=1, keepdims=True) # (6,10) / (6,) = (6,10)

# Las probabilidades normalizadas se pueden asumir como porcentajes
consumo_frutas_por_ciudad = (probs_normalizadas * np.array(habitantes)[:, np.newaxis]).astype(int) # (6,10) * (6,1) = (6,10)

# Sumamos los habitantes que no se han asignado por la conversión a int, a la última fruta
consumo_frutas_por_ciudad[:, -1] += np.array(habitantes) - consumo_frutas_por_ciudad.sum(axis=1)

Para comprobar el cálculo anterior, hay que sumar por filas:

In [None]:
np.all(consumo_frutas_por_ciudad.sum(axis=1) == habitantes)

Por último, generamos el nuevo dataset con el consumo de cada tipo de fruta por ciudad.

In [None]:
pd.DataFrame(consumo_frutas_por_ciudad, index=nombre_ciudades, columns=nombre_frutas)

In [None]:
dataframes = {}
for i_ciudad, ciudad in enumerate(nombre_ciudades):
    # 0, Madrid
    # 1, Barcelona
    # ...
    df = pd.DataFrame(columns=["Fruta", "Consumo"])
    for i_fruta, fruta in enumerate(nombre_frutas):
        # 0, Peras
        # 1, Manzanas
        # ...
        if consumo_frutas_por_ciudad[i_ciudad, i_fruta] > 0:
            # df.loc[0] = ['Peras', 421909]
            # df.loc[1] = ['Manzanas', 239247]
            # ...
            df.loc[len(df)] = [fruta, consumo_frutas_por_ciudad[i_ciudad, i_fruta]]
    dataframes[ciudad] = df

Para obtener, por ejemplo, el consumo de la ciudad `Madrid`:

In [None]:
dataframes['Madrid']

## Ejercicio 0

Comprueba si es necesario realizar algún preprocesado de los tipos de datos del dataset.

In [None]:
# TO-DO Realiza las comprobaciones necesarias


## Ejercicio 1

Genera un único dataframe cuyas columnas sean `Ciudad`, `Fruta` y `Consumo` a partir de los dataframes originales.

In [None]:
# TO-DO Genera un dataframe nuevo que se llame df y procesa en un bucle cada uno de los dataframes de cada ciudad
# para acabar con un dataset con 3 columnas: Ciudad, Fruta y Consumo
# Para ello, probablemente vas a necesitar los métodos concat y el fillna
df = pd.DataFrame()

# TU CODIGO AQUI

df.sample(5)

## Ejercicio 2

Utilizando **pivotTable**, transforma el dataset que has generado en el ejercicio anterior para construir un dataset nuevo donde tengas como índice la ciudad y una columna por el consumo de cada fruta.

In [None]:
# TO-DO Genera el dataframe df_pivot

# TU CODIGO AQUi

df_pivot

Si el azar así lo ha querido, muy posiblemente tengas **NaN** en algunas celdas. Esto sucede por la manera en la que se han generado los valores de consumo de las tablas, ya que hemos forzado a que alguna fruta tenga un valor 0 en cada fila. Rellena los valores NaN con un valor coherente para este dataset.

In [None]:
# TO-DO Rellena los valores NaN con un valor coherente para este dataset

# TU CODIGO AQUI

df_pivot

¿Por qué has tomado esa decisión?

In [None]:
# TO-DO Incluye tu respuesta en el comentario
"""
Lo lógico parece ser rellenar los NaN con 0 ya que no se ha generado ningún registro cuando no había consumo 
de esa fruta.
""";

## Ejercicio 3

Si volvemos a la forma en la que hemos generado los datos, vamos a visualizar de nuevo la matriz `consumo_frutas_por_ciudad`.

In [None]:
consumo_frutas_por_ciudad

Se parece a la pivotTable que hemos gneerado en el ejercicio anterior. De hecho, deben tener exactamente la misma información ya que representan lo mismo. Genera directamente un dataframe con la matriz `consumo_frutas_por_ciudad`.

In [None]:
# TO-DO Genera un nuevo dataframe df a partir de la matriz consumo_frutas_por_ciudad

# TU CODIGO AQUI

df

## Ejercicio 4

Obtén cierta información a partir del dataset:

**4.1** Las tres ciudades que más naranjas consumen respecto al total de su población.

In [None]:
# TO-DO Rellena esta celda para realizar el ejercicio

# TU CODIGO AQUI

**4.2** Las tres ciudades con más equilibrio en el consumo de frutas. Para ello, podemos asumir que una ciudad con un consumo equilibrado es aquella que tiene una desviación estándar pequeña en comparación con el resto. En el caso extremo donde `std = 0` estaríamos hablando de que todas las frutas se consumen por igual.

In [None]:
# TO-DO Rellena esta celda para realizar el ejercicio

# TU CODIGO AQUI

Incluye el código para visualizar este mismo resultado con una figura de barras. En la figura se debe ver que las ciudades con menor std en la celda anterior son aquellas donde el consumo tiene menos "picos", es decir, es más uniforme en la población.

In [None]:
# TO-DO Rellena esta celda con un plot.bar() para visualizar el resultado

# TU CODIGO AQUI