# 1.4. visualización de datos

## Visualización de DataFrames

### ¿Qué tamaño de aguacate es el más popular?

Los aguacates son cada vez más populares y son un ingrediente clave en el guacamole y las tostadas. La *Hass Avocado Board* realiza un seguimiento del suministro y la demanda de aguacates en los EE. UU., incluyendo las ventas de tres tamaños diferentes de aguacates. En este ejercicio, utilizarás un gráfico de barras para determinar qué tamaño es el más popular.

Los gráficos de barras son ideales para mostrar la relación entre variables categóricas (tamaño) y numéricas (cantidad vendida), pero a menudo es necesario manipular los datos antes de obtener los valores adecuados para la visualización.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
avocados = pd.read_csv("../../../datasets/avocado.csv")

avocados.head()

**Instrucciones**

- Imprime las primeras filas del conjunto de datos `avocados`. *¿Qué columnas están disponibles?*

In [None]:
print(avocados.head())

- Para cada grupo de tamaño de aguacate, calcula el número total vendido y guárdalo en `nb_sold_by_size`.


In [5]:
nb_sold_by_size = (
    avocados
    .groupby("size")['nb_sold']
    .sum()
)

- Crea un gráfico de barras con el número de aguacates vendidos por tamaño.
- Muestra el gráfico.

In [None]:
(
    nb_sold_by_size
    .plot(kind="bar")
)

plt.show()

### Cambios en las ventas a lo largo del tiempo

Los gráficos de líneas están diseñados para visualizar la relación entre dos variables numéricas, donde cada valor de datos está conectado con el siguiente. Son especialmente útiles para visualizar cambios en un valor a lo largo del tiempo, ya que cada punto temporal está naturalmente conectado con el siguiente. En este ejercicio, visualizarás el cambio en las ventas de aguacates durante tres años.

`pandas` ha sido importado como `pd` y el DataFrame `avocados` está disponible.

**Instrucciones**

- Obtén el número total de aguacates vendidos en cada fecha. *El DataFrame tiene dos filas por cada fecha: una para aguacates orgánicos y otra para convencionales*. Guarda este resultado en `nb_sold_by_date`.
- Crea un gráfico de líneas con el número de aguacates vendidos.
- Muestra el gráfico.

In [None]:
nb_sold_by_date = (
    avocados
    .groupby("date")["nb_sold"]
    .sum()
)

nb_sold_by_date.plot(kind="line")

plt.show()

### Oferta y demanda de aguacates

Los gráficos de dispersión (*scatter plots*) son ideales para visualizar la relación entre variables numéricas. En este ejercicio, compararás el número de aguacates vendidos con el precio promedio para ver si están relacionados. Si existe una relación, podrías utilizar uno de los valores para predecir el otro.

**Instrucciones**

- Crea un gráfico de dispersión con `nb_sold` en el eje x y `avg_price` en el eje y. Titúlalo `"Número de aguacates vendidos vs. precio promedio"`.
- Muestra el gráfico.

In [None]:

(
    avocados
    .plot(
        x="nb_sold", 
        y="avg_price", 
        title="Number of avocados sold vs. average price", 
        kind="scatter"
    )
)

### Precio de aguacates convencionales vs. orgánicos

Crear múltiples gráficos para diferentes subconjuntos de datos permite comparar grupos. En este ejercicio, crearás varios histogramas para comparar los precios de los aguacates convencionales y orgánicos.

**Instrucciones**

- Filtra `avocados` para el tipo `"conventional"` y crea un histograma de la columna `avg_price`.
- Crea un histograma de `avg_price` para los aguacates de tipo `"organic"`.
- Agrega una leyenda al gráfico con los nombres `"conventional"` y `"organic"`.
- Muestra el gráfico.

In [None]:
( 
    avocados[avocados["type"] == "conventional"]["avg_price"]
    .hist()
)    

(
    avocados[avocados["type"] == "organic"]["avg_price"]
    .hist()
)

plt.legend(["conventional", "organic"])

plt.show()

- Modifica el código para ajusta la transparencia (*alpha*) de ambos histogramas a `0.5` para visualizar mejor la superposición entre las dos distribuciones.


In [None]:
(
    avocados[avocados["type"] == "conventional"]["avg_price"]
    .hist(alpha=0.5)
)

(
    avocados[avocados["type"] == "organic"]["avg_price"]
    .hist(alpha=0.5)
)

plt.legend(["conventional", "organic"])

plt.show()

- Modifica el código para utilizar 20 `bins` en ambos histogramas.

In [None]:
(
    avocados[avocados["type"] == "conventional"]["avg_price"]
    .hist(alpha=0.5, bins=20)
)

(
    avocados[avocados["type"] == "organic"]["avg_price"]
    .hist(alpha=0.5, bins=20)
)

plt.legend(["conventional", "organic"])

plt.show()

## Valores faltantes

### Identificación de valores faltantes

Los valores faltantes están en todas partes, y no quieres que interfieran con tu trabajo. Algunas funciones ignoran los datos faltantes por defecto, pero ese no siempre es el comportamiento deseado. Otras funciones no pueden manejar valores faltantes en absoluto, por lo que es necesario tratarlos antes de poder usarlos. Si no sabes dónde están los valores faltantes, o si existen, podrías cometer errores en tu análisis. En este ejercicio, determinarás si hay valores faltantes en el conjunto de datos y, de ser así, cuántos hay.

-  `avocados_2016`, un subconjunto de `avocados` que contiene solo las ventas de 2016, está disponible.

**Instrucciones**

- Imprime un DataFrame que muestre si cada valor en `avocados_2016` está faltante o no.
- Imprime un resumen que indique si *algún* valor en cada columna está faltante.
- Crea un gráfico de barras con el número total de valores faltantes en cada columna.

In [12]:
avocados_2016 = pd.read_csv("../../../datasets/avocados_2016.csv")

In [None]:
import matplotlib.pyplot as plt

print(avocados_2016.isna())


In [None]:
print(
    avocados_2016
    .isna()
    .any()
)


In [None]:
(
    avocados_2016
    .isna()
    .sum()
    .plot(kind="bar")
)

plt.show()

### Eliminación de valores faltantes

Ahora que sabes que hay algunos valores faltantes en tu DataFrame, tienes varias opciones para manejarlos. Una de ellas es eliminarlos completamente del conjunto de datos. En este ejercicio, eliminarás los valores faltantes eliminando todas las filas que los contengan.

`pandas` ha sido importado como `pd` y `avocados_2016` está disponible.

**Instrucciones**

- Elimina las filas de `avocados_2016` que contienen valores faltantes y almacena las filas restantes en `avocados_complete`.
- Verifica que todos los valores faltantes han sido eliminados de `avocados_complete`. Calcula cuántos valores `NA` hay en cada columna e imprímelos.

In [None]:
avocados_complete = (
    avocados_2016
    .dropna()
)

print(
    avocados_complete
    .isna()
    .any()
)

### Reemplazo de valores faltantes

Otra forma de manejar los valores faltantes es reemplazarlos con un mismo valor. Para variables numéricas, una opción es reemplazar los valores con `0`, lo cual harás en este ejercicio. Sin embargo, cuando reemplazas valores faltantes, estás asumiendo qué significa un valor faltante. En este caso, asumirás que un número de ventas faltante significa que no se realizaron ventas de ese tipo de aguacate en esa semana.

En este ejercicio, verás cómo reemplazar valores faltantes puede afectar la distribución de una variable utilizando histogramas. Puedes graficar histogramas para múltiples variables a la vez de la siguiente manera:

dogs[[“height_cm”, “weight_kg”]].hist()

`pandas` ha sido importado como `pd` y `matplotlib.pyplot` ha sido importado como `plt`. El conjunto de datos `avocados_2016` está disponible.

**Instrucciones**

- Se ha creado una lista, `cols_with_missing`, que contiene los nombres de las columnas con valores faltantes: `"small_sold"`, `"large_sold"` y `"xl_sold"`.
- Crea un histograma de esas columnas.
- Muestra el gráfico.

In [None]:
cols_with_missing = (
    ["small_sold", "large_sold", "xl_sold"]
)

avocados_2016[cols_with_missing].hist()

plt.show()

**Instrucciones**

- Reemplaza los valores faltantes de `avocados_2016` con `0` y almacena el resultado en `avocados_filled`.
- Crea un histograma de las columnas en `cols_with_missing` dentro de `avocados_filled`.
- Muestra el gráfico.

In [None]:
cols_with_missing = ["small_sold", "large_sold", "xl_sold"]
avocados_2016[cols_with_missing].hist()
plt.show()

avocados_filled = avocados_2016.fillna(0)

avocados_filled[cols_with_missing].hist()

plt.show()

## Creating DataFrames

### List of dictionaries

You recently got some new avocado data from 2019 that you'd like to put in a DataFrame using the list of dictionaries method. Remember that with this method, you go through the data row by row.

| date | small_sold | large_sold |
| --- | --- | --- |
| "2019-11-03" | 10376832 | 7835071 |
| "2019-11-10" | 10717154 | 8561348 |

`pandas` as `pd` is imported.

**Instructions**

- Create a list of dictionaries with the new data called `avocados_list`.
- Convert the list into a DataFrame called `avocados_2019`.
- Print your new DataFrame.

In [None]:
# Create a list of dictionaries with new data
avocados_list = [
    {"date": "2019-11-03", "small_sold": 10376832, "large_sold": 7835071},
    {"date": "2019-11-10", "small_sold": 10717154, "large_sold": 8561348},
]

# Convert list into DataFrame
avocados_2019 = pd.DataFrame(avocados_list)

# Print the new DataFrame
print(avocados_2019)

### Diccionario de listas

¡Han llegado más datos! Esta vez, usarás el método de diccionario de listas para procesar los datos columna por columna.

| date        | small_sold | large_sold |
|------------|------------|------------|
| "2019-11-17" | 10859987   | 7674135    |
| "2019-12-01" | 9291631    | 6238096    |

`pandas` ha sido importado como `pd`.

**Instrucciones**

- Crea un diccionario de listas con los nuevos datos llamado `avocados_dict`.
- Convierte el diccionario en un DataFrame llamado `avocados_2019`.
- Imprime tu nuevo DataFrame.

In [None]:
avocados_dict = {
  "date": ["2019-11-17", "2019-12-01"],
  "small_sold": [10859987, 9291631],
  "large_sold": [7674135, 6238096]
}

avocados_2019 = pd.DataFrame(avocados_dict)

print(avocados_2019)

## Lectura y escritura de archivos CSV

### CSV a DataFrame

Trabajas para una aerolínea y tu gerente te ha pedido realizar un análisis competitivo para ver con qué frecuencia los pasajeros que vuelan en otras aerolíneas son expulsados involuntariamente de sus vuelos. Has obtenido un archivo CSV (`airline_bumping.csv`) del Departamento de Transporte que contiene datos sobre pasajeros a los que se les negó el embarque involuntariamente en 2016 y 2017, pero no tiene exactamente los números que necesitas. Para obtener la información deseada, primero debes cargar el CSV en un DataFrame de pandas y realizar algunas manipulaciones.

`pandas` ha sido importado como `pd`. El archivo `"airline_bumping.csv"` está en tu directorio de trabajo.

**Instrucciones**

- Lee el archivo CSV `"airline_bumping.csv"` y almacénalo en un DataFrame llamado `airline_bumping`.
- Imprime las primeras filas de `airline_bumping`.

In [None]:
airline_bumping = pd.read_csv("../../../datasets/airline_bumping.csv")

print(airline_bumping.head())

- Para cada grupo de aerolíneas, selecciona las columnas `nb_bumped` y `total_passengers`, y calcula la suma (para ambos años). Almacena este resultado en `airline_totals`.

In [24]:
airline_totals = (
    airline_bumping
    .groupby("airline")[["nb_bumped", "total_passengers"]]
    .sum()
)

- Crea una nueva columna en `airline_totals` llamada `bumps_per_10k`, que represente el número de pasajeros expulsados involuntariamente por cada 10,000 pasajeros en 2016 y 2017.

In [None]:
airline_bumping["bumps_per_10k"] = (
    airline_totals["nb_bumped"] / airline_totals["total_passengers"] * 10000
)

print(airline_totals)

### DataFrame a CSV

¡Ya casi terminas! Para que los datos sean más fáciles de leer, necesitas ordenarlos y exportarlos a un archivo CSV para que tus colegas puedan analizarlos.

`pandas` ha sido importado como `pd`.

**Instrucciones**

- Ordena `airline_totals` por los valores de `bumps_per_10k` de mayor a menor y almacénalo en `airline_totals_sorted`.
- Imprime el DataFrame ordenado.
- Guarda el DataFrame ordenado como un archivo CSV llamado `"airline_totals_sorted.csv"`.

In [None]:
airline_totals_sorted = airline_bumping.sort_values("bumps_per_10k", ascending=False)

print(airline_totals_sorted)

airline_totals_sorted.to_csv("airline_totals_sorted.csv")