# Introducción a Visualización de Datos con Pandas

**Introducción**

Pandas es una librería especializada para el análisis de datos tabulares a gran escala. Pandas permite abordar los tres pasos considerados para el análisis de datos: **limpieza de datos**, **procesamiento de datos** y **visualización**. En el presente tutorial, vamos a cargar la información de datos de covid por dia para colombia en un DataFrame y vamos a generar visualizaciones estadístias a partir de estos datos. 

**Referencias:**

1. Guía de usuario https://pandas.pydata.org/docs/user_guide/visualization.html

**Contenido**

1. Importar la librerías
2. Construir un dataframe a partir de un archivo CSV
3. Explorar el dataframe antes de generar las gráficas
4. Graficar a partir de una Serie o un DataFrame
5. Graficar un histograma
6. Graficar un diagrama de barras
7. Graficar un diagrama de cajas

## 1. Importar la librerías

A continuación se importa la librería `pandas` y se renombra como `pd` ya que esta será usada de forma recurrente en nuestro código.

Así mismo importamos la librería `matplotlib.pyplot`, `pyplot` nos permite establecer el estilo de nuestras gráfias a travez del método `style.use`.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt 
plt.style.use('seaborn-v0_8-notebook')

Pasa ver la lista de estilos disonibles ejecute el siguiente código.

In [None]:
print(plt.style.available)

## 2. Construir un dataframe a partir de un archivo CSV

Para cargar información de un archivo CSV (Comma Separed Values) en un DataFrame debemos usar la función `read_csv` de la librería pandas. Esta función recibe como parámetros la ruta del archivo a abrir y el caracter `sep` empleado en el archivo CSV para separar los datos.

**NOTA:** Observe que una vez creado el dataframe, automaticamente se crea un identificador o **etiqueta** (*index label*) para cada registro. Sin embargo, podemos personalizar la etiqueta que queremos asignarle a cada registro usando el parámetro `index_col`.


In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
df_casos_covid

## 3. Explorar el dataframe antes de generar las gráficas

Pandas provee al menos cuatro funciones que permiten visualizar y entender el conjunto de datos que estamos tratando: `head`, `tail`, `info`, y `describe`. A continuación vamos ver como funciona cada una.

`head` permite visualizar los primeros registros del dataframe. Podemos especifcar la cantidad de registros que deseams ver.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
df_casos_covid.head(10)

`tail` permite visualizar los últimos registros del dataframe. Podemos especificar la cantidad de registros que deseamos ver.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
df_casos_covid.tail(10)

`info` permite visualizar la cantidad de registros NO NULOS, y el tipo de dato de cada columna del dataframe. Así mismo indica cuánto espacio ocupa el dataframe en memoria.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
df_casos_covid.info(10)

`describe` permite obtener medidas estandar sobre los datos (promedio, máximo valor, mínimo valor, desviación estandar, percentiles). **NOTE:** describe únicamente muestra la descripción de las columnas numéricas.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
df_casos_covid.describe()

## 4. Graficar a partir de una Serie o un DataFrame

Tanto `Series` como `DataFrames` en Pandas usan el método `plot` para crear graficas a partir de la información contenida en la serie o el dataframe. Los tipos de gráficas soportados por el método `plot` se muestran en la Tabla al final de esta sección. 

Pandas permite graficar de dos formas.

1. Usando el método `plot`

```python
serie.plot(kind="line",...)
```

```python
df.plot(kind="line",...)
```

2. Usando los métodos `.plot.line`, `.plot.bar`, `.plot.barh`, `.plot.hist`, `.plot.box`, `.plot.kde`, `.plot.density`, `.plot.area`, `.plot.pie`, `.plot.scatter`, o `.plot.hexbin`.

```python
serie.plot.line(...)
```

```python
df.plot.line(...)
```

**IMPORTANTE:** Algunas gráficas requieren que los datos se encuentren de organizados cierta forma para poder graficarlos correctamente, en este caso debemos realizar algunos procesamientos ya sea en el dataframe o en la serie.

Es muy importante consultar la documentación de cáda tipo de gráfico para conocer cómo usarlo apropiadamente.

| Tipo    | Serie/DataFrame | Descripción                                      | Documentación                                                                   |
|---------|-----------------|--------------------------------------------------|---------------------------------------------------------------------------------|
| line    | Ambos           | Gráfico de linea                                 | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.line.html    |
| bar     | Ambos           | Diagrama de barras vertical                      | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.bar.html     |
| barh    | Ambos           | Diagrama de barras horizontal                    | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.barh.html    |
| hist    | Ambos           | Histograma                                       | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.hist.html    |
| box     | Ambos           | Diagrama de caja                                 | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.box.html     |
| kde     | Ambos           | Diagrama de estimación de la densidad del kernel | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.kde.html     |
| density | Ambos           | Diagrama de estimación de la densidad del kernel | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.density.html |
| area    | Ambos           | Diagrama de área                                 | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html    |
| pie     | Ambos           | Diagrama de torta                                | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.pie.html     |
| scatter | DataFrame       | Diagrama de dispersión                           | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.scatter.html |
| hexbin  | DataFrame       | Diagrama de binning hexagonal                    | https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.hexbin.html  |


## 5. Graficar un histograma

Un histograma permite visualizar la frecuencia con la que ocurre cada valor (o un rango de valores) del conjunto de datos. El histograma recibe como parametros: 

* El tamaño de la figura `figsize`, 
* Límites en el eje x `xlim`, 
* Límites en el eje y `ylim`, 
* El número de rangos `bins`, 
* El título de la gáfica `title`
* Otros parámetros que puede ver en la [documentación](	https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.hist.html). 

A continuación se muestra un ejemplo de cómo generar un histograma usando `plot` o `plot.hist`. Con ambos métodos se obtiene el mismo resultado.

Usando el método `plot`.

```python 
ax = serie.plot(kind="hist", figsize=(10,4),xlim=(2,30), ylim=(0, 70), bins=20, title="Título")
ax = serie.plot(kind="hist", figsize=(10,4),xlim=(2,30), ylim=(0, 70), bins=20, title="Título")
```
Usando el método `plot.hist`.

```python 
axs = df.plot.hist(figsize=(10,4),xlim=(2,30), ylim=(0, 70), bins=20, title="Título")
axs = df.plot.hist(figsize=(10,4),xlim=(2,30), ylim=(0, 70), bins=20, title="Título")
```

### Graficar un historgrama a partir de una serie

Para graficar un historgrama a partir de una serie primero debemos obtener la serie de interes del dataframe. En este caso no interesa graficar la serie (columna) `new_cases`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
serie_nro_casos_por_dia = df_casos_covid["new_cases"]
serie_nro_casos_por_dia

Una vez tenemos la serie, podemos usar cualquier método `plot(kind="hist",...)` o `plot.hist` para pintar el historgrama. El método pintará la figura en pantalla y retornará el **eje de coordenadas** donde pintó la gráfica `ax`. El **eje de coordenadas** puede ser usados posteriormente para personalizar la gráfica, por ejemplo: asignar una etiqueta al eje-x, o al eje-y; cambiar el rango de los ejes; entre otros. 

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
serie_nuevos_casos_por_dia = df_casos_covid["new_cases"]
ax = serie_nuevos_casos_por_dia.plot.hist(
    title="Frecuencia de casos por día"
)

### Graficar un historgrama a partir de un dataframe

Para graficar un histograma a partir de un dataframe, lo único que debemos hacer es llamar a cualquiera de los métodos `plot(kind="hist",...)` o `plot.hist`. El método pintará la figura en pantalla y retornará el **eje de coordenadas** donde pintó las gráfica `ax`.

**NOTE:**

1. Sólo se pintaron las columnas numéricas.
2. Todas se pintaron en la misma gráfica, por lo tanto hay 5 histogramas en la misma gráfica o **eje de coordenadas**. 

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
ax = df_casos_covid.plot.hist()

Para pintar cada serie (columna) del dataframe en un **eje de coordenadas** distinto en la misma figura, debemos usar el parámetro `subplots`. De manera opcional podemos usar los parámetros `layout` y `figsize` para ajustar la gráfica. En este caso el método pintará la figura en pantalla y retornará un array de dos dimensiones donde cada elemento del array es un **eje de coordenadas**, uno por cada histograma.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
axs = df_casos_covid.plot.hist(subplots=True, layout=(3,3), figsize=(15,15))

Ahora, si queremos personalizar únicamente uno de los **ejes de coordenadas**, debemos indexarlo en el array y luego podemos personalizarlo de forma individual.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/casos_covid_por_dia_colombia.csv",sep=';')
axs = df_casos_covid.plot.hist(subplots=True, layout=(3,3), figsize=(15,15))

eje_de_coordenadas = axs[1,1]
eje_de_coordenadas.set_title("Taza de crecmiento del covid en Colombia")

## 6. Graficar un diagrama de barras

En los ejemplos anteriores estabamos analizando un archivo de casos de covid por día, únicamente para Colombia. Para este caso vamos a considerar el archivo de casos de covid por día para todo el mundo `casos_positivos_por_dia_mundo.csv`.

El diagrama de barras permite comparar valores numéricos asociados a valores categóricos. Por ejemplo, si nos piden graficar el número maximo de casos de covid registrado por día para cada contiente; el nombre del continente "Africa", "Asia", "Europa", "Norte America", "Oceania", "Subamerica" es el **valor categorico** que esta asociado al maximo valor de casos registrado en cada continente.

Primero vamos a cargar el archivo de casos positivos de covid registrados por día en el mundo `casos_positivos_por_dia_mundo.csv`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_casos_covid_mundo

### Paso 1. Extraigo únicamente las columnas de interés del dataframe

Como nos piden el número máximo de casos registrados por continente, necesitamos únicamente las columnas `continent` y `new_cases`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_interes = df_casos_covid_mundo[['continent','new_cases']]
df_interes

### Paso 2. Proceso los datos del dataframe

Este paso consiste básicamente en procesar la información de modo que se facilite la generación de la gráfica a partir del dataframe.

Como nos piden el número máximo de nuevos casos registados por continente, vamos a agrupar los datos del dataframe por continente.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_interes = df_casos_covid_mundo[['continent','new_cases']]

df_por_continente = df_interes.groupby('continent')
df_por_continente

Ahora vamos a ver qué grupos quedaron

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_interes = df_casos_covid_mundo[['continent','new_cases']]

df_por_continente = df_interes.groupby('continent')

for nombre, grupo in df_por_continente:
    print(nombre, len(grupo))

Veamos la información de uno de los grupos para entender cómo está organizado

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_interes = df_casos_covid_mundo[['continent','new_cases']]

df_por_continente = df_interes.groupby('continent')

grupo_africa = df_por_continente.get_group("Africa")
grupo_africa

Una vez tenemos los datos agrupados por continente, podemos calcular el máximo número de casos nuevos de covid en cada continente (grupo) usando el método `max`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_interes = df_casos_covid_mundo[['continent','new_cases']]

df_por_continente = df_interes.groupby('continent')

df_maximos_por_continente = df_por_continente.max()
df_maximos_por_continente

### Paso 3. Genero la visualización a partir del dataframe

Luego de generar un dataframe con el número maximo de nuevos casos por contiente, podemos usar cualquier método  `plot(kind='bar')` o `plot.bar` para graficar.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_mundo = pd.read_csv("data/casos_covid_por_dia_mundo.csv",sep=';')
df_interes = df_casos_covid_mundo[['continent','new_cases']]

df_por_continente = df_interes.groupby('continent')

df_maximos_por_continente = df_por_continente.max()
df_maximos_por_continente.plot.bar()

## 7. Graficar un diagrama de cajas

El diagrama de cajas es un método de la estadística descriptiva que permite representar gráficamente una serie de datos a travez de sus cuartiles. El diagrama de cajas permite visuaizar la dispersión de los datos y los valores atípicos. En este caso en particular vamos a usar el conjunto de datos `100_casos_covid_colombia.csv`. 

En primera instancia, vamos a cargar el conjunto de datos a usar para realizar el diagrama de cajas.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_colombia = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';')
df_casos_covid_colombia

### Graficar un diagrama de cajas a partir de una serie

Para graficar el diagrama de cajas a partir de una serie lo primero que debemos hacer es obtener la serie de interés del dataframe. Posteriormente sobre la serie se invoca cualquiera de los métodos `plot.box` o `plot(kind='box')`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_colombia = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';')
serie_edad = df_casos_covid_colombia['edad']
serie_edad.plot.box()

### Graficar un diagrama de cajas a partir de un dataframe

Para graficar un diagrama de cajas a partir de un dataframe, se debe invocar cualquiera de los métodos `plot.box`, `plot(kind='box')`, `boxplot()`. Note que el método `boxplot()` únicamente está disponible para los dataframes. Cuando se invoca alguno de los métodos mensioandos anteriormente partir de dataframe, se grafica el diagrama de cajas **únicamente para los datos númericos**.

Grafiquemos el diagrama de cajas usando el método `plot.box`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_colombia = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';')
df_casos_covid_colombia.plot.box()

Ahora grafiquemos el diagrama de cajas usando el método `boxplot`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid_colombia = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';')
df_casos_covid_colombia.boxplot()

### Graficar un diagrama de cajas a partir de un dataframe agrupando datos

A diferencia del método `plot.box`, el método `boxplot` permite hacer un diagrama de cajas con datos agrupados por un criterio. A continuación vamos a mostrar el diagrama de cajas para la columna edad agrupada por departamentos.

In [None]:
df_casos_covid_colombia = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';')

# Recuerde que cuando invocamos a alguno de los método 'plot.box' o 'boxplot'
# el método retorna el eje de coordenadas donde se pintó la figura.
# Esto nos permite personalizar tanto el eje de coordenadas como la figura.
ax = df_casos_covid_colombia.boxplot(
    column='edad', by='nombre_departamento', 
    rot=90, figsize=(10,8)
)

# Obtenemos la figura a partir de eje de coordenadas
fig = ax.get_figure()

# Configuramos el título del eje de coordenadas
ax.set_title("Diagrama de Caja Datos Agrupados")
ax.set_xlabel("Nombre del departamento")
ax.set_ylabel("Edad (Años)")
# Eliminamos el título de la figura que se crea por defecto
fig.suptitle("")