# Introducción a Pandas

**Introducción**

Pandas es una librería especializada para el análisis de datos tabulares a gran escala. Pandas abordar todos los pasos involucrados en el análisis de datos: *limpieza de datos*, *procesamiento de datos* y *visualización*. Para inicar el proceso de análisis de datos lo primero que debemos hacer es cargar nuestra información en una estructura de datos de Pandas llamada `DataFrame`. El DataFrame tiene la siguiente estructura.

**Pandas DataFrame**

* **Columnas:** Cada columna del Dataframe se encuentra identificada con un **encabezado**.
* **Filas:** Cada fila del Dataframe se encuentra identificada con una **etiqueta** (o **index label**)
* **Datos:** Los datos que no tienen valor son representados con un **NaN** (Non a Number). Los datos pueden ser de cuaquier tipo de dato `string`, `int`, `float`, y `datetime`. La única condición es que todos los datos que pertenecen a una misma columna deben ser del mismo tipo de dato.

<img src="src/pandas-dataframe.png" alt="DataFrame">

**Pandas Series**

Toda la información que corresponde a la misma columna de un Daraframe se conoce como **serie**.

<img style="display: block; margin-left: auto; margin-right: auto;" src="src/pandas-series.png" alt="Series">
  

**Referencias:**

1. Guía de usuario https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
2. Documentación https://pandas.pydata.org/docs/

**Contenido**

1. Importar la librerías
2. Construir un dataframe desde una lista de diccionarios
3. Construir un dataframe desde un diccionario de listas
4. Construir un dataframe desde un diccionario de series
5. Construir un dataframe a partir de un archivo CSV
6. Visualizar datos de un dataframe
7. Ordenar datos de un dataframe
8. Exploración de columnas de un dataframe
9. Seleccionar datos de un dataframe
10. Seleccionar datos de un dataframe en base a expresiones relacionales
11. Seleccionar datos de un dataframe en base a expresiones lógicas
12. Estadísticas sobre el dataframe
13. Agrupar registros de un dataframe por un criterio
14. Agrupar registros de un dataframe por un múltiples criterios

## 1. Importar la librerías

A continuación se importa la librería `pandas` y se renombra como `pd` ya que esta será usada de forma recurrente en nuestro código.

In [None]:
import pandas as pd

## 2. Construir un dataframe desde una lista de diccionarios

In [None]:
# Ejecute el siguiente código

# Se define cada diccionario (cada diccionario es un registro)
a1 = {"tiempo": 9.58, "atleta": "Usain Bolt", "pais": "Jamaica", "fecha": "16/08/2009", "ciudad": "Berlin"}
a2 = {"tiempo": 9.58, "atleta": "Usain Bolt", "pais": "Jamaica", "fecha": "16/09/2009", "ciudad": "Beijing"}
a3 = {"tiempo": 9.58, "atleta": "Usain Bolt", "pais": "Jamaica", "fecha": "31/05/2009", "ciudad": "New York"}
a4 = {"tiempo": 9.58, "atleta": "Asafa Powell", "pais": "Jamaica", "fecha": "9/09/2007", "ciudad": "Rieti"}
a5 = {"tiempo": 9.58, "atleta": "Asafa Powell", "pais": "Jamaica", "fecha": "18/08/2006", "ciudad": "Zurich"}

# Se adicionan los diccionarios a una lista (lista de registros)
registros = [a1, a2, a3, a4, a5]

# Se genera el dataframe desde la lista de registros
df_competencias = pd.DataFrame(registros)

# Imprimir el dataframe cargado
df_competencias

##  3. Construir un dataframe desde un diccionario de listas

In [None]:
# Ejecute el siguiente código.

# Se definen los registros que irán en cada columna del dataframe
tiempos = [9.58, 9.69, 9.72, 9.74, 9.77]
atletas = ["Usain Bolt", "Usain Bolt", "Usain Bolt", "Asafa Powell", "Asafa Powell"]
paises  = ["Jamaica", "Jamaica", "Jamaica", "Jamaica", "Jamaica"]
fechas  = ["16/08/2009", "16/09/2008", "31/05/2008", "9/09/2007", "18/08/2006"]
ciudades = ["Berlin", "Beijing", "New York", "Rieti", "Zurich"]

# Se asignan los registros que corresponderán a cada columna a un diccionario 
# las llaves corresponderán a los nombres de las columnas.
datos = {
    "tiempo": tiempos,
    "atleta": atletas,
    "pais": paises,
    "fecha": fechas,
    "ciudad": ciudades
}

# Se construye el dataframe
df_competencias = pd.DataFrame(datos) 

# Imprimir el dataframe
df_competencias

## 4. Construir un dataframe desde un diccionario de series

In [None]:
# Ejecute el siguiente código.

# Se definen los registros que irán en cada columna del dataframe como series.
tiempos = pd.Series([9.58, 9.69, 9.72, 9.74, 9.77])
atletas = pd.Series(["Usain Bolt", "Usain Bolt", "Usain Bolt", "Asafa Powell", "Asafa Powell"])
paises  = pd.Series(["Jamaica", "Jamaica", "Jamaica", "Jamaica", "Jamaica"])
fechas  = pd.Series(["16/08/2009", "16/09/2008", "31/05/2008", "9/09/2007", "18/08/2006"])
ciudades = pd.Series(["Berlin", "Beijing", "New York", "Rieti", "Zurich"])

# Se asignan las series que corresponderán a cada columna a un diccionario 
# las llaves corresponderán a los nombres de las columnas.
datos = {
    "tiempo": tiempos,
    "atleta": atletas,
    "pais": paises,
    "fecha": fechas,
    "ciudad": ciudades
}

# Se construye el dataframe
df_competencias = pd.DataFrame(datos)

# Imprimir el dataframe
df_competencias

## 5. Construir un dataframe a partir de un archivo CSV

Para cargar un información de un archivo CSV (Comma Separed Values) en un DataFrame debemos usar la función `read_csv` de la librería pandas. Esta función recibe como parámetros la ruta del archivo a abrir y el caracter `sep` empleado en el archivo CSV para separar los datos.

**NOTA:** Observe que una vez creado el dataframe, automaticamente se crea un identificador o **etiqueta** (*index label*) para cada registro. Sin embargo, podemos persoanlizar la etiqueta que queremos asignarle a cada registro.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';')
df_casos_covid

A continuación vamos a cargar un dataframe, pero en este caso le vamos a indicar cómo queremos que sean identificados o etiquetados cada uno de los registros. Lo anterior se logra al adiccionar el parámetro `index_col` a la función `read_csv`.

```python
index_col="id_caso"
```

**NOTA:** Observe que una vez creado el dataframe, el identificador o etiqueta asignado a cada registro es entonces el identificador del caso `id_caso`.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
df_casos_covid

## 6. Visualizar datos de un dataframe

Pandas provee al menos cuatro funciones que permiten visualizar y entender el conjunto de datos que estamos tratando: `head`, `tail`, `info`, y `describe`. A continuación vamos ver como funciona cada una.

`head` permite visualizar los primeros registros del dataframe. Podemos especifcar la cantidad de registros que deseams ver.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
df_casos_covid.head(10)

`tail` permite visualizar los últimos registros del dataframe. Podemos especificar la cantidad de registros que deseamos ver.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
df_casos_covid.tail(5)

`info` permite visualizar la cantidad de registros NO NULOS, y el tipo de dato de cada columna del dataframe. Así mismo indica cuánto espacio ocupa el dataframe en memoria.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
df_casos_covid.info()

`describe` permite obtener medidas estandar sobre los datos (promedio, máximo valor, mínimo valor, desviación estandar, percentiles). **NOTE:** describe únicamente muestra la descripción de las columnas numéricas.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
df_casos_covid.describe()

## 7. Ordenar datos de un dataframe

Para ordenar los registros de un dataframe, podemos usar el método `sort_values`. Este método recibe como parámetro el nombre de la columna por la cual se ordenarán los registros del dataframe.

```python
df_casos_covid.sort_values(by="edad")
```

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
df_casos_ordenados = df_casos_covid.sort_values(by="edad")
df_casos_ordenados

## 8. Exploración de columnas de un dataframe

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")
df_casos_covid["nombre_departamento"].unique()

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")
df_casos_covid["nombre_departamento"].value_counts()

## 9. Seleccionar datos de un dataframe

Pandas permite variadas forma de seleccionar datos de un dataframe tanto **por columnas** como **por registros**.

**Referencias**

1. Selección de datos en pandas https://pandas.pydata.org/docs/user_guide/10min.html#selection

### Seleccionar "una columna" `[nombre_columna]`
Cuando se seleccionar información de una columna esta selección retorna una **Serie**, recuerde que todos los datos que pertenecen a la misma columna hacen parte de una Serie del dataframe.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
columna_a_selecionar = "edad"
serie_edad = df_casos_covid[columna_a_selecionar]
serie_edad

### Seleccionar "varias columnas" `[lista_nombres_columnas]` 
El resultado de seleccionar información de varias columnas será un dataframe que contendrá únicamente la información de la columnas seleccionadas.

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")
columnas_a_seleccionar = ["edad","sexo"]
df_casos_covid = df_casos_covid[columnas_a_seleccionar]
df_casos_covid

### Selecciónar "un registro" por etiqueta `.loc[etiqueta]`

In [None]:
# Ejecute el siguiente código.
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")

# 2265685 es el identificador o etiqueta de uno de los registros del dataframe.
registro_seleccionado = df_casos_covid.loc[2265685]
registro_seleccionado

### Selecciónar "varios registros" por etiqueta `.loc[inicio:fin]`

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv", sep=';', index_col="id_caso")

# 2265685 y 2265690 son identificadores de registros en el dataframe.
registro_seleccionado = df_casos_covid.loc[2265685:2265690]
registro_seleccionado

### Seleccionar "un registro" posición `iloc[posicion]`

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")
registro_seleccionado = df_casos_covid.iloc[0]
registro_seleccionado

### Seleccionar "varios registros" posición `iloc[inicio:fin]`

In [None]:
# Ejecute el siguiente código.

df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")
registro_seleccionado = df_casos_covid.iloc[25:30]
registro_seleccionado

## 10. Seleccionar datos de un dataframe en base a expresiones relacionales

Recuerdan los operadores relacionales `==`, `>`, `<`, `>=`, `<=`, `!=`. Los dataframes de pandas permiten el uso de estos peradores para la selección o filtrado de información en base a una condición. Considere el siguinete dataframe de casos de covid.

### Selección del número de casos que han ocurrido en menores de edad

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

# Valide los registros de casos de covid cuya edad sea menor de 18.
condicion = df_casos_covid["edad"] < 18

# Aplico la condición sobre el dataframe para seleccionar los registros que cumplen la condición
df_casos_menores_de_edad = df_casos_covid[condicion]
df_casos_menores_de_edad

### Selección del número de casos que han ocurrido en personas de sexo femenino

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

# Valide los registros de casos de covid cuyo sexo sea igual a F.
condicion = df_casos_covid["sexo"] == "F"

# Aplico la condición sobre el dataframe para seleccionar los registros que cumplen la condición
df_casos_menores_de_edad = df_casos_covid[condicion]
df_casos_menores_de_edad

## 11. Seleccionar datos de un dataframe en base a expresiones lógicas

Recuerdan que las expresiones lógicas son la composición de expresiones relacionales. Para conformar expresiones lógica necesitamos los operadores lógicos `and` y `òr`. En Pandas, estos operadores se representan de forma distinta, esta representación se muestra a continuación.

* `and`: `&` (ampersand)
* `or`: `|` (barra vertical)

Usando los operadores lógicos podemos construir expresiones lógicas como la siguiente:

```python
condicion = (df_casos_covid["sexo"] == "F") & (df_casos_covid["nombre_departamento"] == "BOGOTA")
```

La condición lógica anterior valida los registros cuyo sexo sea Fenemino y el departamento sea BOGOTA. **NOTA:** Los parentesis son importantes 

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

# Valide los registros de casos de covid cuyo sexo sea igual a F.
condicion = (df_casos_covid["sexo"] == "F") & (df_casos_covid["nombre_departamento"] == "BOGOTA")

# Aplico la condición sobre el dataframe para seleccionar los registros que cumplen la condición
df_casos_que_cumplen_condicion = df_casos_covid[condicion]
df_casos_que_cumplen_condicion

### Seleccionar datos en base al método `isin([lista])` y valores de interés categoricos

El método `isin` permite generar una condición que nos permite validar si los valores de una columna se encuentran en **lista de valores de interés**. En base a esto podemos obtener los registros cuya columna tenga al menos uno de los valores de la lista de valores de interés.

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

condicion = df_casos_covid["nombre_departamento"].isin(["BOGOTA","VALLE"])

df_casos_que_cumplen_condicion = df_casos_covid[condicion]
df_casos_que_cumplen_condicion

### Seleccionar datos en base al método `isin([lista])` y valores de interés numéricos

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

condicion = df_casos_covid["edad"].isin([17,20])

df_casos_que_cumplen_condicion = df_casos_covid[condicion]
df_casos_que_cumplen_condicion

## 12. Estadísticas sobre el dataframe

Los dataframes de Pandas cuenta con método estadisticos que permiten la reducción de los datos a lo largo del `axis-0` o a lo largo del `axis-1`. Estas operaciones estadísticas se muestran en la siguiente tabla.

| Operador | Descripción            | Ejemplo 1  |    Ejemplo 2    | 
|----------|------------------------|------------|-----------------|
| mean     | Promedio               | df.mean()  | df.mean(axis=0) |
| std      | Desvisación estándar   | df.std()   | df.std(axis=0)  |
| sum      | Suma                   | df.sum()   | df.sum(axis=0)  |
| max      | Máximo                 | df.max()   | df.max(axis=0)  |
| min      | Mínimo                 | df.min()   | df.min(axis=0)  |

Recuerde que:

<img style="display: block; margin-left: auto; margin-right: auto;" src="src/estadisticas_sobre_dataframe.png" alt="Series">

## Calcular el máximo valor por columna del dataframe `df.max()`

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

# El máximo únicamente se piede calcular sobre columnas numéricas.
columnas = ['fecha_notificacion','edad','fecha_inicio_sintomas']
df_casos_covid[columnas].max()

## Calcular el máximo valor a lo largo del `axis-0` del dataframe `df.max(axis=0)`

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

# El máximo únicamente se piede calcular sobre columnas numéricas.
columnas = ['fecha_notificacion','edad','fecha_inicio_sintomas']
df_casos_covid[columnas].max(axis=0)

## Calcular el máximo valor a lo largo del `axis-1` del dataframe `df.max(axis=1)`

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

# El máximo únicamente se piede calcular sobre columnas numéricas.
# Los tipos de datos deben ser comparables en este caso (fechas con fechas, etc)
columnas = ['fecha_notificacion','fecha_inicio_sintomas']
df_casos_covid[columnas].max(axis=1)

## 13. Agrupar registros de un dataframe por un criterio

El método `groupby` nos permite agrupar los registros de un dataframe para los valores de una columna determinada. En el ejemplo del dataframe que representa los casos de covid, si agrupamos los registros por `sexo`, el grupo resultante tendra dos grupos; los registros cuyo sexo es `"F"` y los registros cuyo sexo es `"M"`. La función `groupby` retorna una `DataFrameGroupby`.

```python
df_grupos_por_sexo = df_casos_covid.groupby("sexo")
```

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

df_por_sexo = df_casos_covid.groupby("sexo")
df_por_sexo

### Visualizar los grupos creados

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

df_por_sexo = df_casos_covid.groupby("sexo")

for nombre, grupo in df_por_sexo:
    print(nombre, len(grupo), type(grupo))

### Seleccionar un grupo del DataFrameGroupBy

Para seleccionar un grupo del DataFrameGroupBy debemos usar el método `get_group` como se muestra a continuación. Esta función retorna un DataFrame.

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

df_por_sexo = df_casos_covid.groupby("sexo")
df_grupo_femenino = df_por_sexo.get_group("F")
df_grupo_femenino

## 14. Agrupar registros de un dataframe por un múltiples criterios

El método `groupby` nos permite agrupar los registros de un dataframe para los valores de dos columnas. En el ejemplo del dataframe que representa los casos de covid, si agrupamos los registros por `sexo` y `nombre_departamento`, el grupo resultante tendra 2 x 32 grupos. 

```python
df_grupos_por_sexo = df_casos_covid.groupby(["sexo","nombre_departamento"])
```

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

df_por_sexo_y_depto = df_casos_covid.groupby(["sexo","nombre_departamento"])
df_por_sexo_y_depto

### Visualizar los grupos creados

In [None]:
# Ejecute el siguiente código.

# Cargamos la información de casos de covid
df_casos_covid = pd.read_csv("data/100_casos_covid_colombia.csv",sep=';', index_col="id_caso")

df_por_sexo_y_depto = df_casos_covid.groupby(["sexo","nombre_departamento"])

for nombre, grupo in df_por_sexo_y_depto:
    print(nombre, len(grupo), type(grupo))

## Reto

Considere el conjunto de datos de casos de covid. Realice una figura de tres ejes, un ejemplo de la figura se muestra acontinuación. Para esto debe usar la librería Pandas y la librería Matplotlib.

![image.png](https://raw.githubusercontent.com/DonAurelio/intro-programming-course/main/nivel_4/resources/figura_multi_eje.png)

* **Eje 0.** Diagrama de barras que muestre el número de casos de covid por departamento.
* **Eje 1.** Diagrama de barras que compare el número total de casos de covid en mujeres versus hombres.
* **Eje 2.** Diagrama de barras que muestre el número de casos por edad.