<a href="https://colab.research.google.com/github/worldbank/dec-python-course/blob/main/1-foundations/3-numpy-and-pandas/foundations-s3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesion 3 - Paquetes y limpieza de datos con Pandas

En esta sesión introduciremos los paquetes de Python: qué son y cómo usarlos. Luego nos enfocaremos en dos paquetes que son muy utilizados en ciencia de datos: pandas y matplotlib. El primero se usa para analisis y limpieza de datos y el segundo para visualizacion.

# 1. Bibliotecas de Python

Dentro del mundo de Python, un paquete es una colección de módulos, y una biblioteca es una colección de paquetes. En la práctica, los términos "biblioteca de Python" y "paquete de Python" se usan de manera similar para referirse a un fragmento reutilizable de código. El uso de bibliotecas nos permite utilizar codigo que ha sido desarrollado y compartido por otros programadores de modo que nosotros no tengamos que escribir todo desde cero.

## 1.1. Algunos ejemplos de bibliotecas de Python

- [pandas](https://pandas.pydata.org/) es una biblioteca de Python para el procesamiento rápido y eficiente de tablas de datos, series de tiempo, datos en matrices, etc.
- [Matplotlib](https://matplotlib.org/) es una biblioteca completa para crear visualizaciones de datos en Python.
- [NumPy](https://numpy.org/) significa "Numerical Python". Es la biblioteca fundamental de Python para la computación científica.

## 1.2. Como usar paquetes?

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print(np.pi)

`import` followed by the library name loads the library into the environment. `as` is optional; it is usually used to alias the library name to a shorthand or for disambiguation. The above are some conventional aliases for these libraries. If you `import numpy` without aliasing, just be sure to use `numpy` instead of `np` when calling the library's functions later.

`import` the library like you would import a built-in python module works for common libraries on most cloud-based python notebook environments (e.g. Google Colab and Databricks) because they already pre-installed many common libraries like Pandas and NumPy.

`import` seguido del nombre del paquete carga el paquete para que podamos utilizarlo. `as` es opcional; generalmente se usa para asignar un "alias" al nombre del paquete como una forma abreviada o para evitar ambigüedades. Los alias mostrados arriba son convencionales para estas bibliotecas. Si haces `import numpy` sin alias, solo asegúrate de usar `numpy` en lugar de `np` al llamar las funciones del paquete más adelante.

Usar `import` para importar un paquete, al igual que se hace con los módulos incorporados de Python, funciona para paquetes usados comunmente en la mayoría de los entornos de notebooks en la nube (por ejemplo, para el que ustamos usando ahora, Jupyter Lite). Estos entornos usualmente ya vienen con muchos paquetes pre-instalados, como Pandas y Matplotlib.

## 1.3. ¿Qué paquetes vienen preinstalados?

[pip](https://pip.pypa.io/) es por defecto la herramienta para instalar paquetes en Python. Puedes usarlo para ver los paquetes actualmente instalados:

In [None]:
# Nota: El simbolo ! en un entorno de notebook ejecuta un comando de "bash"
# Bash es otro lenguaje de programacion. Es necesario usar el simbolo !
# porque esto indica a nuestro que este es un comando Bash y que no es Python

# `| head` acorta la salida para mostrar solo las primeras 10 líneas

!pip freeze | head

## 1.4. ¿Puedo instalar una nueva biblioteca?

Nuevamente, usamos el gestor de paquetes `pip` para instalar un nuevo paquete:

In [None]:
# Instala el paquete `wbgapi` para acceder programáticamente a la base de datos por paises del Banco Mundial
!pip install wbgapi

## 1.5 ¿Donde esta la documentacion e informacion sobre un paquete?

Puedes preguntar a Google o a ChatGPT, o consultar directamente la documentación oficial de la biblioteca:

- Documentación de Pandas (en espanol): https://pandas-pydata-org.translate.goog/docs/?_x_tr_sl=en&_x_tr_tl=es&_x_tr_hl=es&_x_tr_pto=tc

Dentro de un notebook, siempre puedes usar `help()` para ver la documentación (en ingles) de cualquier función:

In [None]:
help(pd.isna)

# 2. Pandas

<img src="https://miro.medium.com/max/1400/1*6d5dw6dPhy4vBp2vRW6uzw.png" width=800 />

Los datos con los que trabajamos a menudo tienen **forma de tabla** o tabular –como hojas de cálculo de Excel– y contienen tipos de datos mixtos: algunos numéricos, otros categóricos y otros textuales. Antes de poder realizar operaciones matemáticas complejas y análisis significativos con datos, como visualizacion de datos o analisis de textos, normalmente necesitamos primero explorar y pre-procesar los datos. Este proceso implica operaciones como limpieza, reestructuración, filtrado, etc. Para esto usamos Pandas.

Dato curioso: ¿De donde viene el nombre Pandas? Aparentemente, el nombre proviene del término "panel data" (datos de panel).

Pandas y muchas otros paquetes en Python tienen sus propios tipos de variables en lugar de operar directamente con los tipos basicos que vimos en las dos primeras sesions. `Series` y `DataFrame` son los tipos básicos de Pandas.

## 2.1. Series

`Series` es un conjunto de datos ordenado con un "indice" para cada elemento. Puede contener **cualquier tipo de dato**. Los por defecto muestran la posicion de cada elemento, comenzando en cero.

La palabra es singular por ser en ingles, pero vamos a referirnos a este tipo tambien diciendola en singular en espanol: `Serie`.

### Como crear una serie?

Usamos el comando `Series()` de Pandas. Puedes partir de una lista y transformarla en una serie:

In [None]:
lista = [10, 20, 30]
serie = pd.Series(lista)
serie

- la primera columna muestra el indice de cada valor. Por defecto, estas se asignan como la posicion de los elementos comenzando en cero
- la segunda columna muestra los valores de la serie

Tambien podemos asignar indices explicitamente mediante el argumento `index` en el comando `Series()`:

In [None]:
# especificando los indices usando "index"
serie_con_indices = pd.Series([10, 20, 30], index=["valor 1", "valor 2", "valor 3"])
serie_con_indices

Los nombres de los indices permiten extraer elementos de una serie:

In [None]:
serie_con_indices["valor 2"]

In [None]:
serie[2]

### Como transformar una serie en una lista?

In [None]:
serie_con_indices.to_list()

### ¿Puedo aplicar la misma transformación a cada elemento de una Serie?

Si. La forma depende de la transformacion que estemos aplicando:

**Operaciones matematicas en series con numeros**

Podemos operar directamente la serie con simbolos mateticos. La operacion se aplicara a cada elemento:

In [None]:
serie - 50

In [None]:
serie + 500

**Aplicando una funcion a una serie**

Para esto utilizamos el metodo `.map()`, que se puede usar en series. Este metodo aplica una funcion a **cada elemento de la serie de forma individual**.

Veamos el siguiente ejemplo, que aplica una funcion a los valores de una serie que contiene strings.

In [None]:
# Definiendo una funcion que invierte los caracteres de una string:
def al_reves(texto):
    
    texto_invertido = texto[::-1]
    
    return texto_invertido

In [None]:
# Definiendo una nueva serie:
paises = ['Republica Dominicana', 'El Salvador', 'Peru']
serie_paises = pd.Series(paises)

In [None]:
# Aplicando la funcion a la serie:
serie_paises.map(al_reves)

Esto es mas o menos similar a haber aplicado la funcion a cada elemento en un bucle `for`, que revisamos ayer. Sin embargo, hay una diferencia fundamental en terminos del tiempo requerido: **esta es una operacion vectorizada**. Esto significa que Python aplica la operacion a todos los elementos al mismo tiempo, mientras que en un bucle `for` las transformaciones de cada elemento solo comienzan luego de que la transformacion al elemento anterior ya culmino.

Dado que estos son solo tres elementos, nuestra percepcion de tiempo no nos permite distinguir la diferencia en el tiempo que toma una operacion vectorizada y un bucle `for`. Pero cuando trabajamos con miles o millones de observaciones, esto hace una gran diferencia.

**Conclusion:** siempre procura aplicar operaciones vectorizadas al trabajar con Pandas.

## 2.2. DataFrame

Un `DataFrame` es una tabla de datos con indices para las filas y nombres para las columnas. Las columnas pueden tener distintos tipos de datos. Puedes entender un `DataFrame` como similar a una hoja de cálculo en Excel o una tabla en SQL. Generalmente, es el tipo de variable más utilizado de pandas.

### 3.2.1. Creación de DataFrames

Hay muchas formas de crear un `DataFrame`. Veamos algunos ejemplos utilizando los tipos de datos con los que ya estamos familiarizados.

#### Utilizando una `Series`

In [None]:
datos = {"paises": serie_paises, "valores": serie}
df_usando_series = pd.DataFrame(datos)
df_usando_series

In [None]:
df_usando_series.columns

In [None]:
df_usando_series.index

#### Usando listas

In [None]:
datos = {"ID": [1, 2], "mascota": ["perro", "gato"], "necesita paseo": [True, False]}
mascotas = pd.DataFrame(datos)
mascotas

#### Desde un archivo CSV de internet

Usamos el comando `read_csv()` de pandas para leer un archivo CSV. El input puede ser una direccion en internet (URL) o un archivo CSV en nuestra computadora (por ejemplo: `C:/Documentos/tabla.csv`).

In [None]:
url = 'https://raw.githubusercontent.com/worldbank/dec-python-course/main/1-foundations/3-numpy-and-pandas/data/Singapore_Annual_New_Car_Registrations_by_make_type.csv'
singapore_cars = pd.read_csv(url)
singapore_cars

#### Desde un archivo de Excel

Usamos el comando `read_excel()`. Si un archivo de Excel tiene muchas tablas, podemos especificar que tabla queremos leer con el argumento `sheet_name`.

In [None]:
archivo_excel = 'datos/BOLETIN ESTADISTICO 2024.xlsx'
df = pd.read_excel(archivo_excel, sheet_name='Recaudación por región')

In [None]:
df

Este DataFrame sera el que utilizaremos para los ejemplos y ejercicios del resto de la sesion.

### 2.2.2. Explorando los datos

Ahora hagamos una exploracion básica para entender nuestro DataFrame.

#### ¿Cuántas filas y columnas hay?

In [None]:
# len() aplicado a un DataFrame da el numero de filas
len(df)

In [None]:
# .shape nos da las filas y columnas
df.shape

In [None]:
n_filas, n_columnas = df.shape
print(f'Tenemos {n_filas} filas y {n_columnas} columnas')

#### Cuales son los nobres de las columnas?

In [None]:
df.columns

#### ¿Cómo se ven los datos?

Desde las primeras observaciones:

In [None]:
df.head()

Desde las ultimas:

In [None]:
# Opcionalmente, podemos especificar cuantas de las ultimas filas queremos ver
df.tail(7)

#### ¿Qué tipo de datos contiene actualmente cada columna y cuántos valores faltantes hay?

In [None]:
df.info()

Como observamos, este DataFrame necesita procesamiento para ser util en visualizacion de datos u otras operaciones. Los datos originales en Excel se ven como en la siguiente captura de pantalla:

<img src="img/recaudacion-por-region.png">

En los siguientes ejercicios, vamos a transformar los para que tengan una forma en la que podamos realizar visualizaciones usando `matplotlib`. Especificamente, esto es lo que haremos:

1. Crear un dataframe a nivel de provincia con la recaudacion de 2015 a 2024
1. Crear otro dataframe a nivel de region con la recaudacion por region de 2015 a 2024
1. Crear otro dataframe a nivel de provincia con la participacion por provincia en la recaudacion total de la region, solo para la region norte, en 2024.

Como primer paso, empezaremos por eliminar las filas que no contienen informacion.

### 2.2.3 Seleccionando filas

In [None]:
# Volvemos a visualizar el DataFrame
df

La informacion que queremos preservar esta de las filas 9 a la 43. Dejaremos solo esas filas en el dataframe.

In [None]:
# nota que como queremos hasta la fila 43, el ultimo indice debe ser uno mas (44)
# todos los rangos en Python son excluyentes del ultimo numero
df = df[9:44]

In [None]:
df

Per vemos que el indice ahora va de 9 a 43! para que vuelva a empezar en cero, usamos `reset_index(drop=True)`:

In [None]:
df = df.reset_index(drop=True)

In [None]:
df.head()

Ahora el indice es correcto.

### 2.2.4 Renombrando columnas

A continuacion, asignaremos los nombres correctos a las columnas. Empezaremos creando una lista de strings con los nombres que queremos asignar. Para esto usamos un tipo de operacion sumamente util en Python: **comprension de listas** (*list comprehension*).

In [None]:
cols = [f'recaudacion {num}' for num in range(2015, 2025)]
# nota que el ultimo elemento del rango es 2025, eso indica que el ranga va hasta 2024

In [None]:
cols

In [None]:
cols = ['Provincia'] + cols

In [None]:
cols

Con esto, asignamos los nombres a las columnas con `df.columns`:

In [None]:
df.columns = cols
df.head()

En este caso, cambiamos todos los nombres de las columnas en una sola operacion. Para cambiar una sola, podemos usar el metodo `.rename()`. Lo utilizaremos ahora para cambiar la primera columna de `Provincia` a `provincia` (con `p` minuscula). En analisis de datos, usualmente es mas conveniente mantener nombres de columnas siempre en minusculas y sin acentos.

Nota que el argumento donde definimos los nuevos nombres de las columnas **es un diccionario** que relaciona los nombres antiguos con los nuevos. Este diccionario se asigna al argumento llamado `columns`:

In [None]:
nuevos_nombres = {'Provincia': 'provincia'}
df = df.rename(columns=nuevos_nombres)

In [None]:
df

### 2.2.5 Reemplazando valores de una columna

Habras notado que Pandas no leyo los valores de Excel en millones de pesos dominicanos, sino en pesos directamente. Para corregir esto, vamos a transformar los valores a millones de pesos. Empezaremos con una sola columna:

In [None]:
df['recaudacion 2015'] = df['recaudacion 2015'] / 1000000

El uso de corchetes selecciona una columna de un dataframe por su nombre, que va como una string dentro de los corchetes.

Podemos seguir aplicando esta operacion columna por columna de 2016 a 2024, pero tardariamos mucho. Otra opcion mas conveniente es usar esta forma de seleccionar columnas con **multiples columnas**.

### 2.2.6 Reemplazando valores en varias columnas a la vez

Para esto volveremos a nuestra lista `cols` que definimos antes. Solo que debemos modificarla para que incluya las columnas que queremos cambiar:

In [None]:
cols

In [None]:
cols = cols[2:]
cols

In [None]:
df[cols] = df[cols] / 1000000

Nota que `cols` es una lista! de modo que `df[cols]` es igual a `df[['recaudacion 2016', 'recaudacion 2017', .........]]`.

Ahora comprobaremos si la operacion funciono:

In [None]:
df.head()

Estamos cada vez mas cerca a lograr tener los datos en la forma que necesitamos, pero aun nos faltan algunas operaciones. Lo siguiente sera separa `df` en dos dataframes:
- uno a nivel de provincia
- uno a nivel de region

### 2.2.7 Seleccionando (filtrando) filas

Empezaremos creando el dataset de las regiones. Para eso primero crearemos una lista con los nombres de las regiones y luego la usaremos para seleccionar las filas con los nombres de regiones.

In [None]:
regiones = ['Norte', 'Sureste', 'Suroeste']

In [None]:
df_regiones = df[df['provincia'].isin(regiones)]

In [None]:
df_regiones

Algunos puntos a considerar:
- El metodo `.isin()` se aplica en una columna de un dataframe y evalua si los valores estan incluidos en una lista dada
- El resultado de `.isin()` es una `Series` con valores booleanos, con `True` si el valor estuvo en la lista
- Esto significa que el input del primer par de corchetes es una serie de **valores booleanos**. Pandas usa este tipo de valores para determinar que filas son filtradas

In [None]:
df['provincia'].isin(regiones)

Como vimos que `df_regiones` tiene indices en desorden, nuevamente utilizaremos el metodo `reset_index(drop=True)` para establecer el indice correcto.

In [None]:
df_regiones = df_regiones.reset_index(drop=True)

Por ultimo, cambiaremos el nombre de la columna `provincia` por `region` en df_regiones:

In [None]:
df_regiones = df_regiones.rename(columns={'provincia': 'region'})
df_regiones

Ahora solo nos falta filtrar las observaciones de provincias de `df`. Para esto haremos la operacion de seleccion de filas inversa usando el operador logico `~`, que significa "opuesto". Esto transforma valores booleanos `True` a `False` y viceversa.

In [None]:
# nota el uso de ~ y que usamos .reset_index() directamente para corregir la numeracion del indice
df_provincias = df[~df['provincia'].isin(regiones)].reset_index(drop=True)

In [None]:
df_provincias

Con esto ya tenemos 2 de los 3 dataframes que queriamos. Nos falta:
- Crear otro dataframe a nivel de provincia con la participacion por provincia en la recaudacion total de la region, solo para la region norte, en 2024.

Este dataframe requiere de mas operaciones. En concreto:
1. Filtrar solo las provincias de la region norte.
1. Filtrar solo las columnas con el nombre de provincia y la recaudacion de 2024
1. Del dataframe de regiones, traer el valor de la recaudacion de la region en 2024
1. Dividir la recaudacion de cada provincia con la recaudacion de la region en 2024 para obtener la participacion por regiones

Algunas de estas operaciones ya las hemos realizado, otras son nuevas. Empezaremos por senalar en `df_provincias` cuales son las provincias de la region norte.

In [None]:
provincias_norte = [
'Dajabón', 
'Duarte', 
'Espaillat', 
'Hermanas Mirabal', 
'La Vega', 
'María Trinidad Sánchez', 
'Monseñor Nouel', 
'Montecristi', 
'Puerto Plata', 
'Samaná', 
'Sánchez Ramírez', 
'Santiago de Los Caballeros', 
'Santiago Rodríguez', 
'Valverde Mao'
]

### 2.2.8 Creando valores basados en condiciones

A continuacion, anadiremos en `df_provincias` una nueva columna llamada `region` que tendra el valor "Norte" para todas las provincias del norte. para esto, utilizaremos el seleccionador de dataframes de Pandas `.loc[]`, que permite operaciones de seleccion mas complejas y cambios de valores.

In [None]:
# Creando una columna con una string vacia
df_provincias['region'] = ''

In [None]:
df_provincias.head()

Ahora usaremos el seleccionador `.loc[]`. Nota que esta es su sintaxis para reemplazar valores basados en una condicion:

`df.loc[condicion-basada-en-filas, columna-a-cambiar] = nuevo-valor`

In [None]:
df_provincias.loc[df_provincias['provincia'].isin(provincias_norte), 'region'] = 'Norte'

In [None]:
df_provincias

### 2.2.9 Seleccionando columnas

Ahora procederemos a quedarnos con las columnas `provincia`, `recaudacion 2024` y `region`, para las regiones del norte. Empezaremos seleccionando solo las columnas relevantes y guardaremos el resultado en un dataframe llamado `df_norte`.

In [None]:
columnas_que_quedan = ['provincia', 'recaudacion 2024', 'region']

In [None]:
df_norte = df_provincias[columnas_que_quedan]

In [None]:
df_norte

Ahora solo queda filtrar las observaciones en el norte:

In [None]:
df_norte = df_norte[df_norte['region'] == 'Norte']

In [None]:
df_norte

Ahora ya estamos casi listos para unir estos datos con `df_regiones` para traer la recaudacion total del norte en 2024 y calcular la participacion por provincia.

### 2.2.10 Uniendo dataframes

Empezaremos por filtrar las filas y columnas relevantes en `df_regiones` para dejar solo el norte y 2024:

In [None]:
df_regiones_norte = df_regiones[df_regiones['region'] == 'Norte'][['region', 'recaudacion 2024']]
df_regiones_norte = df_regiones_norte.rename(columns={'recaudacion 2024': 'total region 2024'})

In [None]:
df_regiones_norte

Ahora realizaremos la union entre `df_norte` y `df_regiones_norte`, usando el metodo `.merge()`. Este metodo toma los siguientes argumentos:

- el metodo se aplica en el **primer dataframe** y el primer argumento de `.join()` es el **segundo dataframe**
- el argumento `on` define las columnas que identifican las mismas observaciones (tambien conocidas como **llaves** o *keys*)
- el argumento opcional `how` toma tres valores:
    - `"left"` indica que el resultado de la union debe preservar las observaciones del primer dataframe
    - `"right"` indica que la union debe preservar las observaciones del segundo dataframe
    - `"inner"` indica que la union de preservar las observaciones en ambos dataframes
    
`.merge()` es un metodo complejo que esta basado en manejo de bases de datos en SQL. La documentacion completa del comando esta [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html).

In [None]:
df_norte['region']

In [None]:
df_regiones_norte['region']

In [None]:
df_norte

In [None]:
df_regiones_norte

In [None]:
df_norte = df_norte.merge(df_regiones_norte, on='region', how='inner')

In [None]:
df_norte

Ahora podemos calcular la participacion dividiendo las columnas `recaudacion 2024` y `total region 2024`:

In [None]:
df_norte['participacion 2024'] = df_norte['recaudacion 2024'] / df_norte['total region 2024']

In [None]:
df_norte

### 2.2.11 Guardando un dataframe como un archivo CSV

Hemos producido 3 dataframes en estos ejercicios: `df_regiones`, `df_provincias` y `df_norte`. Guardaremos estos 3 resultados en archivos CSV para usarlos para visualizacion de datos:

In [None]:
# df_regiones
archivo = 'datos/regiones.csv'
df_regiones.to_csv(archivo, index=False)

In [None]:
# df_provincias
archivo = 'datos/provincias.csv'
df_provincias.to_csv(archivo, index=False)

In [None]:
# df_norte
archivo = 'datos/provincias_norte_2024.csv'
df_norte.to_csv(archivo, index=False)