<a href="https://colab.research.google.com/github/Vokturz/Curso-Python-BCCh/blob/main/clase4/Clase4_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

<div>
<img src="https://github.com/Vokturz/Curso-Python-BCCh/blob/main/clase4/pandas_dalle3.png?raw=true" width="500"/>
</div>

La librería Pandas se utiliza para el análisis y manipulación de datos. Se basa en estructuras de datos eficientes y proporciona herramientas esenciales para trabajar con datos tabulares (similares a las tablas de bases de datos o hojas de cálculo).

Para inicializarla, basta con importarla dentro de python:
```python
import pandas as pd
```

## Estructuras de Datos

Existen dos estructuras de datos principales en Pandas, ambas basadas en los `arrays` de Python: Series y DataFrame.

### Series

Una Serie es similar a un arreglo unidimensional, pero con etiquetas. Esto último permite acceder a los elementos de una forma muy similar a los diccionarios, sin embargo, a diferencia de estos, una Serie **si** permite elementos duplicados.

In [None]:
import pandas as pd
# Generamos una serie
serie = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])
print(serie)

# Podemos mirar cuales son los indices
print(serie.index)

In [None]:
# Podemos generar la serie a partir de un diccionario
un_dict = {"a": 1, "b": 2, "c": 3, "d": 4}
serie = pd.Series(un_dict)
print(serie)
print("---")

# Podemos acceder a un elemento de forma muy similar a un diccionario
print("El valor de a es", serie["a"])


serie["a"] = 0 # Podemos modificar un valor
print("El valor de a es", serie["a"])
type(serie["a"])

In [None]:
# Una serie con indices duplicados
serie = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "a"])
print(serie)
print("---")

# En este caso, al pedir el valor de "a" nos mostrará dos valores
print(serie["a"])
type(serie["a"])

### DataFrame
Un DataFrame es como un diccionario de Series. Podemos entenderlo como una tabla de datos donde las columnas son Series que comparten un índice común.


In [None]:
data = {
    'columna1': [1, 2, 3, 4],
    'columna2': ['a', 'b', 'c', 'd']
}

df = pd.DataFrame(data)
print(df)
print('---')

# Podemos asignar indices
df = pd.DataFrame(data, index=["id1", "id2", "id3", "id4"])
print(df)

In [None]:
# Si omitimos el print, en algunas plataformas los DataFrames se muestran como una tabla
df

In [None]:
# Podemos acceder a un elemento
columna2 = df["columna2"]
print(columna2)
type(columna2) # Vemos que es una Serie

In [None]:
# Podemos agregar una nueva columna
df["columna3"] = [True, True, False ,False]
df

In [None]:
# Podemos asignar una columna como el nuevo indice
df.set_index("columna1")  # Esto retorna el DataFrame modificado

# Si hubieramos querido guardarlo, deberíamos haber usado:
# df = df.set_index("columna1")
# df.set_index("columna1", inplace=True) # si inplace=True no retorna nada

In [None]:
# Podemos acceder a las columnas
print(df.columns)

# Y tambien podemos modificar sus nombres
df.columns = ["col1", "col2", "col3"]
df

In [None]:
# renombrar un indice (no inplace)
df.rename({'id1' : 'indice1'})

In [None]:
# renombrar una columna (no inplace)
df.rename(columns={'col1' : 'columna1'})

Como mencionamos, los DataFrames (así como las Series) están basados en arrays de NumPy, por lo que podemos usar las mismas operaciones que haríamos sobre ellos.

In [None]:
# Podemos ver que los valores están representados por un array
df.values

In [None]:
# A col1 le sumamos 10
df["col1"] + 10

Una propiedad interesante de los arrays es que podemos filtrar según algun valor. Por ejemplo si mi array contiene muchos numeros, podemos filtrar para obtener todos los valores que son mayor a un número:
```python
# valores de un_array que son mayores a N
un_array[un_array > N]
```

Esto mismo se puede utilizar en Pandas!

In [None]:
# Ejemplo con NumPy
import numpy as np
un_array = np.arange(1,21)
print(un_array)
print("---")
print(un_array[un_array > 10])

In [None]:
# Ejemplo con Pandas, las siguientes tres expresiones hacen lo mismo
# Para las últimas dos, es importante que la columna no tenga espacios
df[df["col1"] > 2]
# df[df.col1 > 2]
# df.query("col1 > 2")


In [None]:
# Volvamos a los indicadores mensuales
indicadores_mensuales = {
      "IPC": [0.8, -0.1, 1.1, 0.3, 0.1, -0.2],
      "Tasa de Desempleo": [8.04, 8.37, 8.81, 8.66, 8.52, 8.53],
      "Imacec": [0.2, 5, -2.1, -0.9, -0.8, -0.2]
  }

indice_meses = {0: "Enero",
                1: "Febrero",
                2: "Marzo",
                3: "Abril",
                4: "Mayo",
                5: "Junio"}

df_indicadores = pd.DataFrame(indicadores_mensuales, index=indice_meses.values())
df_indicadores

In [None]:
# Podemos trasponer los datos, de esta forma las filas pasan a ser
# columnas y viceversa
df_indicadores.T

In [None]:
# Promedio sobre cada columna, redondeado a 2
df_indicadores.mean().round(2)

In [None]:
# Exisiste un método que nos da un análisis estadístico
# descriptivo de forma inmediata
df_indicadores.describe().round(2)

In [None]:
df_indicadores.idxmin() # Indice mínimo

## Merge
La operación [`merge`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) permite unir dos conjuntos de datos a partir de columnas (o el indice) en común. La expresión es la siguiente:

```python
pd.merge(df1, df2, on=["col1"], how="left")
```
donde `how` corresponde al tipo de unión que se quiere realizar:
- `left`: Mantiene las filas del DataFrame izquierdo y agrega columnas del DataFrame derecho. Es análogo al `left join` en SQL.
- `right`: Similar al anterior, pero sobre las filas del DataFrame derecho.
- `inner`: Mantiene las filas con claves coincidentes en ambos DataFrames, es decir, las filas que sin coincidencia quedan excluidas. Es análogo al `ìnner join` en SQL.
- `outer`: Incluye las files de ambos DataFrames. Si hay claves no coincidentes, estas quedan con valores nulos (NaN). Análogo al `full join` de SQL

<div>
<img src="https://www.csestack.org/wp-content/uploads/2020/10/sql-table-joins.png" width="500"/>
</div>

> Fuente: *https://www.csestack.org/sql-join/*

In [None]:
# Datos de tasas de interés
tasas = pd.DataFrame({
    'Año': [2020, 2021, 2022],
    'Tasa de Interés (%)': [2.5, 2.0, 2.25]
})

# Datos de inflación
inflacion = pd.DataFrame({
    'Año': [2021, 2022, 2023],
    'Inflación (%)': [3.1, 3.5, 2.8]
})

# Merge de los dos dataframes usando 'Año' como clave
df_merged = pd.merge(tasas, inflacion, on='Año', how='left')
df_merged

## Pivoteo
La operación `pivot` en Pandas nos permite reestructurar un DataFrame, de forma que los elementos dos columnas pasan a ser los indices y columnas de un nuevo DataFrame. La sintaxis es la siguiente:

```python
df.pivot(index="col1", columns="col2", values="col3")
```

Donde:
- `index`: La columna que se utilizará como índice del nuevo DataFrame.
- `columns`: La columna que se utilizará para crear las nuevas columnas.
- `values`: La columna que contiene los valores que se quieren distribuir en las nuevas columnas.

In [None]:
# Datos de inflación mensual
inflacion_mensual = pd.DataFrame({
    'Año': [2021, 2021, 2021, 2022, 2022, 2022],
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
    'Inflación (%)': [0.3, 0.4, 0.35, 0.32, 0.38, 0.33]
})
inflacion_mensual

In [None]:
# Pivoteamos
df_pivoteado = inflacion_mensual.pivot(index='Año', columns='Mes', values='Inflación (%)')
df_pivoteado

## Cargando archivos
Pandas permite cargar archivos de distintas fuentes, basta con usar la función de Pandas correcta según el tipo de archivo:

```python
# Cargar desde un archivo CSV
df = pd.read_csv('ruta/del/archivo.csv')

# Cargar desde un archivo Excel
# NOTA: Es importante que el Excel tenga un buen formato
df = pd.read_excel('ruta/del/archivo.xlsx')

# Cargar desde un archivo Stata
df = pd.read_excel('ruta/del/archivo.dta')

# Cargar desde un archivo SQL
df = pd.read_excel('ruta/del/archivo.sql')
```

En este caso `ruta/del/archivo` corresponde a la ubicación del archivo dentro de nuestro computador. No obstante, podemos también cargar un archivo desde un link:

```python
# Cargar desde un archivo CSV en internet
df = pd.read_csv('https://url_al_archivo_csv')
```

### Ejemplo práctico

A continuación se mostrará un ejemplo de cómo leer un archivo y sacar ciertas estadísticas sobre él. Para ello, normalmente se realizan ciertos pasos:

1. **Carga del archivo**: Como se mencionó anteriormente, ya sea desde una ubicación local o desde un enlace en línea.
2. **Exploración inicial**: Antes de cualquier análisis, es crucial familiarizarse con la naturaleza y estructura de los datos.
3. **Limpieza de datos**: Este paso implica tratar los valores faltantes, remover duplicados, corregir errores, entre otras acciones necesarias para garantizar la calidad de los datos.
4. **Análisis y obtención de estadísticas**: Una vez que los datos están limpios, podemos proceder a realizar diferentes análisis y obtener estadísticas relevantes.

In [None]:
# 1. Datos de población en Chile por Región y Comuna
df = pd.read_csv('https://raw.githubusercontent.com/MinCiencia/Datos-COVID19/master/input/DistribucionDEIS/baseFiles/DEIS_template.csv')
print(df.shape) # Mostrar las dimensiones
# 2. Mostrar las primeras (5) filas
df.head()

In [None]:
# 2. Info general de la tabla
# object es cualquier tipo no numerico (lista, tupla, strings, etc)
# en este caso corresponden a strings
df.info()

In [None]:
# 3. Veamos la cantidad de valores NaN
df.isna().sum()

In [None]:
# 3. En particular, nos interesan los NaN en la columna poblacion
df[df['Poblacion'].isna()]

In [None]:
# 3. Eliminamos los NaN de Población
df = df.dropna(subset=["Poblacion"])
print(df.shape) # Deberían haber 346 comunas
df["Poblacion"].sum() # ?? No parece ser correcto

In [None]:
# Revisamos las primeras 10 filas
df.head(10)

In [None]:
# 3. Descartamos los valores donde Comuna == Total
df = df.query("Comuna != 'Total'")
print(df.shape) # Ahora si hay 346 comunas!
df["Poblacion"].sum() # Parece andar bien

In [None]:
# 4. Vemos estadísticas en Población
df["Poblacion"].describe()

In [None]:
# Podemos guardar el  resultado
df.to_csv("poblacion_chile2020.csv", index=False) # no nos interesan los indices

## GroupBy

La operación `groupby` en Pandas permite agrupar el DataFrame usando una columna específica (o más) y luego aplicar una función de agregación (como suma, media, conteo, etc.) a cada grupo.

Por ejemplo, para los datos de población a nivel de comuna, podemos agrupar por la región para obtener estadísticas como el total de población, la cantidad total de comunas, entre otros.

In [None]:
# Para cada región, contar cuantas comunas hay
df.groupby("Region")["Comuna"].count()

In [None]:
# Para cada región, obtener la población total y ordenarlo
df.groupby("Region")["Poblacion"].sum().sort_values()

In [None]:
# Podemos obtener la estadística descriptiva de la población a nivel de Región
df.groupby("Region")['Poblacion'].describe()

Una forma eficiente de agregar valores, es usar el operador `.agg`:

```python
df.groupby(["col1", "col2"]).agg(promedio_col3=("col3", "mean"),
                                 total=("col4", "count"))
```

Al usar este operador, debemos crear elementos separados por coma, donde cada columna está descrita por una tupla. Así por ejemplo, en este caso definimos una columna `promedio_col3` como el promedio (`mean`) de la columna `col3`.

In [None]:
# Agregamos a nivel de región, y obtenemos la población total junto
# a la cantidad total de comunas
df.groupby("Region").agg(total_poblacion=("Poblacion", "sum"),
                         total_comunas=("Comuna", "count"))

In [None]:
# Si revisamos la columna Region, vemos que los elementos se repiten bastante
df['Region']

In [None]:
# Podemos obtener los elementos únicos de una columna
print(df["Region"].unique())
# Tambien podemos contar cuantas elementos únicos hay
print("Total regiones:", df["Region"].nunique())

In [None]:
# Una operación interesante es la de value_counts()
df["Region"].value_counts()

In [None]:
# Podemos obtener una correlación entre la poblaciony la cantidad de columnas
resultado = df.groupby("Region").agg(total_poblacion=("Poblacion", "sum"),
                                     total_comunas=("Comuna", "count"))
resultado.corr(method="spearman") # también puede ser pearson o kendall

<div>
<img src="https://substackcdn.com/image/fetch/f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe5cd9d17-9d18-4032-92d0-227a25958789_2985x2823.jpeg" width="500"/>
</div>

> Fuente: *https://www.blog.dailydoseofds.com/p/the-biggest-limitation-of-pearson*


In [None]:
# Un ejemplo de lo que se viene para la siguiente clase
resultado.plot.scatter("total_poblacion", "total_comunas")

# Links de interés
- [Pandas](https://pandas.pydata.org/docs/user_guide/10min.html) tiene una guía introductoria de 10 minutos
- [W3Schools](https://www.w3schools.com/python/pandas/default.asp) tiene un tutorial de Pandas, incluyendo [algunos ejercicios](https://www.w3schools.com/python/pandas/exercise.asp)
- El [Instituto Nacional de Estadísticas](https://www.ine.gob.cl/estadisticas) almacena datos de distinta índole
- El Gobierno tiene un [portal de datos](https://datos.gob.cl/en/dataset)
- [Kaggle](https://www.kaggle.com/datasets) posee más de 200.000 set de datos de tópicos muy variados