[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/5_mas_pandas.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

## Sesión 5: Más de pandas

1. Arrays y Dataframes
2. Operaciones básicas en Dataframes
    * Creación de columnas nuevas
        * Suma, resta, multiplicación o divisón
        * Comandos básicos de texto
    * Agrupación
3. Operaciones avanzadas en Dataframes
    * Funciones Lambda
4. Combinación de Dataframes
    * Tipos de joins
    * Merge

In [3]:
# Paquetes
import numpy as np
import pandas as pd

Dos maneras de cargar los datos, descomenta la que te funcione:

In [4]:
#from google.colab import drive
#drive.mount('/content/drive', force_remount=True) 
#my_path = '/content/drive/MyDrive/propedeutico_python-main' 

## Datos
#df = pd.read_csv(my_path + '/datos/indicadores.csv', dtype='str')

In [5]:
# Datos
#df = pd.read_csv('https://raw.githubusercontent.com/m-durand/propedeutico_python/main/datos/indicadores.csv', dtype='str')

## 1. ¿Qué es un _array_ y por qué es diferente a un dataframe?

Vamos a crear dos tablas con datos, una será un array y la otra un dataframe:

In [6]:
# Declaremos tres listas
a = [1, 2, 3] 
b = [2, 2, 2] 
c = ["a", "b", "c"] 

array_example = np.array([a,b,c])
dataframe_example = pd.DataFrame(list(zip(a, b, c)))

In [None]:
print(array_example)
print(" ")
print(type(array_example))

In [None]:
print(dataframe_example)
print(" ")
print(type(dataframe_example))

Además del tipo de objeto - que obtuvimos con el `print(type(*))` -, ¿cuáles son las diferencias entre las dos tablas anteriores?

In [None]:
dataframe_example_coln = pd.DataFrame(list(zip(a, b, c)),
              columns=['secuencial','constante', 'letras'])

In [None]:
print(dataframe_example_coln)

¿Cuál es la diferencia entre `dataframe_example` y `dataframe_example_coln`?

## 2. Operaciones básicas en Dataframes

In [None]:
df.head()

¿Qué pasa si lo convertimos a un array?

In [None]:
df.to_numpy()

### Creación de columnas nuevas

Una de las principales acciones necesarias al trabajar con datos, sea para la fase de exploración o la de ingeniería de variables, es crear columnas nuevas basadas en otras ya existentes dentro del dataframe.

Como un primer ejemplo, muy sencillo, creemos una nueva variable `region` que contenga una de las 8 regiones de México con base en el siguiente diccionario:

In [None]:
# fuente: https://es.wikipedia.org/wiki/Regiones_de_M%C3%A9xico
region_entidad = {'Noroeste': ['Baja California', 'Baja California Sur', 'Chihuahua', 'Durango', 'Sinaloa', 'Sonora'], 
                   'Noreste': ['Coahuila', 'Nuevo León', 'Tamaulipas'], 
                   'Occidente': ['Colima', 'Jalisco', 'Michoacán', 'Nayarit'], 
                   'Oriente': ['Hidalgo', 'Puebla', 'Tlaxcala', 'Veracruz'], 
                   'Centronorte': ['Aguascalientes', 'Guanajuato', 'Querétaro', 'San Luis Potosí', 'Zacatecas'], 
                   'Centrosur': ['Ciudad de México', 'México', 'Morelos'], 
                   'Suroeste': ['Chiapas', 'Guerrero', 'Oaxaca'], 
                   'Sureste': ['Campeche', 'Quintana Roo', 'Tabasco', 'Yucatán']
                  }

Recordemos cómo funcionan los diccionarios, con su estructura key->value. Con el diccionario en este formato, no podemos buscar cada entidad y asignarle una región. Convirtámoslo en un diccionario que sí nos sirva:

In [None]:
entidad_region = {ent:region for (region, ents) in region_entidad.items() for ent in ents}

In [None]:
entidad_region

In [None]:
df["region"] = df['entidad'].map(entidad_region)

Verifiquemos que el mapeo se hizo correctamente:

In [None]:
df[['entidad', 'region']].drop_duplicates()

La entidad "Republica Mexicana" no tiene región. Es normal.

### Suma, resta, multiplicación o divisón

Ahora utilicemos otras columnas del mismo dataframe para crear una nueva. Por ejemplo, obtengamos una columna con el total de mujeres:

In [None]:
df["muj_total"] = df["muj_3_5"] + df["muj_6_11"] + df["muj_12_14"] + df["muj_15_29"] + df["muj_30_64"] + df["muj_65_mas"]

# Verifiquemos con algunas filas aleatorias que la suma funcionó

df[["muj_3_5", "muj_6_11", "muj_12_14", "muj_15_29", "muj_30_64", "muj_65_mas", "muj_total"]].sample(n=10,replace=False)

¡No funcionó!

**¿Qué pasó?**

In [None]:
# Transformemos las variables que deberían ser numéricas, a numéricas
columnas_num = ['edad_med', 'evh', 'evm', 'ev', 'ind_env', 'raz_dep_adu', 'raz_dep_inf', 
                'raz_dep','t_bru_mor', 't_bru_nat', 't_cre_nat', 'tmih', 'tmim', 'tmi', 
                'tef_ado', 'tgf', 'año','cve_geo','cre_nat','def','hom_mit_año','muj_mit_año',
                'nac','pob_mit_año','muj_12_14','muj_15_29', 'muj_15_49','muj_18_24',
                'muj_3_5','muj_30_64','muj_6_11', 'muj_65_mas','hom_12_14','hom_15_29',
                'hom_15_49','hom_18_24', 'hom_3_5','hom_30_64','hom_6_11','hom_65_mas',
                'pob_12_14', 'pob_15_29','pob_15_49','pob_18_24','pob_3_5','pob_30_64',
                'pob_6_11','pob_65_mas']

df[columnas_num] = df[columnas_num].astype('float64')

In [None]:
# Reescribamos la variable que habíamos creado 
df["muj_total"] = df["muj_3_5"] + df["muj_6_11"] + df["muj_12_14"] + df["muj_15_29"] + df["muj_30_64"] + df["muj_65_mas"]

# Verifiquemos con algunas filas aleatorias que la suma funcionó

df[["muj_3_5", "muj_6_11", "muj_12_14", "muj_15_29", "muj_30_64", "muj_65_mas", "muj_total"]].sample(n=10,replace=False)

### Comandos básicos de texto

Aprovechemos que el formato de `fecha_registro` se encuentra en un formato homogéneo y limpio (y que no planeamos hacer operaciones numéricas con ella), para extraer sus componentes solamente del texto original. 

In [None]:
df["anio_reg"] = df["fecha_reg"].str[:4]
df["mes_reg"] = df["fecha_reg"].str[5:7]
df["dia_reg"] = df["fecha_reg"].str[8:10]

# Verifiquemos con algunas filas aleatorias que la suma funcionó

df[["fecha_reg", "anio_reg", "mes_reg", "dia_reg"]].sample(n=10,replace=False)

Si quisiéramos reconstruir la fecha, teniendo solamente las columnas de año, mes y día:

In [None]:
df["fecha_reg_reconstruida"] = df["mes_reg"].str[:4]
df["mes_reg"] = df["fecha_reg"].str[5:7]
df["dia_reg"] = df["fecha_reg"].str[8:10]

# Verifiquemos con algunas filas aleatorias que la suma funcionó

df[["fecha_reg", "anio_reg", "mes_reg", "dia_reg", "fecha_reg_reconstruida"]].sample(n=10,replace=False)

### Agrupación

Seguramente todos han usado tablas dinámicas antes, por ejemplo, para obtener el promedio de una variable para cada una de las categorías existentes en los datos. 

En realidad, las operaciones que están realizando para obtener estos npumeros son _agrupar_ y después _agregar_ con alguna función, que puede ser suma, promedio, máximo, mínimo, etc. Entonces, para escribirlo en python, usaremos `groupby` y las funciones relacionadas a cada una de esas operaciones (e.g. `min()` , `mean()` , `median()` , `count()`, `std()`)

Por ejemplo, utilicemos la variable de región que creamos hace unas líneas, y obtengamos algunos estadísticos para varaibles interesantes. 

In [None]:
df.groupby("region", as_index=True)[['edad_med', 'tmi', 'tgf']].mean()

¿Cuáles _insights_ podemos obtener de estos datos? ¿Qué le harían ustedes a la tabla dinámica para poder identificar visualmente posibles relaciones entre las variables o jerarquías entre las regiones?

In [None]:
df.groupby("region", as_index=True)[['edad_med', 'tmi', 'tgf']].mean().sort_values(by='edad_med')

## 3. Operaciones avanzadas en Dataframes

Hasta ahora hemos aprendido cómo aplicar funciones muy sencillas para crear nuevas columnas. ¿Cómo haríamos si quisiéramos crear una columna `tipo_de_dato` que tuviera los valores "Histórico" si el año es menor a 2020 y "Proyección" si es mayor?

El acercamiento salvaje sería escribir un iterador que funcionara más o menos así:

In [None]:
# crear una lista temporal que guarde los valores
lista_temporal_para_columna = []

# iterar en cada fila del df, e ir guardando los valores en la lista
for fila in range(len(df)):
    # condicion
    if df["año"][fila] < 2020:
        valor = "Histórico"
    else:
        valor = "Proyección"
    # guardar en la lista
    lista_temporal_para_columna.append(valor)

df["tipo_de_dato"] = lista_temporal_para_columna

In [None]:
# Verifiquemos con algunas filas aleatorias que funcionó

df[["año", "tipo_de_dato"]].sample(n=10,replace=False)

Sin embargo, hay una manera mucho más fácil (y optimizada computacionalmente) de hacer esto, con una función lambda:

In [None]:
df["tipo_de_dato_lambda"] = df.apply(lambda x: "Histórico" if x["año"]<2020 else "Proyección", axis=1)

In [None]:
# Verifiquemos con algunas filas aleatorias que funcionó

df[["año", "tipo_de_dato", "tipo_de_dato_lambda"]].sample(n=10,replace=False)

En lugar de la función lambda se puede usar cualquier otra función que se quiera aplicar a toda la columna.

## 4. Combinación de Dataframes

Recordemos las operaciones básicas que se pueden hacer con dos conjuntos: unión e intersección.

**Unión** devuelve la totalidad de los elementos en ambos conjuntos, contados una sola vez. En programación, en general se le llama "full join".

**Intersección** devuelve aquellos elementos que se encuentran en ambos conjuntos . En programación, en general se le llama "inner join".

Existen dos combinaciones de estas operaciones que nos dan "left join" y "right join":

![Join types on pandas.](https://datacomy.com/data_analysis/pandas/merge/types-of-joins.png 'Tipos de joins - fuente: datacomy')

Si se quieren combinar más de dos conjuntos de datos, esto debe hacerse a pares. Por ejemplo, si nuestros conjuntos se llaman `df_a`, `df_b` y `df_c`, primero obtendríamos un join de `df_a` y `df_b`, al cual podemos llamar `df_ab`, y después obtendríamos el join de `df_ab` con `df_c`. **¡Ojo¡** el orden de los factores puede alterar el producto.

**Ejercicio** 

Imaginemos a todos los ciudadanos de México (digamos, unos 125 millones) y a todos los ciudadanos de Estados Unidos (digamos, unos 340 millones). Llamémoslos mexicanos y estadounidenses. Ninguno de los dos países requiere reportar una segunda nacionalidad, ni publica cifras acerca de doble nacionalidad, así que supongamos que existen 5 millones de mexicanos-estadounidenses con ambos pasaportes.

[**Liga para el ejercicio**](www.PollEv.com/mariafernandaalcaladurand096)

Ahora veamos un ejemplo con dos dataframes de juguete:

In [None]:
nombres = ['Carlos', 'Ana', 'Pedro', 'Maria', 'Luis', 'Isabel', 'Javier', 'Carmen', 'Pablo', 'Laura']
colores = ['Rojo', 'Azul', 'Verde', 'Amarillo', 'Naranja', 'Morado', 'Negro', 'Blanco', 'Gris', 'Rosa']
frutas = ['Manzana', 'Naranja', 'Plátano', 'Piña', 'Mango', 'Fresa', 'Uva', 'Melón', 'Cereza', 'Kiwi']

filas = 7

# creamos dos dataframe con una selección aletoria de 7 nombres y características

# este es un paquete nuevo, lo usaremos para fijar una semilla aleatoria
import random

# fijar una semilla permite obtener aleatoriedad, pero poder replicar en experimentos posteriores con los mismos resultados
random.seed(42)

df_a = pd.DataFrame({
    'nombre': random.sample(nombres, filas),
    'color_favorito': random.sample(colores, filas)
})

df_b = pd.DataFrame({
    'nombre': random.sample(nombres, filas),
    'fruta_favorita': random.sample(frutas, filas)
})

print("Primer dataframe:")
print(" ")
print(df_a)
print(" ")
print("Segundo dataframe:")
print(" ")
print(df_b)

¿Que pasará con cada uno de los 4 tipos de join?

In [None]:
inner_merged = pd.merge(df_a, df_b, on='nombre')

print(inner_merged)

In [None]:
left_merged = pd.merge(df_a, df_b, on='nombre', how='left')

print(left_merged)

In [None]:
right_merged = pd.merge(df_a, df_b, on='nombre', how='right')

print(right_merged)

In [None]:
outer_merged = pd.merge(df_a, df_b, on='nombre', how='outer')

print(outer_merged)

**Ejercicio**






In [None]:
# TODO ejercicio