# __Ayudantía 3 - Tidy Data__

In [1]:
import pandas as pd

## __📝 Apuntes Importantes__

__(Extraídos desde el _starter pack_)__

### __1) Lectura de XLSXs__
_(3-Resumen Pandas; Cap 1.3 (B))_

In [None]:
# Leer un archivo Excel
df = pd.read_excel('output.xlsx', index_col='Unnamed: 0', sheet_name=0)
df

- Parámetros de utilidad: 
    - ```sep=;``` : Para cambiar el separador (muy útil para algunos csv en español)
    - ```index_col='col1'``` : Indicar si existe una columna indice (por defecto se crea una)
    - ```header=2``` : Indicar la fila donde están los títulos (por defecto es la primera / se puede agregar None para indicar que no tiene)
    - ```usecols=[col1, col2, ...]``` : Especificar columnas de entrada (en caso de excel puede utilizarse según las columnas de excel, por ejemplo 'A:D')
    - ```nrows=1000``` : Especificar cantidad de filas de entrada
    - ```sheet_name='hoja1'``` : Especifica la hoja a leerse (Puede indicarse por nombre, por índice o una lista d ehojas)
    - ```skiprows=2``` : Indica una cantidad de filas para saltar (Si es que no contienen info útil)

### __2) Uniendo DataFrames__
_(3-Resumen Pandas; Cap 4)_

#### __2.1- Concatenación__

La concatenación refiere a la acción de insertar los datos bruzcamente sobre, bajo o al lado de una tabla desde otra.

In [6]:
# data de ejemplo 1
df1 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo'],'Ingreso':[1200,300,1500,600]})
df1

Unnamed: 0,Nombre,Ingreso
0,Alonso,1200
1,Esteban,300
2,Pablo,1500
3,Rodrigo,600


In [7]:
# data de ejemplo 2
df2 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo','Patricio'],'Ciudad':['San Pedro','Concepción','Concepción','Talcahuano','San Pedro']})
df2

Unnamed: 0,Nombre,Ciudad
0,Alonso,San Pedro
1,Esteban,Concepción
2,Pablo,Concepción
3,Rodrigo,Talcahuano
4,Patricio,San Pedro


In [8]:
pd.concat([df1, df2]) # pone uno sobbajore el otro y no agrega datos si la columna no existe

Unnamed: 0,Nombre,Ingreso,Ciudad
0,Alonso,1200.0,
1,Esteban,300.0,
2,Pablo,1500.0,
3,Rodrigo,600.0,
0,Alonso,,San Pedro
1,Esteban,,Concepción
2,Pablo,,Concepción
3,Rodrigo,,Talcahuano
4,Patricio,,San Pedro


In [9]:
pd.concat([df1, df2], axis=1) # Al cambiar el eje, agrega de manera bruzca una tabla al lado de la otra

Unnamed: 0,Nombre,Ingreso,Nombre.1,Ciudad
0,Alonso,1200.0,Alonso,San Pedro
1,Esteban,300.0,Esteban,Concepción
2,Pablo,1500.0,Pablo,Concepción
3,Rodrigo,600.0,Rodrigo,Talcahuano
4,,,Patricio,San Pedro


#### __2.2- Fusión__

El `merge` es una fusión compleja y más intelgente que une las tablas a partir de cierta(s) columna(s) en común y por algún método de unión.

In [10]:
# Unir DataFrames por una columna
df_merged = pd.merge(df1, df2, on='Nombre', how='inner') # tiene parametros: on='columna' y how='inner' | 'outer' | 'left' | 'right' | 'cross'
df_merged # Los une en un mismo dataframe

Unnamed: 0,Nombre,Ingreso,Ciudad
0,Alonso,1200,San Pedro
1,Esteban,300,Concepción
2,Pablo,1500,Concepción
3,Rodrigo,600,Talcahuano


### __3) Tidy Data__
_(3-Resumen Pandas; Cap 5)_

En este formato, los datos siguen tres principios clave:
1. **Cada variable se almacena en una columna**: Cada atributo o característica de los datos es una columna diferente. Por ejemplo, si estás trabajando con un conjunto de datos sobre ventas, podrías tener columnas como "Producto", "Fecha", "Cantidad", "Precio", etc.
2. **Cada observación está en una fila**: Cada fila representa una única observación o entrada. Por ejemplo, una fila podría representar una transacción o una venta específica de un producto en un día determinado.
3. **Cada tipo de unidad de observación tiene su propio archivo o tabla**: Si tienes múltiples tipos de datos relacionados (como datos de clientes y datos de ventas), cada tipo de entidad se almacena en su propio conjunto de datos. Por ejemplo, podrías tener una tabla para clientes y otra para ventas.

Veamos un ejemplo:

In [2]:
data = {
    'Estudiante': ['Ana', 'Luis', 'María'],
    'Matemáticas_2021': [85, 78, 92],
    'Historia_2021': [88, 74, 85],
    'Ciencias_2021': [90, 80, 88],
    'Matemáticas_2022': [89, 82, 95],
    'Historia_2022': [90, 77, 91],
    'Ciencias_2022': [92, 84, 94],
}

df_no_tidy = pd.DataFrame(data)
df_no_tidy

Unnamed: 0,Estudiante,Matemáticas_2021,Historia_2021,Ciencias_2021,Matemáticas_2022,Historia_2022,Ciencias_2022
0,Ana,85,88,90,89,90,92
1,Luis,78,74,80,82,77,84
2,María,92,85,88,95,91,94


- Estos datos no cumplen con las condiciones de un formato tidy, por lo que para un mejor manejo deberá ser modificada la tabla.

### __5.1- Función Melt__

La función `melt` permite traspasar una tabla de formato desordenado a uno _tidy_ de manera sencilla indicando cuáles son la variable de observación, como se llamará la nueva variable y qué valor se medirá.

In [3]:
# Reordenandolo: MELT
df_tidy = df_no_tidy.melt(id_vars=['Estudiante'], var_name='Asignatura', value_name='nota')
df_tidy

Unnamed: 0,Estudiante,Asignatura,nota
0,Ana,Matemáticas_2021,85
1,Luis,Matemáticas_2021,78
2,María,Matemáticas_2021,92
3,Ana,Historia_2021,88
4,Luis,Historia_2021,74
5,María,Historia_2021,85
6,Ana,Ciencias_2021,90
7,Luis,Ciencias_2021,80
8,María,Ciencias_2021,88
9,Ana,Matemáticas_2022,89


In [4]:
# más bonito 
df_tidy2 = df_tidy.copy()
df_tidy2[['Asignatura', 'Año']] = df_tidy['Asignatura'].str.split('_', expand=True) # parametro expand permite dividirse en columnas
df_tidy2 = df_tidy2[['Estudiante','Año','Asignatura','nota']] # Nuevo órden
df_tidy2 = df_tidy2.rename(columns={'nota': 'Nota'}) # Nuevo nombre
df_tidy2

Unnamed: 0,Estudiante,Año,Asignatura,Nota
0,Ana,2021,Matemáticas,85
1,Luis,2021,Matemáticas,78
2,María,2021,Matemáticas,92
3,Ana,2021,Historia,88
4,Luis,2021,Historia,74
5,María,2021,Historia,85
6,Ana,2021,Ciencias,90
7,Luis,2021,Ciencias,80
8,María,2021,Ciencias,88
9,Ana,2022,Matemáticas,89


### __5.2- Función Pivot__

Función contraria al `melt`.

In [5]:
# Proceso contrario: PIVOT
df_no_tidy = df_tidy.pivot(index='Estudiante',columns=['Asignatura'],values='nota').reset_index()
df_no_tidy

Asignatura,Estudiante,Ciencias_2021,Ciencias_2022,Historia_2021,Historia_2022,Matemáticas_2021,Matemáticas_2022
0,Ana,90,92,88,90,85,89
1,Luis,80,84,74,77,78,82
2,María,88,94,85,91,92,95


## __Workshop 2__:

### Estadísticas reportadas por el Banco Mundial por país
- **PIB Per Cápita**: [https://data.worldbank.org/indicator/NY.GDP.PCAP.CD](https://data.worldbank.org/indicator/NY.GDP.PCAP.CD)
- **Población**: [https://data.worldbank.org/indicator/SP.POP.TOTL](https://data.worldbank.org/indicator/SP.POP.TOTL)
- **Índice de Gini**: [https://data.worldbank.org/indicator/SI.POV.GINI](https://data.worldbank.org/indicator/SI.POV.GINI)

### Actividades

1. Descargue los archivos generados por el Banco Mundial en formato Excel. Luego, abra los archivos usando `read_excel()` y especificando que la primera fila corresponda a la que contenga el nombre de las variables. Use el parámetro `header`.

In [None]:
# Tu código aquí

2. Convierta a formato *tidy* cada conjunto de datos. Realice esta labor por separado.

In [None]:
# Tu código aquí

3. Calcule la media y mediana de población anualmente.

In [None]:
# Tu código aquí

4. ¿Cómo se obtiene el país con mayor población?

In [None]:
# Tu código aquí

5. ¿Cómo se obtiene el país con menor desigualdad?

In [None]:
# Tu código aquí

6. Calcule el promedio (media móvil) de PIB Per Cápita por país de los últimos 5 años.

In [None]:
# Tu código aquí

7. Concatene ambos conjuntos de datos en un único DataFrame. Use `.concat()`.

In [None]:
# Tu código aquí

8. Combine ambos conjuntos de datos en un único DataFrame. Use `.merge()`.

In [None]:
# Tu código aquí

9. Luego de realizar los ejercicios anteriores, ¿Cuáles son las ventajas y desventajas de usar `concat` y `merge`?

In [None]:
# Tu código aquí

10. Calcule los países que tuvieron mayor variación en su índice de Gini.

In [None]:
# Tu código aquí

11. A partir del PIB Per Cápita y la Población, obtenga una nueva columna para medir el PIB.

In [None]:
# Tu código aquí

12. Calcule la tasa de crecimiento poblacional anual por país como una nueva columna de datos.

In [None]:
# Tu código aquí

13. ¿Cuál es la tasa de crecimiento poblacional anual para Chile y Argentina?

In [None]:
# Tu código aquí

14. Al año 2000, determine cuáles son los 10 países con mayor PIB Per Cápita y los 10 con mayor población. ¿Son los mismos países al 2020?

In [None]:
# Tu código aquí

15. Al año 2020, ¿Cuáles son los países con mayor nivel de desigualdad, y que, al mismo tiempo, tengan una población menor a 40 millones de habitantes?

In [None]:
# Tu código aquí