# Unidad 02 - Datos estucturados y Pandas

En éste Notebook vamos a aprender aspéctos básicos del manejo de datos estructurados. Si bien Python puede manejar listas, listas anidadas y diccionarios; y ademas incluye un [módulo para leer archivos csv](https://docs.python.org/3/library/csv.html) desde la versión 2.3, aprovecharemos para aprender Pandas que tiene muchas mas funcionalidades.

Pandas es una biblioteca de Python para la manipulación y análisis de datos. Ofrece estructuras como Series (listas unidimensionales) y DataFrames (tablas bidimensionales), que permiten manejar, limpiar, filtrar y transformar datos de forma eficiente. Se usa en ciencia de datos y finanzas por su integración con otras bibliotecas como NumPy y su capacidad para manejar datos faltantes y realizar operaciones en grupo. Permite importar y exportar datos a distintos formatos incluyendo csv, json, parquet, excel, SQL.

A diferencia de los paquetes de arrays donde hay un ganador indiscutido (NumPy), para manejo de DataFrames hay otros paquetes de Python importantes como [Modin](https://modin.readthedocs.io/en/stable/) y [Polars](https://docs.pola.rs/). En particular, es probable que éste último se vuelva el estandar en el futuro. Sin embargo, hemos elegido Pandas porque hoy es el más popular y hay mas ejemplos, tutoriales y documentación online.

Documentación: https://pandas.pydata.org/

Código fuente: https://github.com/pandas-dev/pandas

*Este Notebook asume que ya tenés conocimientos básicos de Python, Jupyter Notebooks y NumPy*

## El tipo DataFrame

Es una estructura de datos bidimensional en forma de tabla, similar a una hoja de cálculo, con filas y columnas etiquetadas.

In [1]:
import numpy as np
import pandas as pd

data = {
    'Genero': ['M', 'F', 'M', 'M', 'M', 'F', 'M', 'M', 'M', 'F'],
    'Edad': [8, 18, 16, 27, 13, 34, 37, 23, 27, 35],
    'Altura_cm': [126.0, 159.0, 171.0, 157.0, 181.0, 159.0, 170.0, 171.0, 193.0, 163.0],
    'Peso_kg': [24.0, 61.0, 69.0, 88.0, 63.0, 59.0, 57.0, 84.0, 82.0, 61.0]
}

df = pd.DataFrame(data)

print(df)

  Genero  Edad  Altura_cm  Peso_kg
0      M     8      126.0     24.0
1      F    18      159.0     61.0
2      M    16      171.0     69.0
3      M    27      157.0     88.0
4      M    13      181.0     63.0
5      F    34      159.0     59.0
6      M    37      170.0     57.0
7      M    23      171.0     84.0
8      M    27      193.0     82.0
9      F    35      163.0     61.0


In [2]:
# El tipo de dato de un array de numpy es DataFrame
print("El tipo de df es:", type(df))

# así podemos saber el número de filas
print("El número de filas de df es:", len(df))

El tipo de df es: <class 'pandas.core.frame.DataFrame'>
El número de filas de df es: 10


In [3]:
# El atributo attrs funciona como un diccionario y puede guardar información util

df.attrs["Materia"] = "Laboratorio de Datos"
df.attrs["Bloque"] = 1
df.attrs["Clase"] = 2
df.attrs["Fuente"] = "Arial 11"

print(df.attrs)

{'Materia': 'Laboratorio de Datos', 'Bloque': 1, 'Clase': 2, 'Fuente': 'Arial 11'}


**Para pensar y probar grupo**

1. Hay atributos importantes como `shape`, `ndim` y `dtype`. Después de trabajar con NumPy ya sabes que hacen. Probalo.
2. Además hay otros importante `columns` y `values` ¿Qué hacen?
3. Hay también algunos métodos: `head`, `tail`, `describe`, `info` y `to_numpy`. (Se usan como `df.head()`). ¿Para que sirven?

In [4]:
print(df.shape) #FilasYColumnas
print(df.ndim) #Arreglo Bidimensional
print(df.dtypes) #Tipo de datos de cada columna, si hay varios tipos devuelve "object"
print(df.columns) #printea las "claves" de cada columna
print(df.values) #printea los valores correspondientes a las claves

(10, 4)
2
Genero        object
Edad           int64
Altura_cm    float64
Peso_kg      float64
dtype: object
Index(['Genero', 'Edad', 'Altura_cm', 'Peso_kg'], dtype='object')
[['M' 8 126.0 24.0]
 ['F' 18 159.0 61.0]
 ['M' 16 171.0 69.0]
 ['M' 27 157.0 88.0]
 ['M' 13 181.0 63.0]
 ['F' 34 159.0 59.0]
 ['M' 37 170.0 57.0]
 ['M' 23 171.0 84.0]
 ['M' 27 193.0 82.0]
 ['F' 35 163.0 61.0]]


In [5]:
print(df.head(1)) #me da la primer fila (o las primeras filas, dependiendo el parametro)
print(df.tail(1)) #me devuelve las últimás filas (dependiendo el parámetro)
print(df.describe()) #análisis estádistico de los datos
print(df.info()) #info de memoría
print(df.to_numpy()) #transforma el dataframe en un array de numpy


  Genero  Edad  Altura_cm  Peso_kg
0      M     8      126.0     24.0
  Genero  Edad  Altura_cm  Peso_kg
9      F    35      163.0     61.0
            Edad   Altura_cm    Peso_kg
count  10.000000   10.000000  10.000000
mean   23.800000  165.000000  64.800000
std     9.919677   17.632042  18.292682
min     8.000000  126.000000  24.000000
25%    16.500000  159.000000  59.500000
50%    25.000000  166.500000  62.000000
75%    32.250000  171.000000  78.750000
max    37.000000  193.000000  88.000000
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Genero     10 non-null     object 
 1   Edad       10 non-null     int64  
 2   Altura_cm  10 non-null     float64
 3   Peso_kg    10 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 452.0+ bytes
None
[['M' 8 126.0 24.0]
 ['F' 18 159.0 61.0]
 ['M' 16 171.0 69.0]
 ['M' 27 157.0 88.0]
 ['M

El mismo DataFrame lo podemos crear de otras formas

**Desde una lista de de diccionarios:**
```python
data = [
    {"Genero": "M", "Edad": 30, "Altura_cm": 177.0, "Peso_kg": 88.0},
    {"Genero": "F", "Edad": 18, "Altura_cm": 159.0, "Peso_kg": 61.0},
    {"Genero": "M", "Edad": 16, "Altura_cm": 171.0, "Peso_kg": 69.0},    
    # y asi con todos
]
df = pd.DataFrame(data)
```

**Desde un array bidimensional de numpy y una lista de columnas:**
```python
data = np.array([
    ['M', 30, 177.0, 88.0],
    ['F', 18, 159.0, 61.0],
    ['M', 16, 171.0, 69.0],
    # y asi con todos
])
pd.DataFrame(data, columns=['Genero', 'Edad', 'Altura_cm', 'Peso_kg'])
```

**Probá estos ejemplos**

In [6]:
data = [
    {"Genero": "M", "Edad": 30, "Altura_cm": 177.0, "Peso_kg": 88.0},
    {"Genero": "F", "Edad": 18, "Altura_cm": 159.0, "Peso_kg": 61.0},
    {"Genero": "M", "Edad": 16, "Altura_cm": 171.0, "Peso_kg": 69.0},
    # y asi con todos
]
df = pd.DataFrame(data)
print(df)

  Genero  Edad  Altura_cm  Peso_kg
0      M    30      177.0     88.0
1      F    18      159.0     61.0
2      M    16      171.0     69.0


In [7]:
data = np.array([
    ['M', 30, 177.0,88.0],
    ['F', 18, 159.0, 61.0],
    ['M', 16, 171.0, 69.0],
    # y asi con todos
])
df=pd.DataFrame(data, columns=['Genero', 'Edad', 'Altura_cm', 'Peso_kg'])
print(df)

  Genero Edad Altura_cm Peso_kg
0      M   30     177.0    88.0
1      F   18     159.0    61.0
2      M   16     171.0    69.0


**Para buscar**: ¿Qué dypes son posibles para una columna de Pandas?

## Accediendo a los elementos de un DataFrame

**Seleccionando columnas**
1. Usando el nombre como si fuera el item de un diccionario: `df["Altura_cm"]`
2. Usando el nombre como si fuera un attributo de un objeto: `df.Altura_cm` (Esto es cómodo, pero **no** es recomendable)
3. Usando una lista: `df[["Altura_cm", "Peso_kg"]]`

**Seleccionando filas**
1. Usando el attributo iloc con un número: `df.iloc[4]`
2. Usando el attributo iloc con un slice: `df.iloc[:4]`
3. Usando un filtro booleano: `df[df["Altura_cm"] < 160]`
4. Usando el método query: `df.query("Altura_cm < 160")`

Probar cada una de estas opciones:
- ¿Cuál es el tipo de salida en cada caso?
- ¿Como puede obtenerse un dataframe con aquellas personas con altura menor que 160 y género M?
- ¿Sirven estas opciones para asignar valores?
- ¿Qué hace y cómo se usa el método `iterrows()`?

Una columna tiene varios metodos útiles, como `mean`, `sum`, etc. Usando `dir(df["Altura_cm"])` fijate cuales conoces.

Hay otras formas como `loc`, pero las discutiremos mas adelante.


In [8]:
#FILAS
data = {
    'Genero': ['M', 'F', 'M', 'M', 'M', 'F', 'M', 'M', 'M', 'F'],
    'Edad': [8, 18, 16, 27, 13, 34, 37, 23, 27, 35],
    'Altura_cm': [126.0, 159.0, 171.0, 157.0, 181.0, 159.0, 170.0, 171.0, 193.0, 163.0],
    'Peso_kg': [24.0, 61.0, 69.0, 88.0, 63.0, 59.0, 57.0, 84.0, 82.0, 61.0]
}

df = pd.DataFrame(data)
print(df.iloc[4]) #la 4
print(df.iloc[:4]) #hasta la 4 sin incluir
print(df[(df['Altura_cm']<160) & (df['Genero']=="M")] ) #me da todas las filas con altura menor a 160 Y género M
print(df.query("Altura_cm<160")) #me da todas las filas con altura menor a 160


Genero           M
Edad            13
Altura_cm    181.0
Peso_kg       63.0
Name: 4, dtype: object
  Genero  Edad  Altura_cm  Peso_kg
0      M     8      126.0     24.0
1      F    18      159.0     61.0
2      M    16      171.0     69.0
3      M    27      157.0     88.0
  Genero  Edad  Altura_cm  Peso_kg
0      M     8      126.0     24.0
3      M    27      157.0     88.0
  Genero  Edad  Altura_cm  Peso_kg
0      M     8      126.0     24.0
1      F    18      159.0     61.0
3      M    27      157.0     88.0
5      F    34      159.0     59.0


In [9]:
#COLUMNAS
print(df[["Altura_cm", "Peso_kg"]]) #me devuelve las columnas correspondientes a peso y altura

   Altura_cm  Peso_kg
0      126.0     24.0
1      159.0     61.0
2      171.0     69.0
3      157.0     88.0
4      181.0     63.0
5      159.0     59.0
6      170.0     57.0
7      171.0     84.0
8      193.0     82.0
9      163.0     61.0


In [10]:
#ASIGNAR VALORES
df['Altura_cm']=df['Altura_cm']+10 #puedo modificar la columna entera
print(df)

#con loc, podemos acceder a un valor especíifivco y modificarlo


  Genero  Edad  Altura_cm  Peso_kg
0      M     8      136.0     24.0
1      F    18      169.0     61.0
2      M    16      181.0     69.0
3      M    27      167.0     88.0
4      M    13      191.0     63.0
5      F    34      169.0     59.0
6      M    37      180.0     57.0
7      M    23      181.0     84.0
8      M    27      203.0     82.0
9      F    35      173.0     61.0


In [11]:
#ITERROWS
data = {
    'Genero': ['M', 'F', 'M', 'M', 'M', 'F', 'M', 'M', 'M', 'F'],
    'Edad': [8, 18, 16, 27, 13, 34, 37, 23, 27, 35],
    'Altura_cm': [126.0, 159.0, 171.0, 157.0, 181.0, 159.0, 170.0, 171.0, 193.0, 163.0],
    'Peso_kg': [24.0, 61.0, 69.0, 88.0, 63.0, 59.0, 57.0, 84.0, 82.0, 61.0]
}

df = pd.DataFrame(data)
for index, row in df.iterrows(): #itera sobre el dataframe como (index, series)
  print(index)

0
1
2
3
4
5
6
7
8
9


In [12]:
print(next(df.iterrows())[1]) #1 es el indice de row, me devuelve solo eso.

Genero           M
Edad             8
Altura_cm    126.0
Peso_kg       24.0
Name: 0, dtype: object


In [13]:
print(list(df.iterrows())[4])



(4, Genero           M
Edad            13
Altura_cm    181.0
Peso_kg       63.0
Name: 4, dtype: object)


## Modificando datos

- Agregá una columna en Pandas y crea una con el [índice de masa corporal](https://es.wikipedia.org/wiki/%C3%8Dndice_de_masa_corporal).
- Busca como mapear (wink, wink) los valores de la columa Genero a otros valores (M->Masculino, F->Femenino)
- Busca como transformar (wink, wink) datos. Sumale 1 a los valores de Altura y Peso.
- Agrega una columna que diga si es "infante" (<13), "joven" (>=13 y <18) o "adulto" (>= 18)

In [14]:
df["IMC"]=df["Peso_kg"]/(df["Altura_cm"]/100)**2 #creo la columna IMC, divido por 100 para pasar a metros
print(df)
df['Genero'].map({'M': 'Masculino', 'F': 'Femenino'})  #mapeo los valores de la columna género
df['Altura_cm'] = df['Altura_cm'].map(lambda x: x+1) #le sumo 1 a las columnas de peso y altura utilizando nuevamente la función map
df['Peso_kg'] = df['Peso_kg'].map(lambda x:x+1)
df["Grupo_Etario"]=df["Edad"].map(lambda x: "infante" if x<13 else ("joven" if x>=13 and x<18 else "adulto")) #creo una columna nueva llamada "Grupo Etario"
                                                                                                              #y la completo mapeando la edades con el grupo etario correspondiente.
print(df)

  Genero  Edad  Altura_cm  Peso_kg        IMC
0      M     8      126.0     24.0  15.117158
1      F    18      159.0     61.0  24.128792
2      M    16      171.0     69.0  23.597004
3      M    27      157.0     88.0  35.701245
4      M    13      181.0     63.0  19.230182
5      F    34      159.0     59.0  23.337684
6      M    37      170.0     57.0  19.723183
7      M    23      171.0     84.0  28.726788
8      M    27      193.0     82.0  22.014014
9      F    35      163.0     61.0  22.959088
  Genero  Edad  Altura_cm  Peso_kg        IMC Grupo_Etario
0      M     8      127.0     25.0  15.117158      infante
1      F    18      160.0     62.0  24.128792       adulto
2      M    16      172.0     70.0  23.597004        joven
3      M    27      158.0     89.0  35.701245       adulto
4      M    13      182.0     64.0  19.230182        joven
5      F    34      160.0     60.0  23.337684       adulto
6      M    37      171.0     58.0  19.723183       adulto
7      M    23      17

¿Llegaste hasta acá? Subí al campus (`Entrega` > `Archivos para el cierre`) una captura de pantalla de alguno de estos códigos.

### Tablas dinámicas

La función `pivot_table` permite reorganizar los datos de manera que sea más fácil de analizar. Es particularmente útil para resumir datos y calcular estadísticas agregadas como la suma, media, conteo, etc., en función de las categorías que elijas.

- Armá una tabla con los promedios de Altura_cm, Edad, Peso_kg, por Género.
- Agregale las desviaciones estandar de Altura_cm, Edad, Peso_kg, por Género.
- Agregale una columna con la cantidad de filas por Género.

In [15]:
#RESUMIMOS UNA COLUMNA EN UN NUMERO
pivotTable=pd.pivot_table(df, values=['Altura_cm', 'Edad', 'Peso_kg'], aggfunc=['mean', 'std'], columns='Genero') #sigue siendo del tipo DataFrame
print(pivotTable)
pivotTable = pd.pivot_table(df, values=['Altura_cm', 'Edad', 'Peso_kg'], aggfunc=['mean', 'std', 'count'], columns='Genero') #Cuenta la cantidad de masculino y femeninos
print(pivotTable)

                 mean                   std          
Genero              F           M         F         M
Altura_cm  161.333333  168.000000  2.309401  21.18962
Edad        29.000000   21.571429  9.539392   9.89709
Peso_kg     61.333333   67.714286  1.154701  22.07347
                 mean                   std           count   
Genero              F           M         F         M     F  M
Altura_cm  161.333333  168.000000  2.309401  21.18962     3  7
Edad        29.000000   21.571429  9.539392   9.89709     3  7
Peso_kg     61.333333   67.714286  1.154701  22.07347     3  7


## Agrupando datos

El método `agg` (aggregate) permite obtener resultados por columna.
1. Obtené la media para las columnas "Altura_cm".
2. Obtené la media y mediana para las columnas "Altura_cm" y "Peso_kg".

El método `groupby` permite agrupar por valores iguales de una o mas columnas y devuelve un iterador con el valor y un dataframe.
1. Agrupá por "Genero" e imprimí el dataframe para "M" y para "F".
2. Calcula la mediana y el rango intercuartil para cada género.

In [16]:
#AGG

In [17]:
mediaDeAlturas=df['Altura_cm'].agg("median")
print(mediaDeAlturas)
mediaYMedianaAlturas=df['Altura_cm'].agg(["mean", "median"])
mediaYMedianaPeso=df['Peso_kg'].agg(["mean", "median"])
print(mediaYMedianaAlturas)
print(mediaYMedianaPeso)

167.5
mean      166.0
median    167.5
Name: Altura_cm, dtype: float64
mean      65.8
median    63.0
Name: Peso_kg, dtype: float64


In [18]:
print(df.agg("sum")) #lo aplica a todas las columnas por default

Genero                                                 MFMMMFMMMF
Edad                                                          238
Altura_cm                                                  1660.0
Peso_kg                                                     658.0
IMC                                                    234.535139
Grupo_Etario    infanteadultojovenadultojovenadultoadultoadult...
dtype: object


In [19]:
#GROUPBY
df.groupby("Genero")
print(df.groupby("Genero").get_group("M"))
print(df.groupby("Genero").get_group("F"))
#CALCULO LE MEDIA Y EL RANGO INTERCUARTIL PARA LA EDAD
print(df.groupby("Genero")["Edad"].median())
print(df.groupby("Genero")["Edad"].quantile(0.75)-df.groupby("Genero")["Edad"].quantile(0.25))

  Genero  Edad  Altura_cm  Peso_kg        IMC Grupo_Etario
0      M     8      127.0     25.0  15.117158      infante
2      M    16      172.0     70.0  23.597004        joven
3      M    27      158.0     89.0  35.701245       adulto
4      M    13      182.0     64.0  19.230182        joven
6      M    37      171.0     58.0  19.723183       adulto
7      M    23      172.0     85.0  28.726788       adulto
8      M    27      194.0     83.0  22.014014       adulto
  Genero  Edad  Altura_cm  Peso_kg        IMC Grupo_Etario
1      F    18      160.0     62.0  24.128792       adulto
5      F    34      160.0     60.0  23.337684       adulto
9      F    35      164.0     62.0  22.959088       adulto
Genero
F    34.0
M    23.0
Name: Edad, dtype: float64
Genero
F     8.5
M    12.5
Name: Edad, dtype: float64


## Importar y Exportar

*Si estás trabajando en Colab, para esta parte vas a tener que aprende a leer y escribir archivos. En la barra lateral vas a encontrar el ícono de una carpeta. Ese es un espacio de almacenamiento temporario. Cuando escribas una archivo, va a aparecer ahi. También vas poder subir alli un archivo arrastrandolo desde tu computadora.

y te dejo como tarea leer otras formas de escribir archivos desde colab:
- de tu google drive. Podés leer como [acá](https://saturncloud.io/blog/how-to-import-files-from-google-drive-to-colab/)
- de un montón de lugares. Podés leer como [acá](https://colab.research.google.com/notebooks/io.ipynb)

Una de las funciones mas útiles de Pandas es su capacidad de importar y exportar en varios formatos. Ejercicios:
1. Graba los archivos a un comma separated values (csv)
2. Graba los archivos a un tab separated values (csv)
3. Graba los archivos a un archivo json
4. Graba los archivos a un archivo de excel (xlsx)
5. Graba los archivos a un archivo parquet

Ahora cargalos y fijate que sean iguales a los que grabaste
Proba baajarlos a tu computadora y luego subirlos.

**Para hacer y pensar en grupo**
- Los tres primeros son archivos de texto. Podes abrirlos con un editor para ver su contenido.
- ¿Que ventajas y desventajas tiene cada tipo de archivo?

**Ojo**: No todos los formatos son capaces de mantener la integridad de los datos. En general no hay problemas con enteros, numeros de punto flotante y *strings*. Pero a veces hay problemas con fechas, booleanos y otro tipo de datos. El atributo `attrs` tampoco se graba en todos los formatos. Para probar si un formato es adecuado lee la documentación y/o grabalos y cargalos para fijarte.

In [20]:
df.to_csv("df.csv")
df.to_csv("df.tsv", sep="\t")
df.to_json("df.json")
df.to_excel("df.xlsx")
df.to_parquet("df.parquet")

In [21]:
dfCargado1=pd.read_csv("df.csv")
print(dfCargado1)
dfCargado2=pd.read_csv("df.tsv", sep="\t")
print(dfCargado2)
dfCargado3=pd.read_json("df.json")
print(dfCargado3)
dfCargado4=pd.read_excel("df.xlsx")
print(dfCargado4)
dfCargado5=pd.read_parquet("df.parquet")
print(dfCargado5)
print(df.equals(dfCargado1))
print(df.equals(dfCargado2))
print(df.equals(dfCargado3))
print(df.equals(dfCargado4))
print(df.equals(dfCargado5)) #porque son distintos? ¿porque apuntan a otros espacios de memoria?


   Unnamed: 0 Genero  Edad  Altura_cm  Peso_kg        IMC Grupo_Etario
0           0      M     8      127.0     25.0  15.117158      infante
1           1      F    18      160.0     62.0  24.128792       adulto
2           2      M    16      172.0     70.0  23.597004        joven
3           3      M    27      158.0     89.0  35.701245       adulto
4           4      M    13      182.0     64.0  19.230182        joven
5           5      F    34      160.0     60.0  23.337684       adulto
6           6      M    37      171.0     58.0  19.723183       adulto
7           7      M    23      172.0     85.0  28.726788       adulto
8           8      M    27      194.0     83.0  22.014014       adulto
9           9      F    35      164.0     62.0  22.959088       adulto
   Unnamed: 0 Genero  Edad  Altura_cm  Peso_kg        IMC Grupo_Etario
0           0      M     8      127.0     25.0  15.117158      infante
1           1      F    18      160.0     62.0  24.128792       adulto
2     

## Datos semiestructurados
No siempre los archivos que obtenemos están en bien guardados o tiene pequeños cambios respecto del formato mas común. Descubri como leer los datos de los siguientes archivos:
- turistas-no-residentes-serie.csv
- openchoice.txt (solo la secuencia de tiempos y voltajes)
- edinburg.txt (solo la secuencia de tiempos y voltajes)
- centros_de_compostaje.xlsx

In [22]:
pd.read_csv("/content/turistas_pernoctes_estadia_media_turistas_no_residentes_por_residencia_aeropuerto_cordoba_trimes.csv")

FileNotFoundError: [Errno 2] No such file or directory: '/content/turistas_pernoctes_estadia_media_turistas_no_residentes_por_residencia_aeropuerto_cordoba_trimes.csv'

## Uniendo datos

Entra a [BA Data](https://data.buenosaires.gob.ar/),
1. Busca el dataset de nacimientos por año y abrilo (podes abrirlo directamente del url).
2. Busca el dataset de defunciones por año y abrilo (podes abrirlo directamente del url).
3. Genera una tabla con el año y la cantidad total de nacimientos.
4. Genera una tabla con el año y la cantidad total de defunciones.
5. Juntá ambos datasets en una unica tabla (busca las funciones `join` y `merge`).

(No todos los datos están agrupados o completos. Inspeccioná que datos hay disponibles en BA Data y armá una estrategia. Contrastala con las de las personas a tu alrededor.)

Entra a [Datos Argentina](https://datos.gob.ar/)
1. Busca el listado de nombres personas físicas en RENAPER. Vas a encontrar archivos CSV para distintos años (Hay un listado con todos los años ... pero vamos a suponer que no existe).
2. Unilos en un único dataframe (buscá la función `concat`)
3. ¿Qué tan común es tu nombre?
4. ¿Que tan común es tu nombre en el año en que naciste?
5. ¿Cuál es el nombre mas frecuente por año?
6. ¿Cuál es el nombre mas frecuente por año y por género?

(Los datos por género pueden no estar disponibles, ¿que se te ocurre?)

*Para leer en casa*: un concepto de Pandas (abandonado en Polars) es el índice y `loc`. ¿De que se trata?

**Finalmente**, en los **TPs** van a tener que entregar un Colab que automáticamente baje los datos. En el [siguiente colab](https://drive.google.com/file/d/124XdnQR0-u9__-hN78Zh1S3WykaeW2pH/view?usp=sharing) te damos algunos ejemplos de como hacerlo. Repetí alguno de los items de arriba utilizando una de estas formas.
