# Big Data y Machine Learning (UBA) -  2025

## Trabajo Práctico 1: Jugando con APIs y WebScraping 

### Reglas de formato y presentación
- El trabajo debe estar debidamente documentado comentado (utilizando #) para que tanto los docentes como sus compañeros puedan comprender el código fácilmente.

- El mismo debe ser completado en este Jupyter Notebook y entregado como tal, es decir en un archivo .ipynb


### Fecha de entrega:
Viernes 4 de Abril a las 13:00 hs

### Modalidad de entrega
- Al finalizar el trabajo práctico deben hacer un último <i>commit</i> en su repositorio de GitHub llamado “Entrega final del tp”. 
- Asegurense de haber creado una carpeta llamada TP1. Este Jupyter Notebook y el correspondiente al TP1 deben estar dentro de esa carpeta.
- También deben enviar el link de su repositorio -para que pueda ser clonado y corregido- a mi correo 25RO35480961@campus.economicas.uba.ar. Usar de asunto de email <i>"Big Data - TP 1 - Grupo #"</i> y nombrar el archivo <i>"TP1_Grupo #"</i> donde # es el número de grupo que le fue asignado.
- La última versión en el repositorio es la que será evaluada. Por lo que es importante que: 
    - No envien el correo hasta no haber terminado y estar seguros de que han hecho el <i>commit y push</i> a la versión final que quieren entregar. 
    - No hagan nuevos <i>push</i> despues de haber entregado su versión final. Esto generaría confusión acerca de que versión es la que quieren que se les corrija.
- En resumen, la carpeta del repositorio debe incluir:
    - El codigo
    - Un documento Word (Parte A) donde esten las figuras y una breve descripción de las mismas.
    - El excel con los links webscrappeados (Parte B)

### Parte A

In [None]:
python3 --version

#### Ejercicio 1 - Jugando con APIs
Usando la API del Banco Mundial [link](https://wbdata.readthedocs.io/en/stable/) , obtener dos series de indicadores para dos paises a elección en una consulta de búsqueda. Pueden buscar serie de indicadores de su interés.

In [22]:
import sys
!"{sys.executable}" -m pip install wbdata

import wbdata
import pandas as pd




In [23]:
indicadores = {
    'NY.GDP.PCAP.CD': 'PBI per capita',
    'SL.UEM.TOTL.ZS': 'Tasa de desempleo'
}

# Obtener los datos desde World Bank
data = wbdata.get_dataframe(indicadores, country=['USA', 'ARG'])

# Formatear y organizar los datos
data = data.reset_index()  # Convierte índices en columnas
data = data.rename(columns={'date': 'Fecha', 'country': 'Pais'})
df = pd.DataFrame(data=data)

RuntimeError: get_dataframe requires pandas

In [None]:
df.head(100)

Unnamed: 0,Pais,Fecha,PBI per capita,Tasa de desempleo
0,Argentina,2023,14187.482725,6.139
1,Argentina,2022,13935.681111,6.805
2,Argentina,2021,10738.017922,8.736
3,Argentina,2020,8535.599380,11.461
4,Argentina,2019,9955.974787,9.843
...,...,...,...,...
95,United States,1992,25418.990776,7.500
96,United States,1991,24342.258905,6.800
97,United States,1990,23888.600009,
98,United States,1989,22857.154433,


#### Ejercicio 2 - Repaso de Pandas
Realicen una estadistica descriptiva de ambas series de indicadores comparando los dos países.

In [3]:
# Obtener los datos desde World Bank
data = wbdata.get_dataframe(indicadores, country=['USA', 'ARG'])

# Formatear y organizar los datos
data = data.reset_index().rename(columns={'date': 'Fecha', 'country': 'Pais'})

# Crear tablas con los datos de cada indicador
df_pbi = data.pivot_table(index='Fecha', columns='Pais', values='PBI per capita')
df_desempleo = data.pivot_table(index='Fecha', columns='Pais', values='Tasa de desempleo')

# 🔹 Solución: Mantener solo los años en común
años_comunes = df_pbi.index.intersection(df_desempleo.index)
df_pbi = df_pbi.loc[años_comunes]
df_desempleo = df_desempleo.loc[años_comunes]

# Redondear valores
df_pbi = df_pbi.round()
df_desempleo = df_desempleo.round()

# Configurar formato de salida para evitar notación científica
pd.options.display.float_format = '{:.0f}'.format

# 🔹 Calcular estadísticas descriptivas
print("📊 Estadísticas descriptivas del PBI per cápita:")
print(df_pbi.describe())

print("\n📊 Estadísticas descriptivas de la tasa de desempleo:")
print(df_desempleo.describe())

NameError: name 'indicadores' is not defined

#### Ejercicio 3 - Practicando con Matplotlib
Armen dos gráficos distintos usando la librería Matplotlib (repasen Clase 4). Uno programandolo con el estilo *pyplot* y otro gráfico de estilo *orientada a objetos*

In [None]:
# Resolver acá estilo pyplot

In [None]:
# Resolver acá estilo orientado-objetos 
# Tip: aprovechar este estilo de programar una figura para hacerlo más lindo 


### Parte B

#### Ejercicio 4
De la página de noticias del [diario La Nación](https://www.lanacion.com.ar/) o cualquier diario que les interese, utilicen herramientas de web scraping para obtener los **links** de las noticias de la portada. Guarden los links obtenidos en un dataframe y expórtenlo a un archivo de excel.

Nota 1: es posible que logren obtener los links a las noticias sin el dominio: "https://www.lanacion.com.ar/". De ser así, concatenen el dominio a la ruta del link obtenido, tal que se obtenga un link al que se pueda acceder. Es decir, que las cadenas de caracteres finales tendrán la forma: https://www.lanacion.com.ar/*texto_obtenido*)

Nota 2: junto con su entrega, adjunten una captura de la página de noticias al momento de correr su código. Eso servirá al momento de la corrección para verificar que los links obtenidos hacen referencia a las noticias de ese día y hora.

In [None]:
# Resolver acá
