# Big Data y Machine Learning (UBA) -  2025

## Trabajo Práctico 1: Jugando con APIs y WebScraping 

### Reglas de formato y presentación
- El trabajo debe estar debidamente documentado comentado (utilizando #) para que tanto los docentes como sus compañeros puedan comprender el código fácilmente.

- El mismo debe ser completado en este Jupyter Notebook y entregado como tal, es decir en un archivo .ipynb


### Fecha de entrega:
Viernes 4 de Abril a las 13:00 hs

### Modalidad de entrega
- Al finalizar el trabajo práctico deben hacer un último <i>commit</i> en su repositorio de GitHub llamado “Entrega final del tp”. 
- Asegurense de haber creado una carpeta llamada TP1. Este Jupyter Notebook y el correspondiente al TP1 deben estar dentro de esa carpeta.
- También deben enviar el link de su repositorio -para que pueda ser clonado y corregido- a mi correo 25RO35480961@campus.economicas.uba.ar. Usar de asunto de email <i>"Big Data - TP 1 - Grupo #"</i> y nombrar el archivo <i>"TP1_Grupo #"</i> donde # es el número de grupo que le fue asignado.
- La última versión en el repositorio es la que será evaluada. Por lo que es importante que: 
    - No envien el correo hasta no haber terminado y estar seguros de que han hecho el <i>commit y push</i> a la versión final que quieren entregar. 
    - No hagan nuevos <i>push</i> despues de haber entregado su versión final. Esto generaría confusión acerca de que versión es la que quieren que se les corrija.
- En resumen, la carpeta del repositorio debe incluir:
    - El codigo
    - Un documento Word (Parte A) donde esten las figuras y una breve descripción de las mismas.
    - El excel con los links webscrappeados (Parte B)

### Parte A

#### Ejercicio 1 - Jugando con APIs
Usando la API del Banco Mundial [link](https://wbdata.readthedocs.io/en/stable/) , obtener dos series de indicadores para dos paises a elección en una consulta de búsqueda. Pueden buscar serie de indicadores de su interés.

In [48]:
# Importamos los modulos con las herramientas necesarias para el tp
import wbdata
import pandas as pd
import matplotlib.pyplot as plt
#Encontramos los id de los paises que vamos a utilizar
wbdata.get_countries(query="china"), wbdata.get_countries(query="australia")




(id    name
 ----  --------------------
 CHN   China
 HKG   Hong Kong SAR, China
 MAC   Macao SAR, China,
 id    name
 ----  ---------
 AUS   Australia)

In [49]:
#Buscamos los parametros de la base de datos
wbdata.get_sources()





  id  name
----  --------------------------------------------------------------------
   1  Doing Business
   2  World Development Indicators
   3  Worldwide Governance Indicators
   5  Subnational Malnutrition Database
   6  International Debt Statistics
  11  Africa Development Indicators
  12  Education Statistics
  13  Enterprise Surveys
  14  Gender Statistics
  15  Global Economic Monitor
  16  Health Nutrition and Population Statistics
  18  IDA Results Measurement System
  19  Millennium Development Goals
  20  Quarterly Public Sector Debt
  22  Quarterly External Debt Statistics SDDS
  23  Quarterly External Debt Statistics GDDS
  25  Jobs
  27  Global Economic Prospects
  28  Global Financial Inclusion
  29  The Atlas of Social Protection: Indicators of Resilience and Equity
  30  Exporter Dynamics Database – Indicators at Country-Year Level
  31  Country Policy and Institutional Assessment
  32  Global Financial Development
  33  G20 Financial Inclusion Indicators
  34  Glob

In [56]:
#Dentro de los parametros, elegimos trabajar con "Health Nutrition and Population Statistics" y centrarnos en "Rural population (% of total population)" y "Urban population (% of total population)"
wbdata.get_indicators(source=16, query="Rural population"), wbdata.get_indicators(source=16, query="Urban population")

(id                 name
 -----------------  ------------------------------------------------------------------------------------------------
 SH.H2O.BASW.RU.ZS  People using at least basic drinking water services, rural (% of rural population)
 SH.H2O.SMDW.RU.ZS  People using safely managed drinking water services, rural (% of rural population)
 SH.STA.BASS.RU.ZS  People using at least basic sanitation services, rural (% of rural population)
 SH.STA.HYGN.RU.ZS  People with basic handwashing facilities including soap and water, rural (% of rural population)
 SH.STA.ODFC.RU.ZS  People practicing open defecation, rural (% of rural population)
 SH.STA.SMSS.RU.ZS  People using safely managed sanitation services, rural (% of rural population)
 SI.POV.RUHC        Rural poverty headcount ratio at national poverty lines (% of rural population)
 SP.RUR.TOTL        Rural population
 SP.RUR.TOTL.ZG     Rural population growth (annual %)
 SP.RUR.TOTL.ZS     Rural population (% of total population)

In [76]:
wbdata.get_data("SP.URB.TOTL.IN.ZS", country=["AUS", "CHN"]), wbdata.get_data("SP.RUR.TOTL.ZS", country=["AUS", "CHN"])

([{'indicator': {'id': 'SP.URB.TOTL.IN.ZS',
    'value': 'Urban population (% of total population)'},
   'country': {'id': 'AU', 'value': 'Australia'},
   'countryiso3code': 'AUS',
   'date': '2023',
   'value': 86.617,
   'unit': '',
   'obs_status': '',
   'decimal': 0},
  {'indicator': {'id': 'SP.URB.TOTL.IN.ZS',
    'value': 'Urban population (% of total population)'},
   'country': {'id': 'AU', 'value': 'Australia'},
   'countryiso3code': 'AUS',
   'date': '2022',
   'value': 86.488,
   'unit': '',
   'obs_status': '',
   'decimal': 0},
  {'indicator': {'id': 'SP.URB.TOTL.IN.ZS',
    'value': 'Urban population (% of total population)'},
   'country': {'id': 'AU', 'value': 'Australia'},
   'countryiso3code': 'AUS',
   'date': '2021',
   'value': 86.362,
   'unit': '',
   'obs_status': '',
   'decimal': 0},
  {'indicator': {'id': 'SP.URB.TOTL.IN.ZS',
    'value': 'Urban population (% of total population)'},
   'country': {'id': 'AU', 'value': 'Australia'},
   'countryiso3code': 'AUS

In [118]:
# Definir los paises e indicador
paises = ["AUS", "CHN"]
indicadorU = {
    "SP.URB.TOTL.IN.ZS": "Urban Population (%)"}
indicadorR = {
    "SP.RUR.TOTL.ZS": "Rural Population (%)"}

# Obtener los datos en formato DataFrame
dfU = wbdata.get_dataframe(indicadorU, country=paises, date=("2005","2020"))

# Reorganizar la tabla para que cada pais tenga sus propias columnas
dfU = dfU.unstack(level=1)  # Pone los paises en columnas
dfU=dfU.round(1)
# Mostrar las tablas
display(dfU)

# Obtener los datos en formato DataFrame
dfR = wbdata.get_dataframe(indicadorR, country=paises, date=("2005","2020"))

# Reorganizar la tabla para que cada pais tenga sus propias columnas
dfR = dfR.unstack(level=1)  # Pone los paises en columnas
dfR=dfR.round(1)
# Mostrar la tabla
display(dfR)

Unnamed: 0_level_0,Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%),Urban Population (%)
date,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Australia,84.6,84.7,84.8,84.9,85.1,85.2,85.3,85.4,85.5,85.6,85.7,85.8,85.9,86.0,86.1,86.2
China,42.5,43.9,45.2,46.5,47.9,49.2,50.5,51.8,53.0,54.3,55.5,56.7,58.0,59.2,60.3,61.4


Unnamed: 0_level_0,Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%),Rural Population (%)
date,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Australia,15.4,15.3,15.2,15.1,14.9,14.8,14.7,14.6,14.5,14.4,14.3,14.2,14.1,14.0,13.9,13.8
China,57.5,56.1,54.8,53.5,52.1,50.8,49.5,48.2,47.0,45.7,44.5,43.3,42.0,40.8,39.7,38.6


#### Ejercicio 2 - Repaso de Pandas
Realicen una estadistica descriptiva de ambas series de indicadores comparando los dos países.

In [178]:
#Calculamos el desvio
dvU = dfU.std(axis=1).round(2)
dvR=dfR.std(axis=1).round(2)
#Calculamos la media
mdU=dfU.mean(axis=1).round(2)
mdR=dfR.mean(axis=1).round(2)
#Calculamos el coeficiente de variacion
cvU=((dvU/mdU)*100).round(2)
cvR=((dvR/mdR)*100).round(2)
data={
    "Coeficiente de Variacion(%) Poblacion Urbana":cvU.values,
    "Coeficiente de Variacion(%) Poblacion Rural":cvR.values
}
dfcv= pd.DataFrame(data, index=cvU.index)   
    
    
#Mostramos los resultados
display(dfcv)



Unnamed: 0_level_0,Coeficiente de Variacion(%) Poblacion Urbana,Coeficiente de Variacion(%) Poblacion Rural
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Australia,0.6,3.5
China,11.52,12.6


#### Ejercicio 3 - Practicando con Matplotlib
Armen dos gráficos distintos usando la librería Matplotlib (repasen Clase 4). Uno programandolo con el estilo *pyplot* y otro gráfico de estilo *orientada a objetos*

In [None]:
# Resolver acá estilo pyplot


In [None]:
# Resolver acá estilo orientado-objetos 
# Tip: aprovechar este estilo de programar una figura para hacerlo más lindo 


### Parte B

#### Ejercicio 4
De la página de noticias del [diario La Nación](https://www.lanacion.com.ar/) o cualquier diario que les interese, utilicen herramientas de web scraping para obtener los **links** de las noticias de la portada. Guarden los links obtenidos en un dataframe y expórtenlo a un archivo de excel.

Nota 1: es posible que logren obtener los links a las noticias sin el dominio: "https://www.lanacion.com.ar/". De ser así, concatenen el dominio a la ruta del link obtenido, tal que se obtenga un link al que se pueda acceder. Es decir, que las cadenas de caracteres finales tendrán la forma: https://www.lanacion.com.ar/*texto_obtenido*)

Nota 2: junto con su entrega, adjunten una captura de la página de noticias al momento de correr su código. Eso servirá al momento de la corrección para verificar que los links obtenidos hacen referencia a las noticias de ese día y hora.

In [None]:
# Resolver acá
