# Curso de Big Data. Otoño 2024

## Trabajo Práctico 1 - Parte 2

### Reglas de formato y presentación
- El trabajo debe estar bien comentado (utilizando #) para que el código sea fácil de entender por sus compañeros y profesores.

- El mismo debe ser completado en este Jupyter Notebook y entregado como tal, es decir en un archivo .ipynb


### Fecha de entrega:
Domingo 24 de marzo a las 23:59hs

### Modalidad de entrega
- Al finalizar el trabajo práctico deben hacer un último <i>commit</i> en su repositorio de GitHub con el mensaje “Entrega final del tp”. 
- Asegurense de haber creado una carpeta llamada TP1. Este Jupyter Notebook y el correspondiente al TP1 - Parte 2 deben estar dentro de esa carpeta.
- También deben enviar el link de su repositorio -para que pueda ser clonado y corregido- al siguiente email: v.oubina@gmail.com
- La última versión en el repositorio es la que será evaluada. Por lo que es importante que: 
    - No envien el correo hasta no haber terminado y estar seguros de que han hecho el <i>commit y push</i> a la versión final que quieren entregar. Debido a que se pueden tomar hasta 3 días de extensión a lo largo del curso, no se corregirán sus tareas hasta no recibir el correo.
    - No hagan nuevos <i>push</i> despues de haber entregado su versión final. Esto generaría confusión acerca de que versión es la que quieren que se les corrija. 

### Parte A

#### Ejercicio 1
Usando la API de Mercado Libre, obtener los ítems de una consulta de búsqueda. Pueden buscar cualquier producto de su interés.

#### Ejercicio 2
Guarden los precios de los ítems obtenidos en un dataframe y calculen el precio promedio, el mínimo y el máximo. 

#### Ejercicio 3
Armen un histograma de los precios. ¿Ven algún <i>outlier<i>? 
Nota: pueden usar la librería de Matplotlib o la de Pandas.

#### Ejercicio 4
Realicen alguna consulta adicional utilizando la API de Mercado Libre (debe ser alguna consulta que no se haya visto en clase. Por ejemplo, obtener los ítems de un vendedor en particular, obtener los productos de una categoría u otros). Analicen los resultados y comenten uno o dos que les parezcan interesantes (por ejemplo, precios promedio de los productos de un vendedor, diferencia entre el precio original y actual, si acepta mercado pago para la compra de productos, etc.) 

### Parte B

#### Ejercicio 5
De la página de noticias del [diario La Nación](https://www.lanacion.com.ar/), utilicen herramientas de web scraping para obtener los links de las noticias de la portada. Guarden los links obtenidos en un dataframe y expórtenlo a un archivo de excel.

Nota 1: es posible que logren obtener los links a las noticias sin el dominio: "https://www.lanacion.com.ar/". De ser así, concatenen el dominio a la ruta del link obtenido, tal que se obtenga un link al que se pueda acceder. Es decir, que las cadenas de caracteres finales tendrán la forma: https://www.lanacion.com.ar/*texto_obtenido*)

Nota 2: junto con su entrega, adjunten una captura de la página de noticias al momento de correr su código. Eso servirá al momento de la corrección para verificar que los links obtenidos hacen referencia a las noticias de ese día y hora.

In [38]:
#En primer lugar, instalaremos las librerías para luego poder importarlas. Para poder hacer web scrapping necesitamos acceder al código 
#HTML; para esta tarea utilizaremos la librería requests de Python. Instalaremos Beautiful Soup, Pandas para poder trabajar con data frames y 
# openpyxl
 
!pip install requests
!pip install bs4
!pip install pandas
!pip install openpyxl

#Luego, las importamos.
import requests
from bs4 import BeautifulSoup
import pandas as pd
import openpyxl



In [46]:
# En primer lugar voy a hacer la solicitud a la página web.
url = 'https://www.lanacion.com.ar'

#Con el método get de la librería requests traigo el contenido de HTML. El método get obtiene el contenido de una página web a 
# de una solicitud HTTP GET y nos permite trabajar con la response obtenida en nuestro código de Python.
response = requests.get(url)

#Una vez que hicimos el request los podemos ver con el método content; nos permite acceder a los datos en su forma original de bytes.
contenido = response.content

# Creo una variable "soup" donde usamos Beautiful Soup que toma como primer parámetro el contenido HTML que queremos analizar y como
#segundo parámetro 'html.parser' que especifica que queremos utilizar el analizador HTML incorporado de Python para analizar el 
# contenido HTML.
soup = BeautifulSoup(response.text, 'html.parser')

In [47]:
# Para encontrar los enlaces de las noticias en la portada creamos una lista nueva llamada news_links.
news_links = []

#Utilizamos la función find_all que devuelve una lista de todos los elementos '<a>' (enlaces) dentro de soup.
elementos_a = soup.find_all('a')

#Con for recorremos link por link y finalmente le pedimos que guarde (utilizando el método append) en la lista news_links a los que
#empiezen con https://www.lanacion.com.ar; es decir, los links pertenecientes a la página web de La Nación y que cumplan con que se
# hayan recopilado todos los enlaces de la página web en forma de URL.
for link in elementos_a:
    href = link.get('href')
    if href and href.startswith('https://www.lanacion.com.ar'):
        news_links.append(href)

In [48]:
# Ahora crearemos un DataFrame con los enlaces de las noticias.
df = pd.DataFrame({'Links': news_links})
(df)

Unnamed: 0,Links
0,https://www.lanacion.com.ar/tema/javier-milei-...
1,https://www.lanacion.com.ar/dolar-hoy/
2,https://www.lanacion.com.ar/tema/seleccion-arg...
3,https://www.lanacion.com.ar/dolar-hoy/
4,https://www.lanacion.com.ar/tema/dolar-blue-ti...
...,...
99,https://www.lanacion.com.ar/revista-jardin/
100,https://www.lanacion.com.ar/revista-lugares/
101,https://www.lanacion.com.ar/mapa-del-sitio/
102,https://www.lanacion.com.ar/arc/outboundfeeds/...


In [49]:
# Luego, exportaremos el DataFrame a un archivo Excel con el método .to_excel especificando en el primer parámetro el nombre del 
# archivo de Excel en el que se exportará el Data Frame y como segundo parámetro ponemos index=False para indicar que no vamos a 
#incluir el índice DataFrame en el archivo de Excel.
df_2 = df.to_excel('noticias_lanacion.xlsx', index=False)
print(df_2)

print("Los enlaces de las noticias se han guardado en 'noticias_lanacion.xlsx'")

None
Los enlaces de las noticias se han guardado en 'noticias_lanacion.xlsx'
