# Machine Learning para Economistas

## Trabajo Práctico 2

### Reglas de formato y presentación
- El trabajo debe estar bien comentado (utilizando #) para que el código sea fácil de entender por sus compañeros y profesores.

- El mismo debe ser completado en este Jupyter Notebook y entregado como tal, es decir en un archivo .ipynb


### Fecha de entrega:
Miércoles 16 de octubre a las 23:59hs

### Modalidad de entrega
- Al finalizar el trabajo práctico deben hacer un último <i>commit</i> en su repositorio de GitHub con el mensaje “Entrega final del tp”. 
- Asegurense de haber creado una carpeta llamada TP2
- La última versión en el repositorio es la que será evaluada. Por lo que es importante que: 
    - No hagan nuevos <i>push</i> despues de haber entregado su versión final. Esto generaría confusión acerca de que versión es la que quieren que se les corrija. 

### Parte A

#### Ejercicio 1
Usando la API de Mercado Libre, obtener los ítems de una consulta de búsqueda. Pueden buscar cualquier producto de su interés.

In [None]:
#Primero que nada, instalamos las librerías para realizar los ejercicios. 
!pip install requests 
!pip install BeautifulSoup 
!pip install pandas

import requests #html requestor
from bs4 import BeautifulSoup #html parser
import pandas as pd #dataframe manipulator

In [34]:
# Para este ejercicio puntual, utilizaremos una API para consultar por "perfumes de mujer" a Mercado Libre. 
# Por empezar, sabemos que tenemos que seguir este formato:
# https://api.mercadolibre.com/sites/$SITE_ID/search?q=nombre%20item

# Donde:
# $SITE_ID: MLA (Mercado Libre) 
# item: item a buscar. (reemplazamos los espacios con %20)

buscar = "perfume de mujer"
url = "https://api.mercadolibre.com/sites/{}/search?q={}".format("MLA", buscar.replace(" ", "%20"))

In [35]:
# Hacemos el pedido o request y obtenemos la response
response = requests.request("GET", url)
print(response) # correcto

<Response [200]>


In [36]:
#aquí guardamos toda la data en un diccionario para poder manipularla. 
data = response.json()

#### Ejercicio 2
Guarden los precios de los ítems obtenidos en un dataframe y calculen el precio promedio, el mínimo y el máximo. 

In [None]:
# Primero vemos cuantos productos tenemos:
print("Hay data de", len(data["results"]), "productos") 

# Creo lista para almacenar  precios de los productos
precios = []

# Itero el diccionario data donde tengo guardado la info de la busqueda
for item in data['results']:
    precios.append(item['price'])
    
precio_promedio = sum(precios) / len(precios)
precio_minimo = min(precios)
precio_maximo = max(precios)
    
# Imprimir los resultados
print("El Precio promedio es $", precio_promedio)
print("El precio minimo es $", precio_minimo)
print("El precio maximo es $", precio_maximo)

print(len(data["results"]))


#### Ejercicio 3
Armen un histograma de los precios usando Matplotlib. ¿Ven algún <i>outlier<i>? 

In [None]:
# Importamos las librerías para graficar
import matplotlib.pyplot as plt

# Creamos el histograma
plt.hist(precios, bins=10, edgecolor='black')

# Agregamos título y etiquetas
plt.title('Distribución de Precios de perfumes de mujer')
plt.xlabel('Precio')
plt.ylabel('Frecuencia')

plt.show()


#### Ejercicio 4
Realicen alguna consulta adicional utilizando la API de Mercado Libre (debe ser alguna consulta que no se haya visto en clase. Por ejemplo, obtener los ítems de un vendedor en particular, obtener los productos de una categoría u otros). Analicen los resultados y comenten dos que les parezcan interesantes (por ejemplo, precios promedio de los productos de un vendedor, diferencia entre el precio original y actual, si acepta mercado pago para la compra de productos, etc.) 

In [None]:
#Para este ejercicio, vamos a analizar las ventas por el seller ID

# Definir el `seller_id` de un vendedor al azar que agarramos de los resultados obtenidos anteriormente
seller_id = "261745655"  # Reemplaza por el `seller_id` correcto

# Construir la URL 
url = "https://api.mercadolibre.com/sites/{}/search?seller_id={}".format("MLA", seller_id)

# Realizar la solicitud a la API de Mercado Libre
response = requests.get(url)
data = response.json()

# En segundo lugar, creamos listas vacías para almacenar datos de interés
productos = []
precios = []
mercado_pago_aceptado = []

# Iterar sobre los resultados y extraer el nombre, precio, y si acepta Mercado Pago
for item in data['results']:
    productos.append(item['title'])
    precios.append(item['price'])
    mercado_pago_aceptado.append(item['accepts_mercadopago'])

# Crear un DataFrame con la información
df = pd.DataFrame({
    'Producto': productos,
    'Precio': precios,
    'Acepta Mercado Pago': mercado_pago_aceptado,
})

print(df.head())

#Lo interesante de realizar este ejercicio, es que podemos ver el detalle de todos los productos que vende un seller determinado, 
#y analizar todas las variables relevantes. En este caso, este seller vende 5 productos, y en todos los casos acepta mercado pago. 

### Parte B

#### Ejercicio 5
De la página de noticias del [diario La Nación](https://www.lanacion.com.ar/), utilicen herramientas de web scraping para obtener los links de las noticias de la portada. Guarden los links obtenidos en un dataframe y expórtenlo a un archivo de excel.

Nota 1: es posible que logren obtener los links a las noticias sin el dominio: "https://www.lanacion.com.ar/". De ser así, concatenen el dominio a la ruta del link obtenido, tal que se obtenga un link al que se pueda acceder. Es decir, que las cadenas de caracteres finales tendrán la forma: https://www.lanacion.com.ar/*texto_obtenido*)

Nota 2: junto con su entrega, adjunten una captura de la página de noticias al momento de correr su código. Eso servirá al momento de la corrección para verificar que los links obtenidos hacen referencia a las noticias de ese día y hora.

In [None]:
url = "https://www.lanacion.com.ar/"

r = requests.get(url)  # Traemos el contenido del HTML
contenido = r.content
soup = BeautifulSoup(contenido, "html.parser")

In [None]:
# Dentro de la sopa, buscamos todos los elementos <a>
a_elements = soup.find_all('a', class_='link ln-link flex flex-column --unstyled')

# Creamos una lista para guardar los links
links = []

# Extraemos los links (atributo href) y los guardamos
for a_element in a_elements:
    href = a_element.get('href')  # Extraemos el atributo href
    if href:  # Verificamos si href no es None
        # Concatenamos el dominio si es necesario
        if not href.startswith('http'):
            href = "https://www.lanacion.com.ar" + href
        
        links.append({
            'Link': href  # Guardamos el link
        })

# Creamos un dataframe a partir de la lista de links
links_df = pd.DataFrame(links)

In [None]:
links_df

In [None]:
# Exportamos el dataframe a un archivo Excel
links_df.to_excel("links_lanacion.xlsx", index=False)