# <img style="float: left; padding: 0px 10px 0px 0px;" src="https://upload.wikimedia.org/wikipedia/commons/f/fc/UPC_logo_transparente.png"  width="100" /> Web Scrapping con Python
**Profesor:** Enver G. Tarazona Vargas <br>
**Curso:** Herramientas de Procesamiento de Grandes Volúmenes de Datos <br>
**Escuela de Posgrado - Universidad Peruana de Ciencias Aplicadas**<br>

---

In [None]:
# Instalar PySpark
!pip install pyspark

In [None]:
from pyspark.sql import SparkSession

# Inicializar el contexto
spark = SparkSession.builder.getOrCreate()

sc = spark.sparkContext
sc

# Consumiendo datos semi estructurados de la web


In [None]:
import requests
import json

## Ejemplo 1: Obtener información de todas las razas de perros

In [None]:
url = "https://dogapi.dog/api/v2/breeds"

response = requests.get(url)

# data es un diccionario
data_dict = json.loads(response.content)

# Imprimir en formato amigable
print(json.dumps(data_dict, indent=2))

In [None]:
print(data_dict["data"][0])

In [None]:
print(data_dict["data"][0]["attributes"]["name"])

## Ejemplo 2: Obtener información de una raza en particular

In [None]:
breed_id = "68f47c5a-5115-47cd-9849-e45d3c378f12"
url = f"https://dogapi.dog/api/v2/breeds/{breed_id}"

response = requests.get(url)

# data es un diccionario
data_dict = json.loads(response.content)

print(json.dumps(data_dict, indent=2))

## Ejemplo 3: Acceder al enlace de una página

In [None]:
url = "https://dogapi.dog/api/v2/breeds"

response = requests.get(url)

# data es un diccionario
data_dict = json.loads(response.content)
next_url = data_dict["links"]["next"]

print(next_url)


In [None]:
response_2 = requests.get(next_url)

# data es un diccionario
data_dict_2 = json.loads(response_2.content)
print(json.dumps(data_dict_2, indent=2))

**Ejercicio 2**:
La gerencia de una cadena de supermercados ha solicitado a un analiista de datos un informe detallado sobre las ventas mensuales de varios productos para entender cuáles merecen una promoción. El objetivo es calcular el total de ventas por producto y aplicar un descuento del 5% a aquellos productos cuyas ventas superen los $100 en el mes, como parte de una estrategia para incentivar mayores ventas.

Para ello, en el último mes, se recopiló la siguiente información sobre las ventas de productos:

- Manzana: 150 unidades a $0.75 cada una.

- Banana: 300 unidades a $0.30 cada una.

- Naranja: 200 unidades a $0.50 cada una.

- Pera: 50 unidades a $1.25 cada una.

- Melón: 80 unidades a $3.50 cada una.

A partir de estos datos, en dónde cada registro de venta está representado como una tupla que contiene el nombre del producto, la cantidad vendida y el precio por unidad, realiza las siguientes actividades:

1. Construye un RDD con los datos de ventas que has preparado.
2. Utiliza la transformación `map` para calcular el total de ventas por producto, multiplicando la cantidad vendida por el precio por unidad.
3. Para los productos cuyo total de ventas exceda los $100, aplica un descuento del 5%.
4. Genera un informe final mostrando el nombre del producto, las ventas totales originales y las ventas totales después del descuento, si aplicó.



# Scrap de HTML

## Ejemplo 1

In [None]:
from bs4 import BeautifulSoup

In [None]:
# abrir el archivo HTML local
with open("web_simple.html",encoding="utf8") as fp:
    # crear un objeto BeautifulSoup con el contenido del archivo
    soup = BeautifulSoup(fp, "html.parser")

In [None]:
# ahora puedes manipular el objeto "soup"
# por ejemplo, puedes imprimir el contenido del archivo HTML
print(soup.prettify())

In [None]:
# encontrar el primer tag <h1> en el archivo HTML e imprimir su texto
h1_tag = soup.find("h1")
print(h1_tag.text)

In [None]:
# encontrar todos los tags <li> en el archivo HTML
li_tags = soup.find_all("li")
for li_tag in li_tags:
     print(li_tag.text)

In [None]:
# encontrar el primer tag <a> en el archivo HTML
a_tag = soup.find("a")
print(a_tag["href"])

In [None]:
# encontrar el tag con id "fecha" en el archivo HTML
fecha_tag = soup.find(id="fecha")
print(fecha_tag.text)

In [None]:
# encontrar el tag con clase "precipitaciones" en el archivo HTML
precipitaciones_tag = soup.find(class_="precipitaciones")
print(precipitaciones_tag.text)

In [None]:
# encontrar el tag <li> con clase "precipitaciones" en el archivo HTML
li_tag = soup.find("li", class_="precipitaciones")
print(li_tag.text)

## Ejemplo 2

In [None]:
url = "https://es.wikipedia.org/wiki/Bernardo_O%27Higgins"
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

print(soup.prettify())