Antes de empezar 

[robots.txt](https://www.pisos.com/robots.txt)  
[html curso](https://www.w3schools.com/html/)

# Beautiful Soup Tutorial

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

## ¿Pero.... qué es el web scraping?
El web scraping consiste en obtener datos de páginas web de manera automatizada. Cuando visitas un sitio web, el servidor devuelve un documento HTML.   

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

El web scraping consiste en obtener datos de páginas web de manera automatizada. Cuando visitas un sitio web, el servidor devuelve un documento HTML. 
  

  

> **Nota ética:** Antes de raspar un sitio web, revisa sus términos de uso y su archivo `robots.txt` para asegurarte de que permites el scraping. No envíes muchas solicitudes en poco tiempo para no sobrecargar el servidor. Usa esta técnica de forma responsable.

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [None]:
# Instala la librería beautifulsoup4 que permite parsear y navegar por documentos HTML/XML
# Esta es la herramienta principal para hacer web scraping
!pip install beautifulsoup4

Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

! + código → Ejecuta un comando del sistema (en una terminal) y lo ejecuta directamente.  
Se ejecuta en la primera versión de Python que el sistema encuentre, así que no tienes control sobre en qué entorno o versión se instala algo si tienes varios Python instalados.  

% + código → Ejecuta un comando mágico de Jupyter (o del kernel de VS Code) dentro del entorno o kernel activo, por lo que usa el mismo Python que está ejecutando tu notebook o script.  

In [None]:
# Instala lxml, un parser HTML/XML muy rápido que BeautifulSoup utilizará
# para procesar el código HTML de manera eficiente
!pip install lxml

Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [None]:
# Instala la librería requests para hacer peticiones HTTP a sitios web
# Permite descargar el contenido HTML de las páginas web que queremos scrapear
!pip install requests

Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [None]:
# Importa las librerías necesarias para el web scraping y manipulación de datos
from bs4 import BeautifulSoup as bs  # Para parsear HTML
import requests  # Para hacer peticiones HTTP
import pandas as pd  # Para manipulación de datos (aunque no se usa en este notebook)
import numpy as np  # Para operaciones numéricas (aunque no se usa en este notebook)

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

[web](https://www.weather-forecast.com/)

In [None]:
# Solicita al usuario que introduzca el nombre de una ciudad
# y construye la URL de weather-forecast.com para esa ciudad
city=str(input("Introduzca la ciudad:"))
url = "https://www.weather-forecast.com/locations/"+city+"/forecasts/latest"

In [None]:
# Muestra la URL construida para verificar que es correcta
url

In [None]:
# Realiza una petición HTTP GET a la URL especificada
# y almacena la respuesta del servidor en la variable response
response=requests.get(url)

In [None]:
# Verifica el código de estado HTTP de la respuesta
# 200 significa que la conexión fue exitosa y se obtuvo el contenido
response.status_code # ¡conexión correcta!

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [None]:
# Extrae el contenido HTML de la respuesta en formato bytes
# Este es el código fuente de la página web que vamos a analizar
html = response.content

In [None]:
# Comprueba el tipo de dato de la variable html
# Muestra que es de tipo 'bytes' (datos binarios)
type(html)

Lo podemos imprimir para ver su estructura

In [None]:
# Imprime el HTML en bruto
# Se verá difícil de leer porque está sin formato y con muchas etiquetas mezcladas
print(html)

Este es el resultado obtenido en HTML de la página de la previsión metereológica, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup(sopa) con la siguiente línea de código:

In [None]:
# Crea un objeto BeautifulSoup que parsea el HTML usando lxml
# lxml es el parser elegido porque es el más rápido
# soup es el objeto que nos permitirá navegar y buscar en el HTML fácilmente
soup = bs(html, "lxml") # lxlm es un parser(corta en trozitos)

[documentacion](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

bs?

> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer).

El segundo parámetro ('lxml'), es el parser que se usa en html 

Ahora vamos a ver el cambio

In [None]:
# Imprime el HTML parseado por BeautifulSoup
# Ahora se ve más organizado y estructurado que el HTML en bruto
print(soup)

## Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [None]:
# Accede a la primera etiqueta <title> del HTML
# Devuelve el elemento completo con sus etiquetas de apertura y cierre
soup.title

In [None]:
# Accede a la primera etiqueta <h1> del HTML
# Devuelve el encabezado principal de la página con todos sus atributos
soup.h1

Eliminamos las etiquetas

In [None]:
# Extrae solo el texto contenido en la etiqueta <h1>, sin las etiquetas HTML
# get_text() elimina todas las etiquetas y devuelve solo el contenido textual
soup.h1.get_text()

Buscamos los datos que nos interesan: en este caso, etiquetas ```td``` y ```p```.

In [None]:
# Crea una lista vacía para almacenar las descripciones del tiempo
w_desc=[]

# Busca todas las etiquetas <td> con la clase especificada que contienen las descripciones del clima
for weather in soup.find_all('td', class_='b-forecast__table-description-cell--js'):
    # Dentro de cada <td>, busca la etiqueta <p> con la clase especificada y extrae su texto
    desc = weather.find('p', class_='b-forecast__table-description-content').text
    # Añade la descripción a la lista
    w_desc.append(desc)

In [None]:
# Muestra la lista con todas las descripciones del tiempo recopiladas
# Contiene predicciones meteorológicas de varios días
w_desc

Buscamos ahora datos dentro de la etiqueta ```tbody``` cuya ```class```es la indicada en el ejercicio.

In [None]:
# Crea una lista vacía para almacenar filas de datos de estaciones meteorológicas
alist=[]
# Busca la primera tabla con clase específica y recorre cada fila <tr>
for i in soup.find_all('tbody', class_="b-metar-table__body")[0]: # Los vientos
    print(i) # Imprime cada fila (elemento <tr>) que contiene etiquetas <td>
    alist.append((i).encode('utf-8'))  # Codifica cada fila en UTF-8 y la añade a la lista

In [None]:
# Muestra el primer elemento de la lista alist
# Contiene el HTML codificado en bytes de la primera fila de la tabla meteorológica
alist[0]

In [None]:
# Guarda la primera fila (primer elemento) de la tabla en una variable
city_weather_info=alist[0] # vamos al primer tr
# Crea un nuevo objeto BeautifulSoup parseando solo esa fila específica
soup1 = bs(city_weather_info,'lxml')

In [None]:
# Muestra el objeto soup1 parseado
# Contiene solo la información de la primera estación meteorológica en formato HTML legible
soup1

Obtenemos los datos contenidos en la fila

In [None]:
# Extrae y muestra información específica de la estación meteorológica:

# Busca la celda con información de la estación meteorológica
station=soup1.find('td', class_="b-metar-table__weather-station")
print("estación", station.text)  # Imprime nombre y ubicación de la estación

# Busca y extrae la temperatura
temp=soup1.find('span', class_="temp")
tem=temp.text
tem=tem + ' C'  # Añade la unidad de grados Celsius

# Busca y extrae la información del viento
wind=soup1.find('div', class_="b-metar-table__wind-text")
print("viento", wind.text)  # Imprime dirección y velocidad del viento

# Busca información sobre nubosidad y visibilidad
cloud_visi=soup1.find('div', class_="b-metar-table__additionally-container")
print("nubosidad", cloud_visi.text)  # Imprime información adicional sobre nubes

Vamos ahora a almacenar los datos.

In [None]:
# Importa el módulo csv para trabajar con archivos CSV
import csv

# Abre (o crea) un archivo CSV en modo append (añadir al final)
with open("Weather_Forecast.csv", "a", newline='') as file: # a es de append para añadir
    # Define los nombres de las columnas del CSV
    field_names = ['Weather Today days', 'Weather days', '10 Day Weather days', 'Weather_Station_Info', 'Temperature', 'Wind', 'Cloud_Visibility']
    # Crea un objeto writer que escribirá diccionarios con las columnas especificadas
    writer = csv.DictWriter(file, fieldnames=field_names)
    # Escribe la fila de encabezados con los nombres de las columnas
    writer.writeheader()

    # Escribe una fila de datos con toda la información meteorológica recopilada
    writer.writerow(
        {
            'Weather Today days': w_desc[0],  # Predicción para hoy
            'Weather days': w_desc[1],  # Predicción para los próximos días
            '10 Day Weather days': w_desc[2],  # Predicción a 10 días
            'Weather_Station_Info': station.text,  # Información de la estación
            'Temperature': tem,  # Temperatura actual
            'Wind': wind.text,  # Información del viento
            'Cloud_Visibility': cloud_visi.text  # Nubosidad y visibilidad
        }
    )