# Beautiful Soup Tutorial

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página en la cual se encuentran alquileres de pisos en Barcelona

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [1]:
!pip install beautifulsoup4



Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [2]:
!pip install lxml



Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [3]:
!pip install requests



Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [2]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [1]:
city=str(input("Introduzca la ciudad:"))
url = "https://www.weather-forecast.com/locations/"+city+"/forecasts/latest"

In [14]:
url

'https://www.weather-forecast.com/locations/Madrid/forecasts/latest'

In [None]:
response=requests.get(url)

In [None]:
response.status_code # ¡conexión correcta!

200

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [20]:
html = response.content

In [21]:
type(html)

bytes

Lo podemos imprimir para ver su estructura

In [22]:
print(html)



Este es el resultado obtenido en HTML de la página de la previsión metereológica, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [23]:
soup = bs(html, "lxml")

bs?

> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer).

El segundo parámetro ('lxml'), es el parser que se usa en html 

Ahora vamos a ver el cambio

In [26]:
print(soup)

<!DOCTYPE html>
<script async="true" type="text/javascript">
(function() {
  var host = 'weather-forecast.com';
  var element = document.createElement('script');
  var firstScript = document.getElementsByTagName('script')[0];
  var url = 'https://cmp.inmobi.com'
    .concat('/choice/', 'ZUS0dMZYEZF3f', '/', host, '/choice.js?tag_version=V3');
  var uspTries = 0;
  var uspTriesLimit = 3;
  element.async = true;
  element.type = 'text/javascript';
  element.src = url;

  firstScript.parentNode.insertBefore(element, firstScript);

  function makeStub() {
    var TCF_LOCATOR_NAME = '__tcfapiLocator';
    var queue = [];
    var win = window;
    var cmpFrame;

    function addFrame() {
      var doc = win.document;
      var otherCMP = !!(win.frames[TCF_LOCATOR_NAME]);

      if (!otherCMP) {
        if (doc.body) {
          var iframe = doc.createElement('iframe');

          iframe.style.cssText = 'display:none';
          iframe.name = TCF_LOCATOR_NAME;
          doc.body.appendChild(i

## Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [27]:
soup.title

<title>Madrid Weather Forecast</title>

In [28]:
soup.h1

<h1 class="main-title__header"><span class="show-for-medium-up">Madrid Weather Forecast</span><span class="show-for-small-only">Madrid Weather Forecast</span></h1>

Eliminamos las etiquetas

In [29]:
soup.h1.get_text()

'Madrid Weather ForecastMadrid Weather\xa0Forecast'

Buscamos los datos que nos interesan: en este caso, etiquetas ```td``` y ```p```.

In [32]:
w_desc=[]

for weather in soup.find_all('td', class_='b-forecast__table-description-cell--js'):
    desc = weather.find('p', class_='b-forecast__table-description-content').text
    w_desc.append(desc)


In [33]:
w_desc

['Mostly dry. Warm (max 34°C on Mon night, min 21°C on Wed morning). Wind will be generally light.',
 'Mostly dry. Warm (max 37°C on Sat night, min 25°C on Fri morning). Wind will be generally light.',
 'Mostly dry. Warm (max 36°C on Tue night, min 26°C on Tue morning). Wind will be generally light.',
 'Mostly dry. Warm (max 38°C on Wed afternoon, min 26°C on Sat morning). Wind will be generally light.']

Buscamos ahora datos dentro de la etiqueta ```tbody``` cuya ```class```es la indicada en el ejercicio.

In [None]:
alist=[]
for i in soup.find_all('tbody', class_="b-metar-table__body")[0]: # Los vientos
    print(i) # i son los tr, que a su vez contienen etiquetas td
    alist.append((i).encode('utf-8'))

<tr class="b-metar-table__row"><td class="b-metar-table__weather-station"><div><strong class="b-metar-table__weather-station-name">Madrid- Retiro</strong> </div><div class="b-metar-table__weather-station-detail"><span class="dist">3</span> <span class="distu">km</span> <span class="dir">E</span></div><div class="b-metar-table__weather-station-elevation"><span><span class="height">667</span><span class="heightu">m</span> alt.</span></div><div class="b-metar-table__weather-station-time">3 hours ago</div></td><td class="b-metar-table__temperature"><div class="b-metar-table__temperature-value"><span class="temp"></span>-</div></td><td class="b-metar-table__weather"><div class="b-metar-table__weather-container"><div class="b-metar-table__weather-icon"></div><span class="b-metar-table__weather-text">-</span></div></td><td class="b-metar-table__wind"><div class="b-metar-table__wind-container"><div class="b-metar-table__wind-icon"><div class="wind-icon" data-precision="5" data-speed="4.0"><svg

In [38]:
alist[0]

b'<tr class="b-metar-table__row"><td class="b-metar-table__weather-station"><div><strong class="b-metar-table__weather-station-name">Madrid- Retiro</strong> </div><div class="b-metar-table__weather-station-detail"><span class="dist">3</span> <span class="distu">km</span> <span class="dir">E</span></div><div class="b-metar-table__weather-station-elevation"><span><span class="height">667</span><span class="heightu">m</span> alt.</span></div><div class="b-metar-table__weather-station-time">3 hours ago</div></td><td class="b-metar-table__temperature"><div class="b-metar-table__temperature-value"><span class="temp"></span>-</div></td><td class="b-metar-table__weather"><div class="b-metar-table__weather-container"><div class="b-metar-table__weather-icon"></div><span class="b-metar-table__weather-text">-</span></div></td><td class="b-metar-table__wind"><div class="b-metar-table__wind-container"><div class="b-metar-table__wind-icon"><div class="wind-icon" data-precision="5" data-speed="4.0"><s

In [None]:
city_weather_info=alist[0] # vamos al primer tr
soup1 = bs(city_weather_info,'lxml')

In [41]:
soup1

<html><body><tr class="b-metar-table__row"><td class="b-metar-table__weather-station"><div><strong class="b-metar-table__weather-station-name">Madrid- Retiro</strong> </div><div class="b-metar-table__weather-station-detail"><span class="dist">3</span> <span class="distu">km</span> <span class="dir">E</span></div><div class="b-metar-table__weather-station-elevation"><span><span class="height">667</span><span class="heightu">m</span> alt.</span></div><div class="b-metar-table__weather-station-time">3 hours ago</div></td><td class="b-metar-table__temperature"><div class="b-metar-table__temperature-value"><span class="temp"></span>-</div></td><td class="b-metar-table__weather"><div class="b-metar-table__weather-container"><div class="b-metar-table__weather-icon"></div><span class="b-metar-table__weather-text">-</span></div></td><td class="b-metar-table__wind"><div class="b-metar-table__wind-container"><div class="b-metar-table__wind-icon"><div class="wind-icon" data-precision="5" data-spee

Obtenemos los datos contenidos en la fila

In [46]:
station=soup1.find('td', class_="b-metar-table__weather-station")
print("estación", station.text)

temp=soup1.find('span', class_="temp")
tem=temp.text
tem=tem + ' C'

wind=soup1.find('div', class_="b-metar-table__wind-text")
print("viento", wind.text)

cloud_visi=soup1.find('div', class_="b-metar-table__additionally-container")
print("nubosidad", cloud_visi.text)

estación Madrid- Retiro 3 km E667m alt.3 hours ago
viento Calm (4 km/h at SÂ°).
nubosidad 


Vamos ahora a almacenar los datos.

In [48]:
import csv

with open("Weather_Forecast.csv", "a", newline='') as file: # a es de append para añadir
    # columnas
    field_names = ['Weather Today days', 'Weather days', '10 Day Weather days', 'Weather_Station_Info', 'Temperature', 'Wind', 'Cloud_Visibility']
    writer = csv.DictWriter(file, fieldnames=field_names)
    writer.writeheader()

    # escribimos toda la información en una fila
    writer.writerow(
        {
            'Weather Today days': w_desc[0],
            'Weather days': w_desc[1],
            '10 Day Weather days': w_desc[2],
            'Weather_Station_Info': station.text,
            'Temperature': tem,
            'Wind': wind.text,
            'Cloud_Visibility': cloud_visi.text
        }
    )
