# Beautiful Soup Tutorial
Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!
## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página en la cual se encuentran alquileres de pisos en Barcelona
### Conoce a tus nuevos mejores amigos: 
- Beautiful Soup (pip install beautifulsoup4 o uv add beautifulsoup4)
- Requests

In [None]:
#%pip install beautifulsoup4

Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib

Vamos a utilizar el lxml ya que es el mas rápido (pip install lxml o uv add lxml)

In [None]:
#%pip install lxml

Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web. (pip install requests o uv add requests)

In [None]:
#%pip install requests

## Mi primer scraping
Como siempre lo primero es importar las librerías 




In [3]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [4]:
url = "https://www.pisos.com/venta/pisos-madrid_capital_zona_urbana/"
response = requests.get(url)

In [5]:
response

<Response [200]>

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [6]:
html = response.content

Lo podemos imprimir para ver su estructura

In [7]:
print(html)

b'\n<!DOCTYPE html>\n<html lang=es>\n<head>\n    <title>Pisos en Madrid Capital - pisos.com</title>\n    \n<meta charset="utf-8">\n\t<meta name="viewport" content="width=device-width, initial-scale=1.0">\n<meta name="format-detection" content="telephone=no">\n<meta name="msvalidate.01" content="907BFBB940FF15950271AB090B57DCCB">\n<meta name="theme-color" content="#FFFFFF" />\n\n\n\t<meta name="apple-itunes-app" content="app-id=572483925">\n\t<meta name="google-play-app" content="app-id=com.vocento.pisos">\n\n\t<meta name="description" content="4.195 casas y pisos en venta en Madrid Capital, Madrid. Oferta de profesionales y particulares desde 139.000 \xe2\x82\xac. Disponemos de casas, chalets, d\xc3\xbaplex, \xc3\xa1ticos y pisos en venta en Madrid Capital, Madrid. \xc2\xa1Un piso incre\xc3\xadble est\xc3\xa1 esper\xc3\xa1ndote!">\n\t<meta property="og:description" content="4.195 casas y pisos en venta en Madrid Capital, Madrid. Oferta de profesionales y particulares desde 139.000 \xe2

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [None]:
soup = bs(html, "html.parser")

#tuve un problema con uv y lxml

bs?

> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer de la URL de los alquileres de Barcelona)

El segundo parámetro ('html.parser'), es el parser que se usa en html 

In [11]:
soup


<!DOCTYPE html>

<html lang="es">
<head>
<title>Pisos en Madrid Capital - pisos.com</title>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="telephone=no" name="format-detection"/>
<meta content="907BFBB940FF15950271AB090B57DCCB" name="msvalidate.01"/>
<meta content="#FFFFFF" name="theme-color">
<meta content="app-id=572483925" name="apple-itunes-app"/>
<meta content="app-id=com.vocento.pisos" name="google-play-app"/>
<meta content="4.195 casas y pisos en venta en Madrid Capital, Madrid. Oferta de profesionales y particulares desde 139.000 €. Disponemos de casas, chalets, dúplex, áticos y pisos en venta en Madrid Capital, Madrid. ¡Un piso increíble está esperándote!" name="description"/>
<meta content="4.195 casas y pisos en venta en Madrid Capital, Madrid. Oferta de profesionales y particulares desde 139.000 €. Disponemos de casas, chalets, dúplex, áticos y pisos en venta en Madrid Capital, Madrid. ¡Un piso increíble está 

## Cómo navegar por un objeto de Beautiful Soup
HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [15]:
soup.title

<title>Pisos en Madrid Capital - pisos.com</title>

In [14]:
soup.h1

<h1>Casas y pisos en <span>Madrid Capital</span></h1>

Para coger únicamente el texto de la etiqueta

In [16]:
soup.h1.get_text()

'Casas y pisos en Madrid Capital'

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [17]:
#Si en inspeccionar, hacemos Ctrl+F y buscamos <a>, encontramos la primera etiqueta a
soup.a

<a aria-label="Volver" class="header__back u-hide--s1024 js-headerBackBtn" href="/comunidad-madrid/" title="Volver"></a>

In [18]:
soup.a['href']
soup.a.get('href')

'/comunidad-madrid/'

También podemos..
> soup.a.get("href")


La sintaxis de soup.```cualquier_etiqueta``` devuelve solo el primer elemento con ese nombre de etiqueta. En lugar de soup.```cualquier_etiqueta```, también puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [19]:
print("Sin utilizar método .find()")
print(soup.h1)
print("")
print("Utilizando método .find()")
print(soup.find('h1'))


Sin utilizar método .find()
<h1>Casas y pisos en <span>Madrid Capital</span></h1>

Utilizando método .find()
<h1>Casas y pisos en <span>Madrid Capital</span></h1>


A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [20]:
soup.find_all('a')

[<a aria-label="Volver" class="header__back u-hide--s1024 js-headerBackBtn" href="/comunidad-madrid/" title="Volver"></a>,
 <a class="header__logo" href="/comunidad-madrid/">
 <img alt="Pisos.com" height="24" src="https://statics.imghs.net/dist/img/logo-pisos.svg" width="50"/>
 </a>,
 <a class="ascending-geo__result" href="/venta/pisos-madrid/" property="item" typeof="WebPage">
 <span property="name">Madrid</span>
 </a>,
 <a class="ascending-geo__result" href="/venta/pisos-madrid_capital_zona_urbana/" property="item" typeof="WebPage">
 <span property="name">Madrid Capital</span>
 </a>,
 <a class="descending-geo__result" href="/venta/pisos-arganzuela/">Arganzuela</a>,
 <a class="descending-geo__result" href="/venta/pisos-madrid_capital_barajas/">Barajas</a>,
 <a class="descending-geo__result" href="/venta/pisos-madrid_capital_carabanchel/">Carabanchel</a>,
 <a class="descending-geo__result" href="/venta/pisos-madrid_capital_centro/">Centro</a>,
 <a class="descending-geo__result" href="/

Si nos fijamos podemos ver que lo que nos devuelve es una lista..

Qué podemos hacer con una lista?..

In [21]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)
    print(type(a))

<a aria-label="Volver" class="header__back u-hide--s1024 js-headerBackBtn" href="/comunidad-madrid/" title="Volver"></a>
<class 'bs4.element.Tag'>
<a class="header__logo" href="/comunidad-madrid/">
<img alt="Pisos.com" height="24" src="https://statics.imghs.net/dist/img/logo-pisos.svg" width="50"/>
</a>
<class 'bs4.element.Tag'>
<a class="ascending-geo__result" href="/venta/pisos-madrid/" property="item" typeof="WebPage">
<span property="name">Madrid</span>
</a>
<class 'bs4.element.Tag'>
<a class="ascending-geo__result" href="/venta/pisos-madrid_capital_zona_urbana/" property="item" typeof="WebPage">
<span property="name">Madrid Capital</span>
</a>
<class 'bs4.element.Tag'>
<a class="descending-geo__result" href="/venta/pisos-arganzuela/">Arganzuela</a>
<class 'bs4.element.Tag'>


Ok.. Pero como extraigo la data con BeautifilSoup?..

La página contiene 42 pisos con información relacionada con ellos. De los datos disponibles extraeremos los siguientes:

- Títulos
- Url
- habitaciones
- prices

Mientras trabajamos con BeautifulSoup, el flujo general de extracción de datos será un enfoque de dos pasos:

* Inspeccionar en el navegador los elementos HTML que queremos extraer 
* Luego encontrar los elementos HTML con BeautifulSoup.

### Antes de todo, un inciso que no sale en el taller

## Suficiente información...

Manos a la obra

## Obtener los títulos de los pisos (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un piso y elegimos inspeccionar)

In [23]:
all_titles = soup.find_all('a', class_='ad-preview__title')
for title in all_titles[:5]:
    print(title)
    print('Es un objeto',str(type(title)), ', por tanto, tiene métodos de beautiful soup (find, find_all, get_text)')
    print()
    print('Todo el texto del title')
    print(title.get_text())
    print('--------------------------------------------------')
    
    

<a class="ad-preview__title" href="/comprar/piso-chamartin_el_viso28002-53386162728_100200/">Piso en El Viso</a>
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)

Todo el texto del title
Piso en El Viso
--------------------------------------------------
<a class="ad-preview__title" href="/comprar/duplex-san_blas_canillejas28022-53352760849_100500/">Dúplex en calle de Víctor González</a>
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)

Todo el texto del title
Dúplex en calle de Víctor González
--------------------------------------------------
<a class="ad-preview__title" href="/comprar/piso-recoletos28001-49190189683_524671/">Piso en calle de Goya</a>
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)

Todo el texto del title
Piso en calle de Goya
--------------------------------------------------
<a cla

In [26]:
### Los añadimos a una lista
lista_titulos = []

all_titles = soup.find_all('a', class_='ad-preview__title')
for title in all_titles:
    lista_titulos.append(title.get_text(strip = True))

print(len(lista_titulos))
lista_titulos

32


['Piso en El Viso',
 'Dúplex en calle de Víctor González',
 'Piso en calle de Goya',
 'Chalet en calle Paradores, 3',
 'Piso en calle de Alenza',
 'Piso en calle de Tetuán',
 'Piso en calle de Rafaela Bonilla',
 'Piso en calle del Espíritu Santo',
 'Piso en calle de Tetuán, 20',
 'Ático en calle Hermosilla',
 'Piso en calle de Escosura',
 'Ático en El Carme',
 'Piso en calle Arroyo Bueno,  1',
 'Piso en calle de Alcántara',
 'Piso en calle del General Pardiñas',
 'Chalet en calle del Pico Milano,  s/n',
 'Piso en Travesía de las Pozas',
 'Piso en Rios Rosas',
 'Piso en calle de la Esfinge',
 'Piso en calle Arroyo Bueno,  1',
 'Piso en calle de Martínez Izquierdo',
 'Dúplex en calle de Hortaleza',
 'Piso en calle de Ana Teresa, 1',
 'Piso en calle del Salitre',
 'Piso en Cuesta de San Vicente',
 'Piso en calle del Príncipe de Vergara',
 'Piso en Arapiles',
 'Piso en San Isidro',
 'Ático en calle de Fernando VI',
 'Piso en calle de Bocángel',
 'Piso en calle Colombia',
 'Chalet pareado e

In [27]:
#Otra forma de hacerlo es con list comprehension

lista_titulos = [title.get_text(strip = True) for title in soup.find_all('a', class_='ad-preview__title')]
print(len(lista_titulos))

32


## Obtener los precios

In [33]:
lista_price=[]

all_price = soup.find_all('span', class_='ad-preview__price')


for price in all_price:
    lista_price.append(price.get_text(strip = True))

print(len(lista_price))


32
