# Beautiful Soup Tutorial

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página en la cual se encuentran alquileres de pisos en Barcelona

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [55]:
!pip install beautifulsoup4



Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [56]:
!pip install lxml



Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [57]:
!pip install requests



Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [1]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [2]:
url = "https://www.yaencontre.com/alquiler/pisos/barcelona"
response = requests.get(url)

Cómo saber si se guardo correctamente el sitio web?

In [3]:
print(response)

<Response [200]>


Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [4]:
html = response.content

In [5]:
type(html)

bytes

Lo podemos imprimir para ver su estructura

In [6]:
print(html)

b'<!doctype html>\n    <html lang="es" class="notranslate page-results variantContainer withBreadcrumb" translate="no">\n      <head>\n        \n        <title data-rh="true">Pisos y viviendas en alquiler en Barcelona \xc2\xb7 5.514 pisos y viviendas disponibles - yaencontre</title>\n        <meta data-rh="true" name="title" content="Pisos y viviendas en alquiler en Barcelona \xc2\xb7 5.514 pisos y viviendas disponibles - yaencontre"/><meta data-rh="true" name="description" content="5.514 Pisos y viviendas en alquiler en Barcelona. Anuncios de pisos y viviendas de particulares y agencias inmobiliarias. \xc2\xa1Encontrar\xc3\xa1s lo que est\xc3\xa1s buscando!"/><meta data-rh="true" name="robots" content="index, follow"/><meta data-rh="true" name="language" content="es"/>\n        <meta name="viewport" content="width=device-width, height=device-height, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" /><meta name="theme-color" content="#e5005a" /><meta http-equiv="content-type" co

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [7]:
soup = bs(html, "lxml")

bs?

> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer de la URL de los alquileres de Barcelona)

El segundo parámetro ('lxml'), es el parser que se usa en html 

Ahora vamos a ver el cambio

In [8]:
print(soup)

<!DOCTYPE html>
<html class="notranslate page-results variantContainer withBreadcrumb" lang="es" translate="no">
<head>
<title data-rh="true">Pisos y viviendas en alquiler en Barcelona · 5.514 pisos y viviendas disponibles - yaencontre</title>
<meta content="Pisos y viviendas en alquiler en Barcelona · 5.514 pisos y viviendas disponibles - yaencontre" data-rh="true" name="title"/><meta content="5.514 Pisos y viviendas en alquiler en Barcelona. Anuncios de pisos y viviendas de particulares y agencias inmobiliarias. ¡Encontrarás lo que estás buscando!" data-rh="true" name="description"/><meta content="index, follow" data-rh="true" name="robots"/><meta content="es" data-rh="true" name="language"/>
<meta content="width=device-width, height=device-height, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/><meta content="#e5005a" name="theme-color"/><meta content="text/html; charset=utf-8" http-equiv="content-type"/><meta content="IE=EDGE" http-equiv="x-ua-compatible"/>

## Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [9]:
soup.title

<title data-rh="true">Pisos y viviendas en alquiler en Barcelona · 5.514 pisos y viviendas disponibles - yaencontre</title>

In [10]:
soup.h1

<h1 class="d-ellipsis title-results">5.514 Pisos y viviendas en alquiler en Barcelona</h1>

Eliminamos las etiquetas

In [11]:
soup.h1.get_text()

'5.514 Pisos y viviendas en alquiler en Barcelona'

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [12]:
#Si en inspeccionar, hacemos Ctrl+F y buscamos <a>, encontramos la primera etiqueta a
soup.a['href']
soup.a.get('class')


['icon-logo']

También podemos..
> soup.a.get("href")

La sintaxis de soup.```cualquier_etiqueta``` devuelve solo el primer elemento con ese nombre de etiqueta. En lugar de soup.```cualquier_etiqueta```, también puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [13]:
print("Sin utilizar método .find()")
print(soup.h1)
print("")
print("Utilizando método .find()")
print(soup.find('h1'))



Sin utilizar método .find()
<h1 class="d-ellipsis title-results">5.514 Pisos y viviendas en alquiler en Barcelona</h1>

Utilizando método .find()
<h1 class="d-ellipsis title-results">5.514 Pisos y viviendas en alquiler en Barcelona</h1>


A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [14]:
soup.find_all('a')

[<a class="icon-logo" href="/"></a>,
 <a class="classPublishAdvise text-default-color" href="/poner-anuncio" target="_blank"><span>PUBLICAR</span> anuncio</a>,
 <a class="classPublishAdvise text-default-color d-none--tablet" href="https://localgest.yaencontre.com/" rel="nofollow" target="_blank">Profesionales</a>,
 <a class="d-none--tablet" href="/">yaencontre</a>,
 <a class="link" href="/alquiler/pisos/barcelona-provincia">Barcelona (provincia)</a>,
 <a class="link" href="/alquiler/pisos/barcelones">Barcelonès</a>,
 <a class="link d-ellipsis" href="/alquiler/pisos/badalona">Badalona</a>,
 <a class="link d-ellipsis toogle-item__title--selected breadcrumb-selected" href="/alquiler/pisos/barcelona">Barcelona</a>,
 <a class="link d-ellipsis" href="/alquiler/pisos/barcelona/distrito-ciutat-vella">Ciutat Vella</a>,
 <a class="link d-ellipsis" href="/alquiler/pisos/barcelona/distrito-eixample">Eixample</a>,
 <a class="link d-ellipsis" href="/alquiler/pisos/barcelona/distrito-gracia">Gràcia</

Si nos fijamos podemos ver que lo que nos devuelve es una lista..

Qué podemos hacer con una lista?..

In [15]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)
    print(type(a))

<a class="icon-logo" href="/"></a>
<class 'bs4.element.Tag'>
<a class="classPublishAdvise text-default-color" href="/poner-anuncio" target="_blank"><span>PUBLICAR</span> anuncio</a>
<class 'bs4.element.Tag'>
<a class="classPublishAdvise text-default-color d-none--tablet" href="https://localgest.yaencontre.com/" rel="nofollow" target="_blank">Profesionales</a>
<class 'bs4.element.Tag'>
<a class="d-none--tablet" href="/">yaencontre</a>
<class 'bs4.element.Tag'>
<a class="link" href="/alquiler/pisos/barcelona-provincia">Barcelona (provincia)</a>
<class 'bs4.element.Tag'>


Ok.. Pero como extraigo la data con BeautifilSoup?..

La página contiene 42 pisos con información relacionada con ellos. De los datos disponibles extraeremos los siguientes:

- Títulos
- Url
- habitaciones
- prices

Mientras trabajamos con BeautifulSoup, el flujo general de extracción de datos será un enfoque de dos pasos:

* Inspeccionar en el navegador los elementos HTML que queremos extraer 
* Luego encontrar los elementos HTML con BeautifulSoup.

In [16]:
soup.find_all('a', attrs={'rel': "noopener noreferrer"})

[<a class="icon-facebook" href="https://www.facebook.com/yaencontre.comvivienda/" rel="noopener noreferrer" target="_blank" title="Síguenos en Facebook"><span>Síguenos en Facebook</span></a>,
 <a class="icon-instagram" href="https://www.instagram.com/yaencontre/" rel="noopener noreferrer" target="_blank" title="Síguenos en Instagram"><span>Síguenos en Instagram</span></a>,
 <a class="icon-twitter" href="https://twitter.com/yaencontre" rel="noopener noreferrer" target="_blank" title="Noticias inmobiliarias en X"><span>Noticias inmobiliarias en X</span></a>,
 <a class="icon-youtube-round" href="https://www.youtube.com/user/yaencontre/" rel="noopener noreferrer" target="_blank" title="Noticias inmobiliarias en Youtube"><span>Noticias inmobiliarias en Youtube</span></a>,
 <a class="icon-linkedin" href="https://es.linkedin.com/company/grupo-yaencontre-com" rel="noopener noreferrer" target="_blank" title="Síguenos en Linkedin"><span>Síguenos en Linkedin</span></a>,
 <a class="icon-tiktok" hr

## Suficiente información...

Manos a la obra

## Obtener los títulos de los pisos (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un piso y elegimos inspeccionar)

In [26]:
all_h3 = soup.find_all('h3')
for h3 in all_h3[:5]:
    print(h3)
    print('Es un objeto',type(h3), ', por tanto, tiene métodos de beautiful soup (find, find_all, get_text)')
    print()
    print('Todo el texto del h3')
    print(h3.get_text())
    print('--------------------------------------------------')
    

<h3 class="title logo-aside"><a class="d-ellipsis" href="/alquiler/piso/inmueble-29126-96822843" title="Piso en El Camp de l'Arpa del Clot, Barcelona">Piso en El Camp de l'Arpa del Clot, Barcelona</a><div class="price-wrapper inline-flex logo-aside"><span class="price">2.560 €</span></div></h3>
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)

Todo el texto del h3
Piso en El Camp de l'Arpa del Clot, Barcelona2.560 €
--------------------------------------------------
<h3 class="title logo-aside"><a class="d-ellipsis" href="/alquiler/piso/inmueble-29126-96352122" title="Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona">Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona</a><div class="price-wrapper inline-flex logo-aside"><span class="price">2.190 €</span></div></h3>
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)

Todo el texto del h3
Piso en Sant Per

Si queremos obtener solo los títulos

In [17]:
all_h3 = soup.find_all('h3', class_='title')
for h3 in all_h3:
    print('Solo el título')
    print(h3.a.get_text(strip = True))
    print('Es un objeto',type(h3.a), ', por tanto, tiene métodos de beautiful soup (find, find_all, get_text)')
    print('---------------------------------------------------------------------')

Solo el título
Piso en El Camp de l'Arpa del Clot, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Piso en calle Sepulveda, Sant Antoni, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Ático en El Gòtic, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Piso en Sant Pere, Sa

In [18]:
all_h3 = soup.find_all('h3', attrs = {'class': 'title'})
for h3 in all_h3:
    print('Solo el título')
    print(h3.a.get_text(strip = True))
    print('Es un objeto',type(h3.a), ', por tanto, tiene métodos de beautiful soup (find, find_all, get_text)')
    print('---------------------------------------------------------------------')

Solo el título
Piso en El Camp de l'Arpa del Clot, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Piso en calle Sepulveda, Sant Antoni, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Ático en El Gòtic, Barcelona
Es un objeto <class 'bs4.element.Tag'> , por tanto, tiene métodos de beautiful soup (find, find_all, get_text)
---------------------------------------------------------------------
Solo el título
Piso en Sant Pere, Sa

### Los añadimos a una lista

In [19]:
lista_titulos = []

all_h3 = soup.find_all('h3', class_='title')
for h3 in all_h3:
    lista_titulos.append(h3.a.get_text(strip = True))

lista_titulos

["Piso en El Camp de l'Arpa del Clot, Barcelona",
 'Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona',
 'Piso en calle Sepulveda, Sant Antoni, Barcelona',
 'Ático en El Gòtic, Barcelona',
 'Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona',
 'Piso en Sant Gervasi - La Bonanova, Barcelona',
 'Piso en Sant Gervasi - La Bonanova, Barcelona',
 "Ático en La Dreta de l'Eixample, Barcelona",
 'Piso en Les Corts, Barcelona',
 'Piso en Les Tres Torres, Barcelona',
 "Piso en La Dreta de l'Eixample, Barcelona",
 "Piso en La Dreta de l'Eixample, Barcelona",
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 "Piso en L'Antiga

In [33]:
lista_titulos = []

all_h3 = soup.find_all('h3', attrs={'class':'title'})
for h3 in all_h3:
    lista_titulos.append(h3.a.get_text(strip = True))

lista_titulos

["Piso en El Camp de l'Arpa del Clot, Barcelona",
 'Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona',
 'Piso en calle Formatgeria, El Gòtic, Barcelona',
 'Ático en El Gòtic, Barcelona',
 'Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona',
 'Piso en Sant Gervasi - La Bonanova, Barcelona',
 'Piso en Sant Gervasi - La Bonanova, Barcelona',
 "Piso en La Dreta de l'Eixample, Barcelona",
 'Piso en Sant Gervasi - Galvany, Barcelona',
 "Piso en El Camp de l'Arpa del Clot, Barcelona",
 'Ático en El Gòtic, Barcelona',
 "Piso en L'Antiga Esquerra de l'Eixample, Barcelona",
 "Piso en La Dreta de l'Eixample, Barcelona",
 "Piso en La Dreta de l'Eixample, Barcelona",
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',


##### Otra forma de hacerlo


In [20]:
lista_titulos = [h3.a.get_text(strip=True) for h3 in soup.find_all('h3', class_='title')]
lista_titulos

["Piso en El Camp de l'Arpa del Clot, Barcelona",
 'Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona',
 'Piso en calle Sepulveda, Sant Antoni, Barcelona',
 'Ático en El Gòtic, Barcelona',
 'Piso en Sant Pere, Santa Caterina i la Ribera, Barcelona',
 'Piso en Sant Gervasi - La Bonanova, Barcelona',
 'Piso en Sant Gervasi - La Bonanova, Barcelona',
 "Ático en La Dreta de l'Eixample, Barcelona",
 'Piso en Les Corts, Barcelona',
 'Piso en Les Tres Torres, Barcelona',
 "Piso en La Dreta de l'Eixample, Barcelona",
 "Piso en La Dreta de l'Eixample, Barcelona",
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 'Piso en Sant Gervasi - Galvany, Barcelona',
 "Piso en L'Antiga

## Tips importantes

soup.find_all(“h3”) encuentra cada elemento h3 en la página web; con class_=”title” especificamos que buscamos específicamente etiquetas h3 que contengan el atributo class_=”title” (nota importante: el “_” en **class__=”title”** no es un error tipográfico, se requiere en Beautiful Soup cuando seleccionando atributos de clase).

Guardamos los elementos h3 en all_h3, que se comporta como una lista, por lo que podemos recorrerlos con un bucle for. En cada iteración extraemos solo el texto del elemento h3 con .get_text(), y con el parámetro strip=True nos aseguramos de eliminar cualquier espacio en blanco innecesario.

## Obtener los METROS CUADRADOS

In [21]:
lista_m2 = []
m2 = soup.find_all('div', class_ = 'icon-meter')
for i in m2:
    lista_m2.append(i.get_text(strip=True))
lista_m2

['69 m²',
 '80 m²',
 '90 m²',
 '109 m²',
 '150 m²',
 '130 m²',
 '115 m²',
 '290 m²',
 '89 m²',
 '220 m²',
 '63 m²',
 '50 m²',
 '123 m²',
 '123 m²',
 '99 m²',
 '119 m²',
 '97 m²',
 '91 m²',
 '91 m²',
 '122 m²',
 '135 m²',
 '115 m²',
 '85 m²',
 '226 m²',
 '80 m²',
 '60 m²',
 '50 m²',
 '65 m²',
 '60 m²',
 '55 m²',
 '92 m²',
 '101 m²',
 '102 m²',
 '107 m²',
 '52 m²',
 '53 m²',
 '146 m²',
 '133 m²',
 '200 m²',
 '153 m²',
 '130 m²',
 '315 m²']

Otra forma de hacerlo

In [22]:
lista_m2 = [i.get_text(strip=True) for i in soup.find_all('div', class_='icon-meter')]
lista_m2

['69 m²',
 '80 m²',
 '90 m²',
 '109 m²',
 '150 m²',
 '130 m²',
 '115 m²',
 '290 m²',
 '89 m²',
 '220 m²',
 '63 m²',
 '50 m²',
 '123 m²',
 '123 m²',
 '99 m²',
 '119 m²',
 '97 m²',
 '91 m²',
 '91 m²',
 '122 m²',
 '135 m²',
 '115 m²',
 '85 m²',
 '226 m²',
 '80 m²',
 '60 m²',
 '50 m²',
 '65 m²',
 '60 m²',
 '55 m²',
 '92 m²',
 '101 m²',
 '102 m²',
 '107 m²',
 '52 m²',
 '53 m²',
 '146 m²',
 '133 m²',
 '200 m²',
 '153 m²',
 '130 m²',
 '315 m²']

#### Las dos listas contienen el mismo número de valores. Lo comprobamos

In [23]:
print(len(lista_titulos))
print(len(lista_m2))

42
42


#### Entonces, ya podríamos crear un DataFrame con títulos y metros cuadrados. Vamos a hacerlo

#### Primera forma de hacerlo

In [24]:
df = pd.DataFrame()
df['Títulos'] = lista_titulos
df['M2'] = lista_m2
df

Unnamed: 0,Títulos,M2
0,"Piso en El Camp de l'Arpa del Clot, Barcelona",69 m²
1,"Piso en Sant Pere, Santa Caterina i la Ribera,...",80 m²
2,"Piso en calle Sepulveda, Sant Antoni, Barcelona",90 m²
3,"Ático en El Gòtic, Barcelona",109 m²
4,"Piso en Sant Pere, Santa Caterina i la Ribera,...",150 m²
5,"Piso en Sant Gervasi - La Bonanova, Barcelona",130 m²
6,"Piso en Sant Gervasi - La Bonanova, Barcelona",115 m²
7,"Ático en La Dreta de l'Eixample, Barcelona",290 m²
8,"Piso en Les Corts, Barcelona",89 m²
9,"Piso en Les Tres Torres, Barcelona",220 m²


#### Segunda forma

In [26]:
lista_df = []

for i in range(len(lista_titulos)):
    data = {'Título': lista_titulos[i],
            'Metros cuadrados': lista_m2[i]}
    lista_df.append(data)

df = pd.DataFrame(lista_df)
df

Unnamed: 0,Título,Metros cuadrados
0,"Piso en El Camp de l'Arpa del Clot, Barcelona",69 m²
1,"Piso en Sant Pere, Santa Caterina i la Ribera,...",80 m²
2,"Piso en calle Sepulveda, Sant Antoni, Barcelona",90 m²
3,"Ático en El Gòtic, Barcelona",109 m²
4,"Piso en Sant Pere, Santa Caterina i la Ribera,...",150 m²
5,"Piso en Sant Gervasi - La Bonanova, Barcelona",130 m²
6,"Piso en Sant Gervasi - La Bonanova, Barcelona",115 m²
7,"Ático en La Dreta de l'Eixample, Barcelona",290 m²
8,"Piso en Les Corts, Barcelona",89 m²
9,"Piso en Les Tres Torres, Barcelona",220 m²


## Obtener el número de habitaciones de cada inmueble

In [27]:
soup.find_all('div', class_='icon-room')

len(soup.find_all('div', class_='icon-room'))

42

### Puede darse el caso de que un alojamiento no muestre el número de habitaciones. Las longitudes de las listas de títulos y habitaciones no encajarían...¿Cómo solventamos el problema?

Primera forma

In [28]:
contenedor = soup.find_all('div', class_='iconGroup')
for i in contenedor:
    if i.find('div', class_='icon-room'):
        print(i.find('div', class_='icon-room').get_text())
    else:
        print('No veo habitaciones')

2 habs.
1 hab.
3 habs.
1 hab.
2 habs.
3 habs.
3 habs.
5 habs.
2 habs.
5 habs.
2 habs.
1 hab.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
4 habs.
2 habs.
4 habs.
2 habs.
1 hab.
1 hab.
1 hab.
1 hab.
1 hab.
1 hab.
3 habs.
2 habs.
3 habs.
1 hab.
1 hab.
3 habs.
1 hab.
3 habs.
3 habs.
3 habs.
3 habs.


Segunda forma

In [29]:
contenedor = soup.find_all('div', class_='iconGroup')
for i in contenedor:
    try:
        print(i.find('div', class_='icon-room').get_text(strip=True))
    except:
        print('No hay habitaciones')


2 habs.
1 hab.
3 habs.
1 hab.
2 habs.
3 habs.
3 habs.
5 habs.
2 habs.
5 habs.
2 habs.
1 hab.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
3 habs.
4 habs.
2 habs.
4 habs.
2 habs.
1 hab.
1 hab.
1 hab.
1 hab.
1 hab.
1 hab.
3 habs.
2 habs.
3 habs.
1 hab.
1 hab.
3 habs.
1 hab.
3 habs.
3 habs.
3 habs.
3 habs.


### Los añadimos a una lista

In [30]:
lista_habitaciones = []

contenedor = soup.find_all('div', class_='iconGroup')
for i in contenedor:
    try:
        lista_habitaciones.append(i.find('div', class_='icon-room').get_text(strip=True))
    except:
        lista_habitaciones.append('No hay habitaciones')

print(len(lista_habitaciones))
lista_habitaciones

42


['2 habs.',
 '1 hab.',
 '3 habs.',
 '1 hab.',
 '2 habs.',
 '3 habs.',
 '3 habs.',
 '5 habs.',
 '2 habs.',
 '5 habs.',
 '2 habs.',
 '1 hab.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '4 habs.',
 '2 habs.',
 '4 habs.',
 '2 habs.',
 '1 hab.',
 '1 hab.',
 '1 hab.',
 '1 hab.',
 '1 hab.',
 '1 hab.',
 '3 habs.',
 '2 habs.',
 '3 habs.',
 '1 hab.',
 '1 hab.',
 '3 habs.',
 '1 hab.',
 '3 habs.',
 '3 habs.',
 '3 habs.',
 '3 habs.']

## Encontrar elementos por su selector CSS

In [31]:
rooms = soup.select('div.iconGroup div.icon-room span')
#Esto corresponde al selector CSS

In [32]:
rooms = soup.select('div.iconGroup div.icon-room span')
# for i in rooms:
#     print(type(i))
#     print(i.get_text())

rooms_series = pd.Series(rooms)
rooms_series_df = pd.DataFrame(rooms)
rooms_series.value_counts()

[3 habs.]    19
[1 hab.]     12
[2 habs.]     7
[5 habs.]     2
[4 habs.]     2
dtype: int64

In [33]:
rooms

[<span class="">2 habs.</span>,
 <span class="">1 hab.</span>,
 <span class="">3 habs.</span>,
 <span class="">1 hab.</span>,
 <span class="">2 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">5 habs.</span>,
 <span class="">2 habs.</span>,
 <span class="">5 habs.</span>,
 <span class="">2 habs.</span>,
 <span class="">1 hab.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">3 habs.</span>,
 <span class="">4 habs.</span>,
 <span class="">2 habs.</span>,
 <span class="">4 habs.</span>,
 <span class="">2 habs.</span>,
 <span class="">1 hab.</span>,
 <span class="">1 hab.</span>,
 <span class="">1 hab.</span>,
 <span class="">1 hab.</span>,
 <span class="">1 hab.</span>,
 <span class="">1 hab.</span>,
 <span class="">3

## Obtener los precios (find_all + get_text)

In [34]:

precios = soup.find_all('span', class_='price')

for precio in precios:
    print(precio.get_text(strip=True))



2.560 €
2.190 €
1.400 €
2.200 €
5.000 €
3.341 €
3.394 €
5.500 €
3.100 €
4.950 €
4.550 €
3.000 €
2.800 €
2.850 €
2.950 €
2.750 €
2.550 €
2.650 €
2.500 €
2.800 €
2.950 €
2.300 €
2.250 €
4.500 €
1.200 €
1.800 €
1.800 €
1.800 €
1.800 €
1.800 €
2.100 €
2.300 €
3.250 €
3.100 €
2.500 €
1.120 €
4.000 €
5.000 €
7.500 €
6.000 €
3.800 €
8.000 €


### Pero, en un DataFrame, te interesa tener el precio comprendido como un número int o float, para poder jugar con él. ¿Cómo lo haríamos?

In [35]:
precios = soup.find_all('span', class_='price')

for precio in precios:
    print(type(precio.get_text()))
    print(precio.get_text(strip=True).replace('.',''))
    print(precio.get_text(strip=True).replace('.','').split())
    print(precio.get_text(strip=True).replace('.','').split()[0])
    print('De momento es un string, así que lo pasamos a float')
    print(float(precio.get_text(strip=True).replace('.','').split()[0]))

    print('---------------------------------------------------------------')

<class 'str'>
2560 €
['2560', '€']
2560
De momento es un string, así que lo pasamos a float
2560.0
---------------------------------------------------------------
<class 'str'>
2190 €
['2190', '€']
2190
De momento es un string, así que lo pasamos a float
2190.0
---------------------------------------------------------------
<class 'str'>
1400 €
['1400', '€']
1400
De momento es un string, así que lo pasamos a float
1400.0
---------------------------------------------------------------
<class 'str'>
2200 €
['2200', '€']
2200
De momento es un string, así que lo pasamos a float
2200.0
---------------------------------------------------------------
<class 'str'>
5000 €
['5000', '€']
5000
De momento es un string, así que lo pasamos a float
5000.0
---------------------------------------------------------------
<class 'str'>
3341 €
['3341', '€']
3341
De momento es un string, así que lo pasamos a float
3341.0
---------------------------------------------------------------
<class 'str'>
3394 €
[

#### Los añadimos a una lista

In [36]:
lista_precios = []

precios = soup.find_all('span', class_='price')

for precio in precios:
    lista_precios.append(float(precio.get_text(strip=True).replace('.','').split()[0]))

lista_precios

[2560.0,
 2190.0,
 1400.0,
 2200.0,
 5000.0,
 3341.0,
 3394.0,
 5500.0,
 3100.0,
 4950.0,
 4550.0,
 3000.0,
 2800.0,
 2850.0,
 2950.0,
 2750.0,
 2550.0,
 2650.0,
 2500.0,
 2800.0,
 2950.0,
 2300.0,
 2250.0,
 4500.0,
 1200.0,
 1800.0,
 1800.0,
 1800.0,
 1800.0,
 1800.0,
 2100.0,
 2300.0,
 3250.0,
 3100.0,
 2500.0,
 1120.0,
 4000.0,
 5000.0,
 7500.0,
 6000.0,
 3800.0,
 8000.0]

### Forma un poco más pro de hacerlo: list comprehension

In [48]:
lista_precios = [float(precio.get_text(strip=True).replace('.','').split()[0]) for precio in precios]

### Podéis también meterlo en una serie o en un dataframe

In [49]:
print(len(lista_precios))

42


### Podéis también meterlo en una serie o en un dataframe

In [37]:
lista_df = []

for i in range(len(lista_titulos)):
    data = {'Título': lista_titulos[i],
            'Metros cuadrados': lista_m2[i],
            'Habitaciones': lista_habitaciones[i],
            'Precios': lista_precios[i]}
    lista_df.append(data)

df = pd.DataFrame(lista_df)
df

Unnamed: 0,Título,Metros cuadrados,Habitaciones,Precios
0,"Piso en El Camp de l'Arpa del Clot, Barcelona",69 m²,2 habs.,2560.0
1,"Piso en Sant Pere, Santa Caterina i la Ribera,...",80 m²,1 hab.,2190.0
2,"Piso en calle Sepulveda, Sant Antoni, Barcelona",90 m²,3 habs.,1400.0
3,"Ático en El Gòtic, Barcelona",109 m²,1 hab.,2200.0
4,"Piso en Sant Pere, Santa Caterina i la Ribera,...",150 m²,2 habs.,5000.0
5,"Piso en Sant Gervasi - La Bonanova, Barcelona",130 m²,3 habs.,3341.0
6,"Piso en Sant Gervasi - La Bonanova, Barcelona",115 m²,3 habs.,3394.0
7,"Ático en La Dreta de l'Eixample, Barcelona",290 m²,5 habs.,5500.0
8,"Piso en Les Corts, Barcelona",89 m²,2 habs.,3100.0
9,"Piso en Les Tres Torres, Barcelona",220 m²,5 habs.,4950.0


In [51]:
df[df['Precios']>2500]

Unnamed: 0,Título,Metros cuadrados,Habitaciones,Precios
0,"Piso en El Camp de l'Arpa del Clot, Barcelona",69 m²,2 habs.,2560.0
4,"Piso en Sant Pere, Santa Caterina i la Ribera,...",150 m²,2 habs.,5000.0
5,"Piso en Sant Gervasi - La Bonanova, Barcelona",130 m²,3 habs.,3341.0
6,"Piso en Sant Gervasi - La Bonanova, Barcelona",102 m²,2 habs.,2763.0
7,"Piso en La Dreta de l'Eixample, Barcelona",221 m²,3 habs.,7500.0
12,"Piso en La Dreta de l'Eixample, Barcelona",63 m²,2 habs.,4550.0
13,"Piso en La Dreta de l'Eixample, Barcelona",50 m²,1 hab.,3000.0
14,"Piso en Sant Gervasi - Galvany, Barcelona",123 m²,3 habs.,2800.0
15,"Piso en Sant Gervasi - Galvany, Barcelona",123 m²,3 habs.,2850.0
16,"Piso en Sant Gervasi - Galvany, Barcelona",91 m²,3 habs.,2650.0


### Conseguir los teléfonos de las inmobiliarias

In [52]:
lista_telefonos = []
telefonos = soup.find_all('div', class_='icon-phone-2')

for i in telefonos:
    print(i.span.get_text(strip=True))
    lista_telefonos.append(i.span.get_text(strip=True))

len(lista_telefonos)

93 617 88 45
93 617 88 45
Llamar
93 617 51 22
93 617 92 14
93 617 84 87
93 617 60 98
93 617 24 95
93 617 50 82
93 617 03 36
93 617 62 41
93 617 60 20
93 617 40 47
93 617 80 46
93 617 97 93
93 617 97 93
93 617 97 93
93 617 97 93
93 617 97 93
93 617 97 93
93 617 97 93
93 617 97 93
93 617 97 93
93 617 54 59
93 617 54 59
93 617 49 64
93 617 76 25
93 617 86 09
93 617 99 31
93 617 76 25
93 617 99 14
93 617 35 81
93 617 97 37
93 617 30 40
93 617 30 40
93 617 30 40
93 617 30 40
93 617 30 40
93 617 30 40
93 617 30 40
93 617 30 40
93 617 30 40


42

## Obtener URLs de alojamientos

In [38]:

url_principal = 'https://www.yaencontre.com'

lista_pisos = []

pisos = soup.find_all('h3', class_='title')
for piso in pisos:
    lista_pisos.append(url_principal + piso.a['href'])

Entramos en cada url

In [39]:
for url in lista_pisos:
    response = requests.get(url)
    soup_piso = bs(response.content, 'lxml')
    print(response)

<Response [200]>
<Response [200]>
<Response [200]>


<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>


#### De cada alojamiento obtener:
* Ubicación
* Si tiene o no tiene Aire acondicionado
* Si está amueblado o no.

### Ubicación

In [40]:
for url in lista_pisos:
    response = requests.get(url)
    soup_piso = bs(response.content, 'lxml')
    
    try:
        print(soup_piso.find('div', class_='details-address').get_text())
    except:
        print('No sale ubicación')

El Camp de l'Arpa del Clot, Sant Martí, Barcelona
Sant Pere, Santa Caterina i la Ribera, Ciutat Vella, Barcelona
Sant Antoni, Eixample, Barcelona
El Gòtic, Ciutat Vella, Barcelona
Sant Pere, Santa Caterina i la Ribera, Ciutat Vella, Barcelona
Sant Gervasi - La Bonanova, Sarrià - Sant Gervasi, Barcelona
Sant Gervasi - La Bonanova, Sarrià - Sant Gervasi, Barcelona
La Dreta de l'Eixample, Eixample, Barcelona
Les Corts, Les Corts, Barcelona
Les Tres Torres, Sarrià - Sant Gervasi, Barcelona
No sale ubicación
La Dreta de l'Eixample, Eixample, Barcelona
Sant Gervasi - Galvany, Sarrià - Sant Gervasi, Barcelona
No sale ubicación
No sale ubicación
No sale ubicación
No sale ubicación
No sale ubicación
No sale ubicación
No sale ubicación
No sale ubicación
No sale ubicación
El Camp de l'Arpa del Clot, Sant Martí, Barcelona
Sant Gervasi - Galvany, Sarrià - Sant Gervasi, Barcelona
El Putxet i el Farró, Sarrià - Sant Gervasi, Barcelona
No sale ubicación
El Putxet i el Farró, Sarrià - Sant Gervasi, Bar

### Aire acondicionado

In [41]:
for url in lista_pisos:
    response = requests.get(url)
    soup_piso = bs(response.content, 'lxml')
    
    try:
        if soup_piso.find('div', class_='icon-airConditioning').get_text(strip=True) == '':
            print('Sí tiene aire acondicionado')
        else:
            print('No tiene')
    except:
        print('No tiene')




No tiene


No tiene
Sí tiene aire acondicionado
Sí tiene aire acondicionado
Sí tiene aire acondicionado
Sí tiene aire acondicionado
Sí tiene aire acondicionado
Sí tiene aire acondicionado
Sí tiene aire acondicionado
Sí tiene aire acondicionado
No tiene
Sí tiene aire acondicionado
Sí tiene aire acondicionado
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
Sí tiene aire acondicionado
Sí tiene aire acondicionado
No tiene
No tiene
Sí tiene aire acondicionado
Sí tiene aire acondicionado
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
No tiene
Sí tiene aire acondicionado
Sí tiene aire acondicionado
No tiene
Sí tiene aire acondicionado
Sí tiene aire acondicionado


### Amueblado

In [42]:
for url in lista_pisos:
    response = requests.get(url)
    soup_piso = bs(response.content, 'lxml')    
    
    try:
        if soup_piso.find('div', class_='icon-furnished').get_text(strip=True) == '':
            print('Sí')
        else:
            print('No')
    except:
        print('No')

Sí
Sí


No
No
Sí
No
No
No
Sí
No
No
Sí
No
No
No
No
No
No
No
No
No
No
Sí
No
Sí
No
Sí
Sí
No
No
No
No
No
No
No
No
No
Sí
Sí
No
Sí
Sí


---

## Ahora vamos a scrapear todos los pisos, yendo de página en página

In [43]:
url = "https://www.yaencontre.com/alquiler/pisos/barcelona"

for pagina in range(1,20):
    #Contador de páginas
    print('Página '+str(pagina))
    response = requests.get(url+'/pag-'+str(pagina))
    print(url+'/pag-'+str(pagina))
    soup_pagina = bs(response.content, 'lxml')

    if pagina == 5:
        break
    
    for i in soup_pagina.find_all('div', class_='content'):
        print(i.h3.a['href'])



Página 1


https://www.yaencontre.com/alquiler/pisos/barcelona/pag-1
Página 2
https://www.yaencontre.com/alquiler/pisos/barcelona/pag-2
Página 3
https://www.yaencontre.com/alquiler/pisos/barcelona/pag-3
Página 4
https://www.yaencontre.com/alquiler/pisos/barcelona/pag-4
Página 5
https://www.yaencontre.com/alquiler/pisos/barcelona/pag-5


In [44]:
lista_urls = []

for pagina in range(1,20):
    try:
        print('Página '+str(pagina))
        response = requests.get(url+'/pag-'+str(pagina))
        soup_pagina = bs(response.content, 'lxml')

        for i in soup_pagina.find_all('div', class_='content'):
            lista_urls.append('https://www.yaencontre.com'+str(i.h3.a['href']))

    except:
        break

Página 1


Página 2
Página 3
Página 4
Página 5
Página 6
Página 7
Página 8
Página 9
Página 10
Página 11
Página 12
Página 13
Página 14
Página 15
Página 16
Página 17
Página 18
Página 19


In [45]:
lista_urls

[]

In [46]:
contador = 1

lista_titulos = []
lista_ubicaciones = []
lista_precios = []
lista_precios_antes = []
lista_habitaciones = []
lista_bathrooms = []
lista_m2 = [] 
lista_aire = [] #aire acondicionado
lista_amueblado =[] #si lo está o no
lista_armarios_empotrados = [] #sí o no
lista_ascensor = []
lista_balcon = []
lista_calefaccion =[]
lista_terraza = []
lista_caracteristicas = []
lista_descripcion = []

for url_alquiler in lista_urls:
    response = requests.get(url_alquiler)
    soup_url = bs(response.content, 'lxml')

    try:
        lista_titulos.append(soup_url.find('h1', class_='details-title').get_text(strip=True))
    except:
        lista_titulos.append('No veo el título')

    try:
        lista_ubicaciones.append(soup_url.find('div',class_= 'details-address').get_text(strip=True))
    except:
        lista_ubicaciones.append('No encuentro la ubicación')

    try:
        lista_precios.append(soup_url.find('span',class_='price').get_text(strip=True))
    except:
        lista_precios.append('No veo el precio')

    try:
        lista_precios_antes.append(soup_url.find('span', class_='icon-text previousPriceText').get_text(strip=True))
    except:
        try:
            lista_precios_antes.append(soup_url.find('span',class_='price').get_text(strip=True))
        except:
            lista_precios_antes.append('No veo el precio')
    
    try:
        lista_habitaciones.append(soup_url.find('div',class_='icon-room').get_text(strip=True))
    except:
        lista_habitaciones.append('No veo las habitaciones')

    try:
        lista_bathrooms.append(soup_url.find('div', class_='icon-bath').get_text(strip=True))
    except:
        lista_bathrooms.append('No encuentro los baños')
    
    try:
        lista_m2.append(soup_url.find('div', class_='icon-meter').get_text(strip=True))
    except:
        lista_m2.append('No encuentro los baños')
    
    try:
        if soup_url.find('div', class_='icon-airConditioning').get_text(strip=True) == '':
            lista_aire.append('Sí')
        else:
            lista_aire.append('No')
    except:
        lista_aire.append('No')
    
    try:
        if soup_url.find('div', class_='icon-furnished').get_text(strip=True) == '':
            lista_amueblado.append('Sí')
        else:
            lista_amueblado.append('No')
    except:
        lista_amueblado.append('No')

    try:
        if soup_url.find('div', class_='icon-builtInWardrobes').get_text(strip=True) == '':
            lista_armarios_empotrados.append('Sí')
        else:
            lista_armarios_empotrados.append('No')
    except:
        lista_armarios_empotrados.append('No')
    
    try:
        if soup_url.find('div', class_='icon-lift').get_text(strip=True) == '':
            lista_ascensor.append('Sí')
        else:
            lista_ascensor.append('No')
    except:
        lista_ascensor.append('No')

    try:
        if soup_url.find('div', class_='icon-balcony').get_text(strip=True) == '':
            lista_balcon.append('Sí')
        else:
            lista_balcon.append('No')
    except:
        lista_balcon.append('No')

    try:
        if soup_url.find('div', class_='icon-centralHeating').get_text(strip=True) == '':
            lista_calefaccion.append('Sí')
        else:
            lista_calefaccion.append('No')
    except:
        lista_calefaccion.append('No')

    try:
        if soup_url.find('div', class_='icon-terrace').get_text(strip=True) == '':
            lista_terraza.append('Sí')
        else:
            lista_terraza.append('No')
    except:
        lista_terraza.append('No')

    try:
        lista_caracteristicas.append([i.get_text(strip=True) for i in soup_url.find_all('li', class_='feature')])
    except:
        lista_caracteristicas.append('No veo más características')

    try:
        lista_descripcion.append(soup_url.find('div', class_='description').get_text(strip=True))
    except:
        lista_descripcion.append('No veo la descripción')

    print('Url: '+str(contador))

    contador +=1

### Creamos el DataFrame

In [47]:
lista_df = []

for i in range(len(lista_precios)):
    data = {'Url': lista_urls[i],
            'Título': lista_titulos[i],
            'Ubicación': lista_ubicaciones[i],
            'Precio': lista_precios[i],
            'Precio Antes': lista_precios_antes[i],
            'Habitaciones': lista_habitaciones[i],
            'Baños':lista_bathrooms[i],
            'Metros cuadrados': lista_m2[i],
            'Aire acondicionado': lista_aire[i],
            'Amueblado': lista_amueblado[i],
            'Armarios empotrados': lista_armarios_empotrados[i],
            'Ascensor': lista_ascensor[i],
            'Balcón': lista_balcon[i],
            'Calefacción': lista_calefaccion[i],
            'Terraza': lista_terraza[i],
            'Características': lista_caracteristicas[i],
            'Descripción': lista_descripcion[i]
            }
    
    lista_df.append(data)

df = pd.DataFrame(lista_df)


In [48]:
df