# Beautiful Soup Tutorial
Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, para ello existe web scraping. El web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En primer lugar sería necesario instalar la librería *bautifulsoup4*.

In [1]:
%pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Seguidamente, también es necesario instalar un parser, teniendo que utilizar el *lxml* ya que es el mas rápido.

In [2]:
%pip install lxml





[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de *requests*. Con *requests* podemos solicitar páginas web de sitios web. 

In [3]:
%pip install requests

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


## Mi primer scraping
Como siempre lo primero es importar las librerías 




In [4]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [37]:
url = "https://www.madrid.org/filmmadrid/en/company-directory.html?id=5"

response = requests.get(url)

In [38]:
response

<Response [200]>

In [39]:
# Para ver el contenido
response.content

b'<!DOCTYPE html>\n<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html class="no-js"> <!--<![endif]-->\n  <head>\n    <meta charset="utf-8">\n        <meta name="viewport" content="width=device-width, initial-scale=1">\n        <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n        <title>Companies Directory  of the Madrid Region</title>\n        <meta name="description" content="Film Madrid \xe2\x80\x93 Region of Madrid Filming Promotion Office, a public service whose goal is to support the audio-visual industry in Madrid.">\n        <link rel="canonical" href="www.madrid.org/filmmadrid/en/company-directory.html" />\n\n        <!-- FACEBOOK METAS -->\n        <meta property="og:title" content="Film Madrid - Filming Promotion Office of the Madrid Region" />\n        <meta propert

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [40]:
html = response.content

Lo podemos imprimir para ver su estructura

In [41]:
print(html)

b'<!DOCTYPE html>\n<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8]><!--> <html class="no-js"> <!--<![endif]-->\n  <head>\n    <meta charset="utf-8">\n        <meta name="viewport" content="width=device-width, initial-scale=1">\n        <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n        <title>Companies Directory  of the Madrid Region</title>\n        <meta name="description" content="Film Madrid \xe2\x80\x93 Region of Madrid Filming Promotion Office, a public service whose goal is to support the audio-visual industry in Madrid.">\n        <link rel="canonical" href="www.madrid.org/filmmadrid/en/company-directory.html" />\n\n        <!-- FACEBOOK METAS -->\n        <meta property="og:title" content="Film Madrid - Filming Promotion Office of the Madrid Region" />\n        <meta propert

In [13]:
response

<Response [200]>

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [42]:
soup = bs(html, "html.parser")

#tuve un problema con uv y lxml



> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML)

El segundo parámetro ('html.parser'), es el parser que se usa en html 

In [43]:
soup

<!DOCTYPE html>

<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js"> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>Companies Directory  of the Madrid Region</title>
<meta content="Film Madrid – Region of Madrid Filming Promotion Office, a public service whose goal is to support the audio-visual industry in Madrid." name="description"/>
<link href="www.madrid.org/filmmadrid/en/company-directory.html" rel="canonical"/>
<!-- FACEBOOK METAS -->
<meta content="Film Madrid - Filming Promotion Office of the Madrid Region" property="og:title">
<meta content="Film Madrid – Region of Madrid Filming Promotion Office, a public service whose goal is to supp

## Cómo navegar por un objeto de Beautiful Soup
HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

Para coger únicamente el texto de la etiqueta

In [23]:
soup.h1.get_text()

'Companies Directory '

La sintaxis de soup.```cualquier_etiqueta``` devuelve solo el primer elemento con ese nombre de etiqueta. En lugar de soup.```cualquier_etiqueta```, también puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [32]:
print("Sin utilizar método .find()")
print(soup.h1)
print("")
print("Utilizando método .find()")
print(soup.find('h1'))


Sin utilizar método .find()
<h1 class="display-1">Companies Directory </h1>

Utilizando método .find()
<h1 class="display-1">Companies Directory </h1>


Después de realizar lo anterior podemos pasar a extraer la información que queremos y crear el csv. Todas las columnas extraidas se muestran en los siguientes apartados.

Todos estas columnas vienen presentadas en los siguientes apartados:

##### Obtener los nombres de las empresas

In [66]:
### Los añadimos a una lista
nombre_empresa = []

all_titles = soup.find_all(class_='col-12 resultado')
for title in all_titles:
    h3 = title.find('h3')  # Busca el h3 dentro del div
    if h3:
        nombre_empresa.append(h3.get_text(strip=True))

print(len(nombre_empresa))
print(nombre_empresa)

15
['Cinema Republic, S.L.', 'Cinetel Multimedia, S.L.', 'Feel Sales (Content Line, S.L.)', 'Festimania Pictures S.L.', 'Inside Content, S.L.', 'Latido  Films (Latido Consorcio de Exportación del Cine Español, S.L.)', 'Mirror Audiovisual, S.L.', 'Moonrise Pictures', 'Sala 46 Films', 'Sala46 Films', 'Sogepaq - Video Mercury Films, S.A.', 'The Mediapro Studio Distribution', 'Treeline Distribution', 'Urban Films S.L.', 'Wanda Vision, S.A.']


In [67]:
# Creamos un DataFrame con los títulos, es decir una tabla 
# con sus columnas y filas
df = pd.DataFrame(nombre_empresa, columns=['Nombres de empresas'])
# Mostramos el DataFrame    
df

Unnamed: 0,Nombres de empresas
0,"Cinema Republic, S.L."
1,"Cinetel Multimedia, S.L."
2,"Feel Sales (Content Line, S.L.)"
3,Festimania Pictures S.L.
4,"Inside Content, S.L."
5,Latido Films (Latido Consorcio de Exportación...
6,"Mirror Audiovisual, S.L."
7,Moonrise Pictures
8,Sala 46 Films
9,Sala46 Films


##### Obtener las direcciones

In [84]:
lista_direction = []

all_direction = soup.find_all(class_='col-sm-5')

for direction in all_direction:
    p = direction.find('p')
    if p:
        texto_completo = p.get_text(strip=True, separator="\n")  # reemplaza <br> por saltos de línea
        primera_linea = texto_completo.split('\n')[0]  # toma solo la primera línea
        lista_direction.append(primera_linea)
    else:
        lista_direction.append(None)

print(len(lista_direction))
lista_direction


15


['Av. Rosario Manzaneque 25. 28250 Torrelodones',
 'Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid',
 'Av. Concha Espina, 65. 2º. 28016 Madrid',
 'Arzobispo Morcillo, 40. 28029 Madrid',
 'Francisco Navacerrada, 8, 5º. 28028 Madrid',
 'San Bernardo, 20, 2º Of. 8. 28015 Madrid',
 'Pico de la Miel, 47. 28023 Madrid',
 'Santa Engracia, 108, 7th Floor. 28003 Madrid',
 'C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid',
 'C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid',
 'Ana Mariscal, 7. Ciudad de la Imagen. 28223 Pozuelo de Alarcón',
 'Ctra. Fuencarral a Alcobendas, 24. 28049 Madrid',
 'Castiello de Jaca 21B-6º1. 28050 Madrid',
 'Viriato, 2. 4ª planta. 28010 Madrid',
 'Avda. Europa, 16 - Chalet 1 y 2. 28224 Pozuelo de Alarcón']

In [85]:
df['Direcciones'] = lista_direction
df

Unnamed: 0,Nombres de empresas,direcciones,Direcciones
0,"Cinema Republic, S.L.",Av. Rosario Manzaneque 25. 28250 Torrelodones,Av. Rosario Manzaneque 25. 28250 Torrelodones
1,"Cinetel Multimedia, S.L.","Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid","Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid"
2,"Feel Sales (Content Line, S.L.)","Av. Concha Espina, 65. 2º. 28016 Madrid","Av. Concha Espina, 65. 2º. 28016 Madrid"
3,Festimania Pictures S.L.,"Arzobispo Morcillo, 40. 28029 Madrid","Arzobispo Morcillo, 40. 28029 Madrid"
4,"Inside Content, S.L.","Francisco Navacerrada, 8, 5º. 28028 Madrid","Francisco Navacerrada, 8, 5º. 28028 Madrid"
5,Latido Films (Latido Consorcio de Exportación...,"San Bernardo, 20, 2º Of. 8. 28015 Madrid","San Bernardo, 20, 2º Of. 8. 28015 Madrid"
6,"Mirror Audiovisual, S.L.","Pico de la Miel, 47. 28023 Madrid","Pico de la Miel, 47. 28023 Madrid"
7,Moonrise Pictures,"Santa Engracia, 108, 7th Floor. 28003 Madrid","Santa Engracia, 108, 7th Floor. 28003 Madrid"
8,Sala 46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid","C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid"
9,Sala46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid","C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid"


In [89]:
df.drop(columns=['direcciones'], inplace=True)
df

Unnamed: 0,Nombres de empresas,Direcciones
0,"Cinema Republic, S.L.",Av. Rosario Manzaneque 25. 28250 Torrelodones
1,"Cinetel Multimedia, S.L.","Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid"
2,"Feel Sales (Content Line, S.L.)","Av. Concha Espina, 65. 2º. 28016 Madrid"
3,Festimania Pictures S.L.,"Arzobispo Morcillo, 40. 28029 Madrid"
4,"Inside Content, S.L.","Francisco Navacerrada, 8, 5º. 28028 Madrid"
5,Latido Films (Latido Consorcio de Exportación...,"San Bernardo, 20, 2º Of. 8. 28015 Madrid"
6,"Mirror Audiovisual, S.L.","Pico de la Miel, 47. 28023 Madrid"
7,Moonrise Pictures,"Santa Engracia, 108, 7th Floor. 28003 Madrid"
8,Sala 46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid"
9,Sala46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid"


##### Obtener los teléfonos

In [90]:
# Extraer los números de teléfono
lista_telefono = []

all_direction = soup.find_all(class_='col-sm-5')

for direction in all_direction:
    p = direction.find('p')
    if p:
        texto_completo = p.get_text(strip=True, separator="\n")
        lineas = texto_completo.split('\n')
        if len(lineas) > 1:
            lista_telefono.append(lineas[1])  # Segunda línea
        else:
            lista_telefono.append(None)
    else:
        lista_telefono.append(None)

print(len(lista_telefono))
lista_telefono


15


['0034 91 856 55 01',
 '0034 91 434 24 67',
 '0034 91 590 39 20',
 '0034 690 06 25 83',
 '0034 91 831 33 56',
 '0034 683 53 55 86',
 '0034 610 445 583',
 '0034 91 760 76 05',
 '630950440',
 '630950440',
 '0034 91 512 02 00',
 '0034 91 728 57 38',
 '0034 981 22 47 76',
 '0034 91 447 95 43',
 '0034 91 352 83 76']

In [91]:
# Añadimos la columa precio al DataFrame
df['Teléfonos'] = lista_telefono
df

Unnamed: 0,Nombres de empresas,Direcciones,Teléfonos
0,"Cinema Republic, S.L.",Av. Rosario Manzaneque 25. 28250 Torrelodones,0034 91 856 55 01
1,"Cinetel Multimedia, S.L.","Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid",0034 91 434 24 67
2,"Feel Sales (Content Line, S.L.)","Av. Concha Espina, 65. 2º. 28016 Madrid",0034 91 590 39 20
3,Festimania Pictures S.L.,"Arzobispo Morcillo, 40. 28029 Madrid",0034 690 06 25 83
4,"Inside Content, S.L.","Francisco Navacerrada, 8, 5º. 28028 Madrid",0034 91 831 33 56
5,Latido Films (Latido Consorcio de Exportación...,"San Bernardo, 20, 2º Of. 8. 28015 Madrid",0034 683 53 55 86
6,"Mirror Audiovisual, S.L.","Pico de la Miel, 47. 28023 Madrid",0034 610 445 583
7,Moonrise Pictures,"Santa Engracia, 108, 7th Floor. 28003 Madrid",0034 91 760 76 05
8,Sala 46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid",630950440
9,Sala46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid",630950440


##### Obtener los url de cada empresa

In [95]:
# Extraer los correos electrónicos
lista_url = []

all_direction = soup.find_all(class_='col-sm-5')

for direction in all_direction:
    p = direction.find('p')
    if p:
        texto_completo = p.get_text(strip=True, separator="\n")
        lineas = texto_completo.split('\n')
        
        # Buscar línea que contenga 'http'
        url_linea = next((linea for linea in lineas if 'http' in linea), None)
        lista_url.append(url_linea)
    else:
        lista_url.append(None)

print(len(lista_url))
lista_url



15


['http://www.cinemarepublic.es/',
 'http://www.cinetelmultimedia.com/',
 'http://www.feelsales.com/',
 'http://www.festimania.com/',
 'http://www.insidecontent.tv/',
 'http://www.latidofilms.com/',
 'http://mirroraudiovisual.es/',
 'http://www.moonrisepictures.eu/',
 'http://sala46.com/',
 'http://sala46.com/',
 'http://www.sogepaq.es/',
 'https://distribution.themediaprostudio.com/',
 'http://www.treelinedistribution.com',
 'http://www.urbanfilms.es/',
 'http://www.wanda.es/']

In [96]:
# Añadimos la columa precio al DataFrame
df['Página Web'] = lista_url
df

Unnamed: 0,Nombres de empresas,Direcciones,Teléfonos,Página Web
0,"Cinema Republic, S.L.",Av. Rosario Manzaneque 25. 28250 Torrelodones,0034 91 856 55 01,http://www.cinemarepublic.es/
1,"Cinetel Multimedia, S.L.","Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid",0034 91 434 24 67,http://www.cinetelmultimedia.com/
2,"Feel Sales (Content Line, S.L.)","Av. Concha Espina, 65. 2º. 28016 Madrid",0034 91 590 39 20,http://www.feelsales.com/
3,Festimania Pictures S.L.,"Arzobispo Morcillo, 40. 28029 Madrid",0034 690 06 25 83,http://www.festimania.com/
4,"Inside Content, S.L.","Francisco Navacerrada, 8, 5º. 28028 Madrid",0034 91 831 33 56,http://www.insidecontent.tv/
5,Latido Films (Latido Consorcio de Exportación...,"San Bernardo, 20, 2º Of. 8. 28015 Madrid",0034 683 53 55 86,http://www.latidofilms.com/
6,"Mirror Audiovisual, S.L.","Pico de la Miel, 47. 28023 Madrid",0034 610 445 583,http://mirroraudiovisual.es/
7,Moonrise Pictures,"Santa Engracia, 108, 7th Floor. 28003 Madrid",0034 91 760 76 05,http://www.moonrisepictures.eu/
8,Sala 46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid",630950440,http://sala46.com/
9,Sala46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid",630950440,http://sala46.com/


##### Obtener los correos electrónicos

In [97]:
# Extarer los correos electrónicos
lista_email = []
all_direction = soup.find_all(class_='col-sm-5')
for direction in all_direction:
    p = direction.find('p')
    if p:
        texto_completo = p.get_text(strip=True, separator="\n")
        lineas = texto_completo.split('\n')
        
        # Buscar línea que contenga '@'
        email_linea = next((linea for linea in lineas if '@' in linea), None)
        lista_email.append(email_linea)
    else:
        lista_email.append(None)
lista_email

['david@cinemarepublic.es',
 'jmjara@cinetelmultimedia.com',
 'info@feelsales.com',
 'info@festimania.com',
 'contact@insidecontent.tv',
 'latido@latidofilms.com',
 'mrezola@mirroraudiovisual.es',
 'info@moonrisepictures.eu',
 'films@sala46.com',
 'films@sala46.com',
 'smacmahon@videomercury.com',
 'themediaprostudio@mediapro.tv',
 'luisa.romeo@treelinedistribution.com',
 'info@urbanfilms.es',
 'wanda@wanda.es']

In [98]:
df['Correos electrónico']= lista_email
df

Unnamed: 0,Nombres de empresas,Direcciones,Teléfonos,Página Web,Correos electrónico
0,"Cinema Republic, S.L.",Av. Rosario Manzaneque 25. 28250 Torrelodones,0034 91 856 55 01,http://www.cinemarepublic.es/,david@cinemarepublic.es
1,"Cinetel Multimedia, S.L.","Ángel Ganivet, 28. Portal 4, 5ºA. 28007 Madrid",0034 91 434 24 67,http://www.cinetelmultimedia.com/,jmjara@cinetelmultimedia.com
2,"Feel Sales (Content Line, S.L.)","Av. Concha Espina, 65. 2º. 28016 Madrid",0034 91 590 39 20,http://www.feelsales.com/,info@feelsales.com
3,Festimania Pictures S.L.,"Arzobispo Morcillo, 40. 28029 Madrid",0034 690 06 25 83,http://www.festimania.com/,info@festimania.com
4,"Inside Content, S.L.","Francisco Navacerrada, 8, 5º. 28028 Madrid",0034 91 831 33 56,http://www.insidecontent.tv/,contact@insidecontent.tv
5,Latido Films (Latido Consorcio de Exportación...,"San Bernardo, 20, 2º Of. 8. 28015 Madrid",0034 683 53 55 86,http://www.latidofilms.com/,latido@latidofilms.com
6,"Mirror Audiovisual, S.L.","Pico de la Miel, 47. 28023 Madrid",0034 610 445 583,http://mirroraudiovisual.es/,mrezola@mirroraudiovisual.es
7,Moonrise Pictures,"Santa Engracia, 108, 7th Floor. 28003 Madrid",0034 91 760 76 05,http://www.moonrisepictures.eu/,info@moonrisepictures.eu
8,Sala 46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid",630950440,http://sala46.com/,films@sala46.com
9,Sala46 Films,"C/ Vinaroz 31, escalera izq. 3ºB. 28002 Madrid",630950440,http://sala46.com/,films@sala46.com


##### Descarga de la tabla de datos

Finalmente descargamos la tabla anterior en un csv.

In [99]:
#Descargar el DataFrame a un archivo CSV
df.to_csv('empresas_madrid.csv', index=False, encoding='utf-8-sig')