# BeautifulSoup4 Basics


In [1]:
# !pip install beautifulsoup4
from bs4 import BeautifulSoup
import requests



### Parsear un HTML básico con bs4


In [5]:

html_doc = """
<html>
<head><title>Ejemplo IABD_LINKIA</title></head>
<body>
    <h1>Hola, Mundo!</h1>
    <p class="intro">Hola clase!!!!!!.</p>
    <p class="content">Aquí hay contenido interesante.</p>
    <a href="https://example.com" id="link1">Enlace 1</a>
    <a href="https://example.com/more" id="link2">Enlace 2</a>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser') 
print("Título de la página:", soup.title.string) 
print("Primer párrafo:", soup.p.string)


Título de la página: Ejemplo IABD_LINKIA
Primer párrafo: Hola clase!!!!!!.



### Encontrar elementos con selectores CSS
Encontrar todas las etiquetas `<a>`


In [6]:

all_links = soup.find_all('a')  
print("Todos los enlaces:")
for link in all_links:
    print(f"Texto: {link.string}, URL: {link['href']}")


Todos los enlaces:
Texto: Enlace 1, URL: https://example.com
Texto: Enlace 2, URL: https://example.com/more


 Buscar por atributos y clases

In [7]:
intro_paragraph = soup.find('p', class_='intro')
print(intro_paragraph.text)


Hola clase!!!!!!.


Buscar por (etiqueta, id), y extraer texto y atributos.

In [8]:

link = soup.find('a', id='link1')  # Busca el enlace con id "link1"
print("Texto del enlace:", link.text)
print("URL del enlace:", link['href'])


Texto del enlace: Enlace 1
URL del enlace: https://example.com


### Bs4 + requests


Parsear contenido desde una página web

In [18]:

url = "https://linkiafp.es/master-fp-inteligencia-artificial-big-data-en-madrid/" 
response = requests.get(url)
web_soup = BeautifulSoup(response.text, 'html.parser')
print("Título de la página web:", web_soup.title.string)


Título de la página web:   Máster FP en Inteligencia Artificial y Big Data en Madrid | Linkia FP



### Listas y contenido complejo

Vamos extrayendo poco a poco los datos para extraer lo que necesitamos.

In [26]:
main_div = web_soup.find('div', class_="c-grado_esp_bloque1__container")

In [27]:
print(main_div.prettify())

<div class="c-grado_esp_bloque1__container">
 <div class="c-grado_esp_bloque1__info">
  <div class="c-grado_esp_bloque1__info_title">
   <ul>
    <li>
     <img alt="arrow pink" class="c-grado_esp_bloque1__arrow" data-lazy-src="https://linkiafp.es/wp-content/themes/wpt/images/arrow-right-pink.png" src="data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%200%200'%3E%3C/svg%3E"/>
     <noscript>
      <img alt="arrow pink" class="c-grado_esp_bloque1__arrow" src="https://linkiafp.es/wp-content/themes/wpt/images/arrow-right-pink.png"/>
     </noscript>
     <span>
      Titulación Oficial
     </span>
    </li>
   </ul>
  </div>
  <div class="c-grado_esp_bloque1__info_text">
   <p>
    600 horas
   </p>
  </div>
 </div>
 <div class="c-grado_esp_bloque1__info">
  <div class="c-grado_esp_bloque1__info_title">
   <ul>
    <li>
     <img alt="arrow pink" class="c-grado_esp_bloque1__arrow" data-lazy-src="https://linkiafp.es/wp-content/themes/wpt/images/arrow-right-pi

In [34]:
sections = main_div.find_all('div', class_="c-grado_esp_bloque1__info")

for section in sections:
    print(section.find('span').text+":", section.find('div', class_='c-grado_esp_bloque1__info_text').text.strip())

Titulación Oficial: 600 horas
Duración: 1 año
Horario: Lunes a viernes de 17 a 20h.
Ubicación: MadridC/ Albarracín, 34


In [35]:

complex_html = """
<ul>
    <li>Elemento 1</li>
    <li>Elemento 2</li>
    <li>Elemento 3</li>
</ul>
"""
complex_soup = BeautifulSoup(complex_html, 'html.parser')
items = complex_soup.find_all('li')  
print("Lista de elementos:")
for item in items:
    print(item.text)



Lista de elementos:
Elemento 1
Elemento 2
Elemento 3
