## 1.  ¿Cómo se instala Beautiful Soup en el servidor de Python de Google Colab?
El paquete Beautiful Soup ya viene instalado por defecto en Google Colab, por tanto cuando ejecutamos el comando:

In [None]:
!pip install beautifulsoup4



Vemos que nos responde con "Requirement already satisfied". Por tanto, tendremos solamente que invocatlo con el código:

In [None]:
from bs4 import BeautifulSoup

##2. ¿Cuáles son los tipos de objetos que maneja la librería? Descríbelos utilizando los tipos básicos de Python (cadenas, números, listas, diccionarios y tuplas) cuando sea posible.

Hay cuatro tipos de objeto: tag, NavigableString, BeautifulSoup y Comment.

Un objeto tag corresponde a una
etiqueta de XML o HTML del documento original. Las tags se pueden usar como diccionarios para encontrar sus atributos. Si tenemos una etiqueta como por ejemplo


```
<b id="boldest">
```




Podemos acceder a sus atributos como si se tratara de un diccionario:


```
tag ["id"]
```



O incluso podemos acceder directamente a ese diccionario con .attrs:

```
tag.attrs
# {u'id': 'boldest'}
```
También se pueden añadir, quitar y modificar los atributos como si fuera un diccionario.

 Los atributos que tienen varios valores se representan en Beautiful Soup como si fueran una lista, entre corchetes.

La NavigableStrings se corresponden con el texto que contiene una etiqueta. Funciona de la misma manera que una cadena Unicode de python. Si queremos unas una NavigableString fuera de Beautiful Soup tendremos que invocar unicode() para convertirla en una string normal de Python.

El objeto BeautifulSoup representa el documento analizado en su totalidad.

El objeto Comment es un tipo especual de NavigableString. Cuando aparece en un documento HTML se representa con un formato especial: entre <!-- -->. Sirve para hacer anotaciones del código sin que aparezca en el resultado del html. Funcionan de la misma manera que los comentarios en Python, se representan de igual manera: #.



##3. Escribe el código necesario para cargar un HTML desde una URL y, por otro lado, el código necesario para cargarlo desde un documento HTML disponible en el propio servidor (puedes subirlo, que es la opción más sencilla, o dar acceso desde Google Colab a tu Drive).

In [None]:
# Cargar un HTML desde una URL

# invocamos la librería requests para poder obtener el contenido de la página web
import requests

# creamos una variable con la url que nos interesa
url = "https://www.meneame.net/"
# añadimos la cabecera con los datos de nuestro navegador
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}

# usamos la función get del paquete request para obtener el contenido del html
# strip() nos quita los espacios innecesarios que pueda haber
response = requests.get(url.strip(),headers =headers)

# creamos la variable soup y ya podremos trabajar con las herramientas de Beautiful Soup en el texto de la URL.
soup = BeautifulSoup(response.text, 'html.parser')

soup

<!DOCTYPE html>

<html lang="es">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=0" name="viewport"/>
<title>
                  Menéame - La portada de noticias elegida por los usuarios
            </title>
<meta content="Menéame es tu lugar para informarte, donde las noticias de portada las eligen los usuarios" name="description"/>
<link href="/" rel="canonical"/>
<link href="https://fonts.googleapis.com/css?family=Inter:100,200,400,500,600,700,900" rel="stylesheet"/>
<link href="https://v2.mnmstatic.net/build/app.c3c21432.css" rel="stylesheet"/>
<script defer="" src="https://v2.mnmstatic.net/build/runtime.ec2b70cf.js"></script><script defer="" src="https://v2.mnmstatic.net/build/955.2a6f096a.js"></script><script defer="" src="https://v2.mnmstatic.net/build/981.1c24f8ae.js"></script><script defer="" src="https://v2.mnmstatic.net/build/557.f71194be.js"></script><script defer="" src="https://v2.mnmstatic.net/build/app.b2

In [None]:
# Cargar un documento HTML disponible en el propio servidor

# usamos la función with as para abrir el documento, entre paréntesis le indicamos la ruta y después creamos una variable en la que se almacene el documento html
with open ("/content/meneame.html") as documento:
  soup = BeautifulSoup(documento)

soup

<!DOCTYPE html>
<html lang="es">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=0" name="viewport"/>
<title>
                  Menéame - La portada de noticias elegida por los usuarios
            </title>
<meta content="Menéame es tu lugar para informarte, donde las noticias de portada las eligen los usuarios" name="description"/>
<link href="/" rel="canonical"/>
<link href="https://fonts.googleapis.com/css?family=Inter:100,200,400,500,600,700,900" rel="stylesheet"/>
<link href="https://v2.mnmstatic.net/build/app.c3c21432.css" rel="stylesheet"/>
<script defer="" src="https://v2.mnmstatic.net/build/runtime.ec2b70cf.js"></script><script defer="" src="https://v2.mnmstatic.net/build/955.2a6f096a.js"></script><script defer="" src="https://v2.mnmstatic.net/build/981.1c24f8ae.js"></script><script defer="" src="https://v2.mnmstatic.net/build/557.f71194be.js"></script><script defer="" src="https://v2.mnmstatic.net/build/app.b24

## 4. ¿Para qué sirve el atributo *children*?


El atributo children sirve para acceder a los hijos de una etiqueta de un documento analizado HTML. Estos "children" no incluyen los elementos que puedan estar anidados dentro de ellos, son solo los elementos directamente dentro de una etiqueta. Lo que nos devuelve el atributo children es un generador iterable (por ejemplo, con un bucle for) para recorrer  los hijos directos de un objeto en el orden en que aparecen en el documento.

## 5. ¿Para qué sirve el atributo *parent*?

El atributo parent nos sirve para ir hacia arriba en el esquema de html. Cada etiqueta y cada cadena tiene un padre (parent), que es la etiqueta que lo contiene. Para acceder al padre de un elemento usamos el atributo .parent.

También podemos iterar sobre los elementos padre.

## 6. ¿Con qué atributos es posible navegar entre nodos hermanos?

Podemos navegar entre nodos hermanos con los atributos .next_sibling y .previous_sibling.

##7. ¿Es posible filtrar una lista de elementos? Si es posible, escribe el código necesario para extraer los elementos *p* y *table* de un documento HTML.

Sí, es posible filtrar una lista de elementos mediante el argumento find_all().

In [None]:
#Ejemplo de HTML

#creamos un documento html que contenga p y table
html_doc = """
<html>
  <body>
    <p>Párrafo 1 ejemplo</p>
    <p>Párrafo 2 ejemplo</p>
    <table style="width:100%">
      <tr>
        <td>fila 1, columna 1 </td>
        <td>fila 1, columna 2</td>
        <td>fila 1, columna 3</td>
        <td>fila 1, columna 4</td>
        <td>fila 1, columna 5</td>
        <td>fila 1, columna 6</td>
      </tr>
      <tr>
        <td colspan="2">fila 2, columna 1 y 2</td>
        <td colspan="3">fila 2, columna 3, 4 y 5</td>
        <td rowspan="2">fila 2, y 3 columna 6</td>
      </tr>
      <tr>
        <td>fila 3, columna 1</td>
        <td>fila 3, columna 2</td>
        <td>fila 3, columna 3</td>
        <td>fila 3, columna 4</td>
        <td>fila 3, columna 5</td>
      </tr>
    </table>
  </body>
</html>
"""
#importamos la librería
from bs4 import BeautifulSoup

#creamos una objeto BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

#Filtramos los elementos <p> con .find_all
parrafos = soup.find_all("p")

#Filtramos los elementos <table>
tabla = soup.find_all("table")

#Imprimimos los elementos <p> mediante un bucle for
for p in parrafos:
  print("Párrafos <p>:", p.text)

#Imprimimos los elementos <table>
for t in tabla:
  print("Tabla:", t)

Párrafos <p>: Párrafo 1 ejemplo
Párrafos <p>: Párrafo 2 ejemplo
Tabla: <table style="width:100%">
<tr>
<td>fila 1, columna 1 </td>
<td>fila 1, columna 2</td>
<td>fila 1, columna 3</td>
<td>fila 1, columna 4</td>
<td>fila 1, columna 5</td>
<td>fila 1, columna 6</td>
</tr>
<tr>
<td colspan="2">fila 2, columna 1 y 2</td>
<td colspan="3">fila 2, columna 3, 4 y 5</td>
<td rowspan="2">fila 2, y 3 columna 6</td>
</tr>
<tr>
<td>fila 3, columna 1</td>
<td>fila 3, columna 2</td>
<td>fila 3, columna 3</td>
<td>fila 3, columna 4</td>
<td>fila 3, columna 5</td>
</tr>
</table>


In [None]:
#Más maneras de hacerlo:

soup.find_all(["table", "p"])

#De esta segunda manera hacemos una lista de manera que find_all encuentre todos los elementos que contengan las etiquetas de la lista

[<p>Párrafo 1 ejemplo</p>,
 <p>Párrafo 2 ejemplo</p>,
 <table style="width:100%">
 <tr>
 <td>fila 1, columna 1 </td>
 <td>fila 1, columna 2</td>
 <td>fila 1, columna 3</td>
 <td>fila 1, columna 4</td>
 <td>fila 1, columna 5</td>
 <td>fila 1, columna 6</td>
 </tr>
 <tr>
 <td colspan="2">fila 2, columna 1 y 2</td>
 <td colspan="3">fila 2, columna 3, 4 y 5</td>
 <td rowspan="2">fila 2, y 3 columna 6</td>
 </tr>
 <tr>
 <td>fila 3, columna 1</td>
 <td>fila 3, columna 2</td>
 <td>fila 3, columna 3</td>
 <td>fila 3, columna 4</td>
 <td>fila 3, columna 5</td>
 </tr>
 </table>]

##8. ¿Es posible filtrar elementos por el valor de sus atributos? Si es posible, escribe el código necesario para extraer un párrafo (esto es, un elemento *p*) cuyo atributo *id* tenga el valor* p1*.

Sí, es posible filtrar elementos por el valor de los atributos. Se hace añadiendo a .find_all el id del atributo que estemos buscando.

In [None]:
#creamos un html sencillo
html_doc2 = """
<html>
  <body>
    <p id="p1">Párrafo 1 ejemplo</p>
    <p id="p2">Párrafo 2 ejemplo</p>
  </body>
</html>
"""

#importamos la librería
from bs4 import BeautifulSoup
#creamos el objeto en beautiful soup
soup = BeautifulSoup(html_doc2,"html.parser")
#usamos find_all con el id que queramos filtrar
soup.find_all(id = "p1")


[<p id="p1">Párrafo 1 ejemplo</p>]

##9. ¿Es posible borrar una etiqueta junto con su contenido de un documento HTML? Si es posible, escribe el código necesario para borrar un enlace (etiqueta *a*) de un HTML sencillo.

Sí, es posible eliminar un etiqueta y su contenido usando tag.decompose() con la etiqueta que queramos borrar.

In [None]:
# html de ejemplo

html = """
<html>
  <body>
    <p> Este enlace te llevará a <a href= https://es.wikipedia.org/wiki/Wikipedia:Portada>wikipedia</a>
    <p> Segundo párrafo </p>
  </body>
</html>
"""
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
soup.a.decompose()
soup


<html>
<body>
<p> Este enlace te llevará a 
<p> Segundo párrafo </p>
</p></body>
</html>

#10. ¿Es posible procesar documentos XML con *BeautifulSoup*? Si es posible, escribe los comandos de instalación de los paquetes necesarios y el código necesario para cargar un documento XML.

Para procesar documentos XML con BeautifulSoup tenemos que tener instalado lxml. En este caso, Google Colab ya lo trae instalado de serie ya que al realizar el comando de instalación nos responde con: "requirement already satisfied". Tendremos solo que invocarlo

In [None]:
!pip install lxml



In [None]:
# creamos el documento xml de ejemplo
xml_docu = """
<raiz>
  <elemento1> Primer elemento </elemento1>
  <elemento2> Segundo elemento </elemento2>
</raiz>
"""

# creamos un objeto xml con BeautifulSoup
soup = BeautifulSoup(xml_docu, "xml")

soup


<?xml version="1.0" encoding="utf-8"?>
<raiz>
<elemento1> Primer elemento </elemento1>
<elemento2> Segundo elemento </elemento2>
</raiz>