### **Fundamentos de Beautiful Soup**

En este video, aprendemos los conceptos básicos de Beautiful Soup. Beautiful soup es la librería python más fácil de usar para hacer web scrapping. Puede extraer datos de HTML en archivos XML. Sin embargo, Beautiful Soup tiene algunas dependencias, como la necesidad de la biblioteca "request" para hacer peticiones al sitio web y el uso de parser externo para estructurar los datos. Por ejemplo, parser XML y HTML. Estas dependencias complican la transferencia de código entre proyectos. Por eso Beautiful Soup no es la primera opción para grandes proyectos de web scrapping. 

Para scrapear sitios web con Beautiful soup, primero tenemos que importar dos librerías, importar "BeautifulSoup" de "bs4" y también importar "requests". 

Ahora algunos de los pasos típicos a seguir para scrapear un sitio web con Beautiful soup son obtener la página, obtener el contenido de la página y luego crear una soup. Para obtener una página tenemos que escribir "requests.get" y luego entre paréntesis el sitio web, por ejemplo, "google.com". Cuando envías requests a sitios web, obtienes una respuesta, en este caso, la nombro como variable "result". Luego para obtener el contenido de este sitio web, escribimos "result.text" con esto obtendremos ese código HTML detrás del sitio web. Por último, tenemos que crear un objeto "soup" para localizar elementos con Beautiful soup. Para ello, tenemos que parsear (estructurar) el contenido. Así que en este caso, escribimos el parser "lxml", para parsear el contenido. 


In [5]:
# Obtención de la página (obtención de un objeto respuesta)
from bs4 import BeautifulSoup
import requests

result = requests.get("http://www.google.com")

# Contenido de la página
contenido = result.text

# Crear un soup
soup = BeautifulSoup(contenido, "lxml")

soup

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="es-419"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="v4JjWFHwsFnkd8sZa9WeNw">(function(){var _g={kEI:'SXPPZcX4IM3H5OUPrcOwgAw',kEXPI:'0,1365467,207,2414,2390,1132070,1963,1195757,1022,379749,44798,23792,12312,17587,4998,17075,38444,2872,2891,4140,4209,3405,606,29843,825,19391,13245,13721,20583,4,57402,2215,27044,6630,7596,1,42154,2,38003,1758,6700,31122,4568,6255,24673,33064,2,2,1,26632,8155,23351,22435,9779,42459,20198,73179,3030,15816,1804,21011,5397,8585,12089,477,1155,22864,28193,5215444,2,1643,389,74,49,5990949,1861,412,2806254,31650,3,127,1,9,1,2,1,75,8,363,25,9,7443186,19234367,1305642,14297,2376,43886,3,1603,3,499,3,2121276,2585,22636438,392913,12799,8408,10755,148,5762,13023,4428,1225,7441,5,1905,5878,14606,2849,7650,5887,1923,3479,4823,286,23

Tras esto deberíamos obtener el objeto "soup" que nos ayudará a localizar cualquier elemento que queramos. Por ejemplo, si queremos localizar un elemento por el "ID", escribimos "soup.find" y dentro de paréntesis especificamos el argumento "ID" y dentro de comillas, escribimos el valor del ID.

In [None]:
soup.find(id="specific_id")

Ahora si queremos localizar un elemento por el nombre de la clase, escribimos "soup.find" y dentro de paréntesis el primer argumento debe ser el nombre de la etiqueta. Así que escribimos el nombre de la etiqueta entre comillas. En el segundo argumento debe estar el nombre de la clase, así que escribimos "class_=" y luego dentro de las comillas, escribimos el valor del nombre de la clase. 

In [None]:
soup.find('tag', class_="nombre_clase")

Ahora para ver algunos ejemplos, revisemos este código HTML básico que hemos visto antes. Así que tiene un artículo como raíz, en ``<h1>``, ``<p>`` y ``<div>`` como elementos atados. Digamos que queremos localizar el elemento "article" por su nombre de clase, así que deberíamos escribir

In [None]:
<article class="main-article">
    <h1> Titanic 1997 </h1>
    <p class="plot"> 84 years later ... </p>
    <div class="full-script"> 13 meters. You ... </div>
</article>

In [7]:
soup.find('article', class_="main_article")

¿Y si queremos localizar el elemento ``<h1>``? No tiene ID ni nombre de clase. De todas formas, aún podemos localizarlo:

In [None]:
soup.find('article', class_="main_article")
soup.find('h1')

Así que en caso de que no tengas ese ID o la clase, todavía puedes localizar un elemento por su nombre de etiqueta.

Ahora si queremos localizar múltiples elementos por su nombre de etiqueta, tenemos que usar "**`find_all`**" en lugar de "**`find`**". Así que vamos a imaginar que tenemos múltiples elementos ``<h2>`` para que podamos localizar a todos ellos escribiendo:

In [None]:
soup.find_all("h2") # -------------> List [a,b,c,d]

Ten en cuenta que "find_all" devuelve una lista mientras que "find" sólo devuelve un elemento. Esto ocurre porque find_all obtiene múltiples elementos por lo que todos los elementos se almacenarán en una lista. Para trabajar con esos elementos probablemente tendrás que utilizar un bucle for