# web scarping

El web scraping es una técnica poderosa que permite extraer datos e información de sitios web de manera automatizada. En lugar de copiar y pegar manualmente la información, el web scraping utiliza programas informáticos, conocidos como "scrapers" o "bots", para navegar por las páginas web, identificar y extraer datos específicos del código HTML, y almacenarlos en un formato estructurado como hojas de cálculo, bases de datos o archivos JSON.

## 1.) Extarer informacion

### 1.1) Que es un pagina web
Las páginas web son documentos digitales estructurados que sirven como la base de la World Wide Web. Más allá de la simple presentación de información, estas páginas se construyen utilizando un lenguaje de marcado llamado HTML (HyperText Markup Language), que define la estructura y el contenido de la página.

HTML utiliza una serie de elementos, representados por etiquetas, para organizar el contenido de una página web. Estas etiquetas indican el tipo de contenido (por ejemplo, texto, imágenes, videos) y su función dentro de la página.

### 1.2) Extraer la información de la pagina web

Para extraer datos de una página web, es imprescindible realizar una solicitud al servidor que la aloja. Esta solicitud desencadena una serie de eventos que permiten obtener el contenido de la página, el cual posteriormente será analizado y procesado para extraer la información deseada.

In [1]:
import requests


web = requests.get('https://es.wikipedia.org/wiki/Alan_Turing')
print(web)


web = requests.get('https://api.gdc.cancer.gov/files/d853e541-f16a-4345-9f00-88e03c2dc0bc')
print(web)

<Response [200]>
<Response [404]>


| Código | Significado |
|---|---|
| 200 OK | La petición ha sido exitosa y la respuesta incluye los datos solicitados. |
| 203 Non-Authoritative Information | La petición fue exitosa, pero la información devuelta proviene de una fuente diferente al servidor original. |
| 204 No Content | La petición fue exitosa, pero no hay contenido para devolver. |
| 206 Partial Content | La petición fue exitosa y la respuesta incluye solo una parte de los datos solicitados. |
| 301 Moved Permanently | El recurso solicitado se ha movido permanentemente a una nueva URL. |
| 302 Found (o 307 Temporary Redirect) | El recurso solicitado se encuentra temporalmente en una URL diferente. |
| 304 Not Modified | El recurso solicitado no ha sido modificado desde la última vez que se solicitó. |
| 400 Bad Request | La petición es incorrecta o no puede ser procesada por el servidor. |
| 401 Unauthorized | Se requiere autenticación para acceder al recurso solicitado. |
| 403 Forbidden | El servidor entiende la petición, pero se niega a autorizarla. |
| 404 Not Found | El recurso solicitado no se encontró en el servidor. |
| 405 Method Not Allowed | El método HTTP utilizado en la petición no está permitido para el recurso solicitado. |
| 408 Request Timeout | El servidor excedió el tiempo de espera mientras esperaba la petición. |
| 410 Gone | El recurso solicitado ya no está disponible en el servidor. |
| 414 URI Too Long | La URI de la petición es demasiado larga para ser procesada por el servidor. |
| 429 Too Many Requests | El usuario ha enviado demasiadas peticiones en un período de tiempo determinado. |
| 500 Internal Server Error | El servidor encontró un error interno y no pudo completar la petición. |
| 501 Not Implemented | El servidor no soporta la funcionalidad requerida para completar la petición. |
| 502 Bad Gateway | El servidor actuando como puerta de enlace o proxy recibió una respuesta inválida del servidor ascendente. |
| 503 Service Unavailable | El servidor no está disponible temporalmente (por ejemplo, por sobrecarga o mantenimiento). |
| 504 Gateway Timeout | El servidor actuando como puerta de enlace o proxy no recibió una respuesta a tiempo del servidor ascendente. |

### Ejercicio

obtenga la infromacion de "https://es.wikipedia.org/wiki/Niels_Bohr" y extraiga los párrafos de html usando regex, recuerde que su señalización usa los indicadores (< p >)

In [2]:
import requests


web = requests.get('https://es.wikipedia.org/wiki/Niels_Bohr')
print(web)

web = requests.get('https://es.wikipedia.org/wiki/Niels_Bohr')
soup = BeautifulSoup(web.text, 'html')

headings = soup.find_all('p')
print(headings)

<Response [200]>


NameError: name 'BeautifulSoup' is not defined

In [4]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')

from bs4 import BeautifulSoup
soup = BeautifulSoup(web.text, 'html')
print(soup)


<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Richard Feynman - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-co

### 1.3.) beautiful soup

Beautiful Soup (BS) es una poderosa librería de Python diseñada para el análisis sintáctico y la extracción eficiente de información contenida en documentos HTML y XML. Su principal objetivo es transformar la compleja estructura de estos documentos en un objeto jerárquico y navegable, conocido como "Sopa". Este objeto permite a los desarrolladores acceder y manipular los datos de manera intuitiva y precisa, utilizando diversas estrategias de búsqueda y filtrado.

In [4]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')

from bs4 import BeautifulSoup
soup = BeautifulSoup(web.text, 'html')
print(soup)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Richard Feynman - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-co

#### 1.3.1) TAGs

la llamda de un objeto dado a la etiqueta HTML

In [5]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')
soup = BeautifulSoup(web.text, 'html')

print(soup.b)


<b>Richard Phillips Feynman</b>


#### 1.3.2) extrar la data de un objeto

In [6]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')
soup = BeautifulSoup(web.text, 'html')

print(soup.title.string)

Richard Feynman - Wikipedia, la enciclopedia libre


#### 1.3.3) extraer elementos por etiqueta

In [7]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')
soup = BeautifulSoup(web.text, 'html')

headings = soup.find_all('h1')
print(headings)

[<h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">Richard Feynman</span></h1>]


#### 1.3.4) extraer elementos por id


In [18]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')
soup = BeautifulSoup(web.text, 'html')

first_headings = soup.find(id = 'firstHeading').get_text()
print(first_headings)

Richard Feynman


#### 1.3.5) extraer elementos por clase

In [None]:
web = requests.get('https://es.wikipedia.org/wiki/Richard_Feynman')
soup = BeautifulSoup(web.text, 'html')

infoboxes = soup.find_all(class_ = 'infobox biography vcard')
print(infoboxes[0])

<table class="infobox biography vcard" style="width:22.7em; line-height: 1.4em; text-align:left; padding:.23em;"><tbody><tr><th class="cabecera persona" colspan="3" style="text-align:center;background-color:transparent;color:inherit;background-color:#8DB1C3;color:#000;">Richard Feynman</th></tr><tr><td class="imagen" colspan="3" style="text-align:center;line-height:1.3em; vertical-align:middle;;">
<span typeof="mw:File"><a class="mw-file-description" href="/wiki/Archivo:RichardFeynman-PaineMansionWoods1984_copyrightTamikoThiel_bw.jpg"><img class="mw-file-element" data-file-height="541" data-file-width="470" decoding="async" height="288" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/RichardFeynman-PaineMansionWoods1984_copyrightTamikoThiel_bw.jpg/250px-RichardFeynman-PaineMansionWoods1984_copyrightTamikoThiel_bw.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/RichardFeynman-PaineMansionWoods1984_copyrightTamikoThiel_bw.jpg/375px-RichardFeynman-PaineMansionWoo

### Ejercicio

Usando el siguiente: https://es.wikipedia.org/wiki/Sistema_Internacional_de_Unidades enlace, extraiga la tabla de las siete unidades básicas:

In [None]:
import requests
import pandas
from bs4 import BeautifulSoup

web = requests.get('https://es.wikipedia.org/wiki/Sistema_Internacional_de_Unidades')
print(web)

soup = BeautifulSoup(web.text, 'html')
table = soup.find_all(class_ = 'wikitable')

pd.
print(headings)

<Response [200]>
[<table class="infobox" style="width: 400px;">
<tbody><tr>
<td style="text-align: center;vertical-align: middle;"><b>Símbolo</b>
</td>
<td style="text-align: center;vertical-align: middle;"><b>Unidad</b></td>
<td style="text-align: center;vertical-align: middle;"><b>Magnitud</b>
</td></tr>
<tr>
<td style="text-align: center;vertical-align: middle;">s
</td>
<td style="text-align: center;vertical-align: middle;"><a href="/wiki/Segundo" title="Segundo">segundo</a></td>
<td style="text-align: center;vertical-align: middle;"><a href="/wiki/Tiempo" title="Tiempo">tiempo</a>
</td></tr>
<tr>
<td style="text-align: center;vertical-align: middle;">m
</td>
<td style="text-align: center;vertical-align: middle;"><a href="/wiki/Metro" title="Metro">metro</a></td>
<td style="text-align: center;vertical-align: middle;"><a href="/wiki/Longitud" title="Longitud">longitud</a>
</td></tr>
<tr>
<td style="text-align: center;vertical-align: middle;">kg
</td>
<td style="text-align: center;ver

## 2.) Interactuar con una pagina web

### 2.1) Selenium

Selenium es un entorno de pruebas de software para aplicaciones basadas en la web. Selenium provee una herramienta de grabar/reproducir para crear pruebas sin usar un lenguaje de scripting para pruebas (Selenium IDE). Incluye también un lenguaje específico de dominio para pruebas (Selenese) para escribir pruebas en un amplio número de lenguajes de programación populares incluyendo Java, C#, Ruby, Groovy, Perl, Php y Python. Las pruebas pueden ejecutarse entonces usando la mayoría de los navegadores web modernos en diferentes sistemas operativos como Windows, Linux y OSX.

In [None]:
!pip install selenium

!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

Hit:1 http://security.ubuntu.com/ubuntu jammy-security InRelease
Hit:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:6 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:7 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Reading package lists... Done
W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)
Reading package lists... Done
Building dependency tree... Done
Reading

### 2.2) cofniguración de selenium

Debemos configurar el entorno gráfico evitando el uso de gestores de ventanas (solo aplica para máquinas virtuales). Para ello usaremos las siguientes opciones:

*  --headles: no abrir ventana
*  --no-sandobox: evitar entornos de desarrollo
*  --disable-dev-shm-usage: evitar red flags

In [None]:
import sys
from selenium import webdriver

sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')

options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

nav = webdriver.Chrome(options = options, )
print(nav)

<selenium.webdriver.chrome.webdriver.WebDriver (session="b78248cf808fa2b120f9e31a8d31e0bb")>


### 2.3) Ingresar a una pagina web


In [None]:
nav.get('https://www.youtube.com/@OpenAI')

### 2.4) acceder a los elementos interactivos
Para acceder a los diferentes elementos de la página web debemos buscarlo teniendo en cuenta algún indicador,  selenimun nos permite utilizar, el tag, el nombre, el ID, la clase, enter otros, para observar todos los métodos de búsqueda consultar la documentación: https://selenium-python.readthedocs.io/locating-elements.html

In [2]:
from selenium.webdriver.common.by import By
import time

nav.get('https://www.youtube.com/@OpenAI')
time.sleep(5)
print(nav.current_url)

search_b = nav.find_element(By.CLASS_NAME, 'style-scope tp-yt-paper-input')
print(search_b)
print()

search_ico = nav.find_element(By.ID, 'icon-button')
print(search_ico)
print()

text_bar = nav.find_element(By.NAME, 'search_query')
print(text_bar)
print()

buttons = nav.find_element(By.TAG_NAME, "button")
print(buttons)
print()


ModuleNotFoundError: No module named 'selenium'

### 2.5) Metodos de interacción

En función de interactuar con la pagina web selenium nos ofrece el manejo de puntero y texto

In [None]:
nav.get('https://www.youtube.com/@OpenAI')
time.sleep(5)
print(nav.current_url)

text_space = nav.find_element(By.NAME, "search_query")
text_space.send_keys('UNAL')
text_space.send_keys('\n')
time.sleep(5)
print(nav.current_url)

play_button = nav.find_element(By.ID, "logo-icon")
play_button.click()
time.sleep(5)
print(nav.current_url)

https://www.youtube.com/@OpenAI
https://www.youtube.com/results?search_query=UNAL
https://www.youtube.com/


### Ejercicio

En este ejercicio usted deberá buscar un video de su ineteres partiendo de la pagina principal de youtube, posteriormente debera navegar hasta la primera opcion y extraer los comentarios del video.