# Web Scraping

## Introducción

El proceso de *scraping* consiste en extraer, copiar o recolectar datos. Hacer scraping de una página web y de recursos provenientes del internet se conoce como *web scraping*.

Los datos son el requisito básico en los campos de la ciencia y la tecnología, así como en la gestión. Estos datos recolectados pueden ser procesados, analizados, compararlos con más datos y también ser entrenados utilizando algoritmos de Machine Learning (ML), con el objetivo de obtener estimaciones e información y con ello ganar nuevo conocimiento.

El web scraping provee de las herramientas y técnicas para recolectar datos de sitios web, tanto para uso personal como empresarial.

En la siguiente figura, ejemplificamos cómo se obtienen datos de distintos sitios basándonos en nuestras necesidades.

![web_scraping.png](attachment:web_scraping.png)

## Entendiendo las tecnologías web

Una página web es un documento electrónico accesible a través de internet que contiene información organizada y presentada de manera visual. 

Las páginas web pueden contener texto, imágenes, videos, programas, enlaces, sonido, documentos e hipervínculos. Estas páginas se pueden conectar entre sí para formar un *sitio web*, un conjunto de páginas interconectadas que se alojan en un dominio específico.

Sin embargo, actualmente las páginas web no sólo son un documento que contiene información. Las tecnologías web han transformado el concepto de página web, con más atributos de seguridad y con la web misma volviéndose una fuente de información dinámica en tiempo real.

Como usuarios, utilizamos buscadores web (*Google Chrome, Mozilla Firefox, Safari*, etc.) como una aplicación para acceder a páginas web.

Actualmente, existen muchas tecnologías que pueden usarse para desarrollar páginas web. Técnicamente, podemos decir que una página web es un documento que contiene bloques de etiquetas HTML (*HyperText Markup Language*). La mayor parte del tiempo, se construyen a con distintos sub-bloques que forman componentes dependientes o independientes de distintas tecnologías, incluyendo *JavaScript* y *CSS* (*Cascading Style Sheets*).

Es importante tener un entendimiento general de los conceptos de páginas web y de las tecnologías que las desarrollan, ya que podremos tener mayor flexibilidad y control en el proceso de scraping. Muchas veces, un desarrollador puede utilizar técnicas de ingeniería inversa para resolver sus problemas.

Por ello, daremos un breve repaso a las tecnologías actuales más utilizadas para el desarrollo web:

### HTTP

Significa *HyperText Transfer Protocol* y es un protocolo de aplicación que transfiere recursos basados en la web, como documentos HTML, entre un *cliente* y un *servidor web*. Los clientes (buscadores web) y los servidoeres se comunican o intercambian información utilizando *HTTP requests* y *HTTP responses*.

![http.png](attachment:http.png)

Este proceso de comunicación es cíclico, y podemos verlo como una serie de "preguntas y respuestas".

Existe otra versión encriptada y más segura del protocolo HTTP, y es *HyperText Transfer Protocol Secure* (*HTTPS*). Utiliza las tecnologías *Secure Sockets Layer (SSL)* y *Transport Layer Security (TLS)* para comunicar contenido encriptado entre un cliente y un servidor. Este tipo de seguridad permite que los clientes compartan información sensible con un servidor de manera segura. 

Actividades como banca en línea, compras en línea y pagos electrónicos utilizan puertos HTTPS para mantener esta información segura.

- Nota: El URL (Uniform Resource Locators) de una petición HTTP comienza como `http://`, mientras que una HTTPS comienza como `https://`.

#### HTTP requests

Los buscadores web envían sus peticiones al servidor. Estas son procesadas utilizando varios métodos, como **GET** y **POST**.

- GET: Es el método más común para solicitar información. Se considera un método seguro ya que el estado del recurso no se ve alterado. Además, se usa para dar query strings, por ejemplo:
``https://www.google.com/search?q=world%20cup%20football&source=hp``, es una solicitud de información de Google basado en `q`:(world cup football) y `source`: los parámetros enviados con la petición. La información o queries (`q` y `source` en este ejemplo) se muestran en la URL.

- POST: Se utiliza para hacer una petición segura al servidor. El estado del contenido solicitado puede ser alterado. Los datos enviados al URL solicitados no son visibles en el URL sino en el cuerpo de la respuesta. Se utiliza para enviar información al servidor de manera segura, como en inicios de sesión y registros de usuario.

Más adelante veremos más de estos métodos. Existen dos partes principales en la comunicación HTTP. Con esta idea básica sobre las peticiones, exploremos las respuestas.

### HTTP responses

El servidor procesa las peticiones, y a veces los encabezados especificados. Cuado las peticiones son recibidas y procesadas, el servidor envía una respuesta al buscador. La mayoría de las veces, las respuestas están en formato HTML, en otras en JavaScript u otro tipo de documentos, en *JavaScript Object Notation* (*JSON*) u otros formatos.

Una respuesta contiene códigos de status, la siguiente lista contiene algunos códigos y su significado:

- **200**: OK, petición exitosa
- **404**: No encontrado, el recurso solicitado no puede ser encontrado.
- **500**: Error interno del servidor.
- **204**: No hay contenido para enviar.
- **401**: Petición no autorizada.

### HTTP cookies

Las *cookies* son datos enviados por el servidor al buscador. Estos datos son generados y almacenados por sitios en tu computadora. Ayuda a identificar peticiones HTTP del usuario al sitio web y contienen información respecto al manejo de inicio de sesiones, preferencias del usuario y su comportamiento.

El servidor se identifica y comunica con el buscador basado en la información almacenada en las cookies. Los datos almacenados ahí ayudan al sitio web a transferir ciertos valores, como el usuario y contraseña, propociando una interacción rápida entre la petición y la respuesta.

### HTTP proxies
 
Un servidor proxy funciona como un intermediario entre un cliente y el servidor web. El buscador web envía peticiones al servidor, pasa por la proxy y la proxy regresa la respuesta del servidor al cliente.

Las proxies se utilizan generalmente para monitoreo de tráfico, en la mejora de desempeño y para la seguridad de recursos de internet. 

Cuando no tenemos acceso a sitios disponibles en nuestra ubicación, (el mensaje de "este contenido no está disponible en tu región"), podemos acceder cambiando a una proxy distinta.

Ya tenemos una idea general de los conceptos relacionados a HTTP.Ahora entenderemos la tecnología que se usa para crear contenido web.

## HTML

Los sitios web están hechos de páginas o documentos que contienen texto, imágenes, hojas de estilo y programas, entre otras cosas. Generalmente se construyen con lenguajes de marcado como **HTML**. 

HTML es el lenguaje de marcado estándar para construir una página web. Desde principios de 1990, HTML se ha utilizado independientemente y en conjunto con lenguajes basados en servidores como PHP, ASP y JSP. 

HTML define y almacena el contenido de una página web. Los datos que buscamos pueden extraerse y ser encontrados dentro de las páginas HTML, dentro de un conjunto de instrucciones predefinidas conocidas como *tags*. Las *tags* son generalmente un marcador para ciertos atributos, por ejemplo `<a>, <b>, <table>, <img>`, etc.

### Elementos y atributos HTML

Los *elementos* HTML (también conocidos como nodos de documento) son los bloques de construcción de los documentos web. Los elementos comienzan con una etiqueta inicial `<...>` y una etiqueta final `/<...>` con cierto contenido dentro de ellos.

Un elemento también puede contener *atributos*, generalmente definidos como:

`attribute-name = attribute-value`

los cuales dan información adicional al elemento.

Por ejemplo:

    <p> Esto es una etiqueta de párrafo </p>

    <h1> Esto es una etiqueta de encabezado!, también lo son h2, h3, h4, h5 y h6</h1>

    <a href="https://www.google.com"> Click aquí para ir a Google</a>

    <img src="src\img\doggy.jpg" width="400" height="600" alt="Perrito" />
    
    <br/>

- `<p>` y `<h1>` son elementos HTML que contienen información en texto. P de "párrafo", H de "header".

- `<a>` se define como un atributo `href` que contiene el link que será procesado al hacer click en el texto "Click aquí para ir a Google".

- La etiqueta `<img>` también contiene algunos atributos, como `src` y `alt` junto a sus valores. `src` aloja el recurso, mientras que `alt` es para el texto alternativo (generalmente se usa cuando hay una conexión lenta o cuando no es posible cargar la imagen). 

- `<br/>` representa un salto de línea en HTML y no tiene atributos o contenido de texto. Se utiliza para insertar una nueva línea en la estructura del documento.

Los elementos de HTML también pueden ser anidados en estructuras anidadas, con una jerarquía padre-hijo:

    <div class="article">
        <p id="mainContent" class="content">
            <b>Perrito de Shrek </b>
            <br/>        
            <img src="src\img\Perrito.png" id="pageLogo" alt="Perrito" class="logo"/>
        </p>
        <p>
            <h3> Web Scraping! </h3>
        </p>
    </div>

En el ejemplo anterior, dos elementos hijo `<p>` se encuentran dentro del bloque `<div>`. Ambos elementos hijos tienen ciertos atributos y ciertos elementos en su contenido. Generalemente los documentos HTML tienen la estructura anterior.

### Atributos globales

 Los elementos HTML contienen información adicional, como pares key-value. También se conocen como atributos de elementos HTML. Dichos atributos contienen valores y dan identificación, o contienen información adicional que puede ser útil en distintos aspectos durante el proceso de scraping, como identificando los elementos web exactos y extraer valores o texto de ellos, así como moverse entre elementos.

 Algunos atributos que son comunes en los elementos HTML son:

 - `id`: Los valores de este atributo deben ser únicos para el elemento al que se aplican

 - `class`: Los valores de este atributo se utilizan sobre todo con CSS, proporcionando opciones de formato de igual estado, y pueden utilizarse con varios elementos

 - `style`: Especifica estilos CSS para un elemento.

 - `lang`: Ayuda a identificar el lenguaje del texto.

 Las tags y los atributos son muy útiles al momento de extraer datos.

## XML 

 *XML (Extensible Markup Language)* es un lenguaje de marcado que permite estructurar y compartir datos en un formato de texto legible para el usuario.  Es un formato simple que representa información de manera estructurada. 
 Se puede usar para almacenar datos como documentos, configuraciones, libros, transacciones, facturas, y más. Permite el intercambio de información entre sistemas de computación, como sitios web, bases de datos y aplicaciones de terceros. Los archivos XML se reconocen por su extensión `.xml`.

XML está diseñado para contener datos que no están almacenados en etiquetas que no están predefinidas con etiquetas HTML. 

En los documentos XML, las etiquetas son creadas por el desarrollador del documento o por un programa automatizado para describir el contenido.

Por ejemplo:

    <empleados>
        <empleado>
            <nombre> Juan Pérez Pérez</nombre>
            <genero> Masculino</genero>
        </empleado>
        <empleado>
            <nombre> Maria Garcia</nombre>
            <genero> Femenino</genero>
        </empleado>
    </empleados>

En este código, el nodo padre `<empleado>` tiene dos nodos hijos `<empleados>`, que a su vez contienen los otros nodos hijos `<nombre>`y `<genero>`.

Muchos sitios utilizan datos en XML, implementando sus contenidos en HTML u otros formatos de documento para que el usuario final los vea. También es posible extraer información de los documentos XML.

## JavaScript

*JavaScript* (también conocida como *JS*) es un lenguaje de programación utilizado para programar HTML y aplicaciones web. JavaScript es preferido para añadir características dinámicas y proveer de interacción basada en el usuario dentro de las páginas web. 

Veamos el siguiente ejemplo:

    <!DOCTYPE html>

    <html>
        <head>
            <script>
            function placeTitle() {
                document.getElementById("innerDiv").innerHTML = "Bienvenido al Web Scraping";
            }
            </script>
        </head>
        <body>
            <div> Presiona el botón: <p id="innerDiv"></p>
            </div>
            <button id="btnTitle" name="btnTitle" type="submit"
            onclick="placeTitle()">
            Load Page Title!
            </button>
        </body>
    </html>

El tag `<script>` contiene la lógica de programación con variables de JavaScript, operadores, funciones, arreglos, loops, condiciones y eventos. 

Esto hace a JavaScript muy popular en el mundo del desarrollo web.

## JSON

*JSON* es un formato utilizado para almacenar y transportar datos de un servidor a una página web. Es independiente de cualquier lenguaje y suele preferirse en el intercambio de datos web debido a su tamaño y a su facilidad de lectura. Los archivos JSON tienen la extension `.json`.

Los datos JSON generalmente tienen el formato `name:value`. Los formatos JSON se pueden expresar como arrays, diccionarios y listas:

    {"perritos": [
        {"nombre": "Scooby",
        "raza": "Gran Danés",
        "color": "Café"},
        {"nombre": "Jake",
        "raza": "Bulldog",
        "color": "Amarillo"},
        {"nombre": "Snoopy",
        "raza": "Beagle",
        "color": "Blanco con negro"}
    ]}

## CSS

*CSS* describe las propiedades a mostrar de los elementos HTML y la apariencia de las páginas web. CSS se utiliza para dar estilo y la apariencia deseada a los elementos HTML.

Usando CSS los desarrolladores y diseñadores pueden controlar el formato y la presentación de un documento web. CSS puede ser aplicado a distintos elementos en una página, o incrustarse como un documento aparte. Los detalles de estilo son contenidos con la etiqueta `<style>`.

Veamos el siguiente ejemplo:

    <html>
    <head>
        <style>
            a{color:blue;}
            h1{color:black; text-decoration:underline;}
            #idOne{color:red;}.classOne{color:orange;}
        </style>
    </head>
    <body>
        <h1>Bienvenidos al Web Scraping! </h1>
        Links:<a href="https://www.google.com">Google</a> &nbsp;
        <a class="classOne" href="https://www.youtube.com"> Youtube</a>
        <a id="idOne" href="https://www.wikipedia.org">Wikipedia</a>
    </body>
    </html>

Los atributos asignados con CSS se encuentran dentro de las tags `<style>`.

Aunque CSS se utiliza para manejar la apariencia de los elementos HTML, los *selectores CSS* (patrones utilizados para seleccionar elementos o la posición de elementos) generalmente juegan un rol importante en el proceso de scraping.

# Python para web scraping

Tenemos una idea general de lo que es el web scraping, cuáles son las tecnologías básicas y su estructura.

Para hacer web scraping necesitamos herramientas y técnicas, Python resulta adecuado debido a su facilidad para aprender y porque tiene un gran número de bibliotecas para comunicarse con el World Wide Web, procesos relacionados a datos y, finalmente, para hacer web scraping.

Especificamente, utilizaremos las bibliotecas `requests` y `urllib`. 

## `requests`

Es una biblioteca de Python basada en HTTP, lanzada en 2011 y sigue siendo una de las más reconocidas entre desarrolladores. 

Respecto a otras librerías HTTP en Python, `requests` es apreciada porque es de fácil lectura, amigable con el desarrollador y con atributos sencillos de utilizar.

### Primeros pasos

Veamos cómo funciona. Primero importamos `requests`.

In [1]:
import requests

Vamos a intentar conectarnos a la página de documentación de la biblioteca.

In [2]:
link = "https://requests.readthedocs.io/"

Ahora utilizamos el método `get()` para hacer una petición a la página.

In [3]:
respuesta = requests.get(link)

In [6]:
type(respuesta)

requests.models.Response

Notemos que `respuesta` es un objeto `Response` de `requests`. Después de realizar una petición podemos acceder a distintos atributos de la misma:

In [7]:
codigo_estado = respuesta.status_code

print(codigo_estado)

200


In [11]:
encabezados = respuesta.headers

print(encabezados)

{'Date': 'Tue, 14 Jan 2025 05:42:58 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'CF-Ray': '901b4e48fa622751-IAH', 'CF-Cache-Status': 'HIT', 'Access-Control-Allow-Origin': '*', 'Age': '328', 'Cache-Control': 'max-age=1200', 'Content-Encoding': 'gzip', 'ETag': 'W/"715dee4405bf186850fd9935935e0edd"', 'Last-Modified': 'Sat, 02 Nov 2024 20:14:04 GMT', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains; preload', 'Vary': 'Accept-Encoding', 'access-control-allow-methods': 'HEAD, OPTIONS, GET', 'cdn-cache-control': 'public', 'referrer-policy': 'no-referrer-when-downgrade', 'x-amz-id-2': 'tPN+azBYRzK+T/++mkN5MxO9t3XsDCr9Tv/cnzFt7KcPWPn2PnA1jzm46KrOVautxcUi2hFXlle6XhukuXgI/cwA8kjKIRNl', 'x-amz-meta-mtime': '1730578427.924560948', 'x-amz-request-id': 'RCP300JCXSBWC9ET', 'x-amz-server-side-encryption': 'AES256', 'x-backend': 'web-ext-theme-i-0e280d6ae9104d6a1', 'x-content-type-options': 'nosniff', 'x-rtd-domain': 'req

In [10]:
codificacion = respuesta.encoding

print(codificacion)

utf-8


También es posible pasar algunos parámetros en la URL con el objetivo de buscar algo en específico en la página.

Supongamos que nos interesa saber cuáles son los repositorios escritos en Python con mayor cantidad de estrellas en GitHub.

In [14]:
params = {'q': 'python', 'sort': 'stars'}

best_repos = requests.get('https://api.github.com/search/repositories', params=params)


Adicionalmente, para mejor lectura podemos generar un archivo con la información obtenida:

In [16]:
f = open('mejores_repositorios.txt', "wb")
f.write(best_repos.content)
f.close()

La respuesta está ahora disponible como un archivo de texto, y puede sernos útil de distintas formas.

También es posible trabajar con archivos JSON.

In [23]:
respuesta_json = requests.get("https://jsonplaceholder.typicode.com/posts").json()

respuesta_json[1:3]

[{'userId': 1,
  'id': 2,
  'title': 'qui est esse',
  'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'},
 {'userId': 1,
  'id': 3,
  'title': 'ea molestias quasi exercitationem repellat qui ipsa sit aut',
  'body': 'et iusto sed quo iure\nvoluptatem occaecati omnis eligendi aut ad\nvoluptatem doloribus vel accusantium quis pariatur\nmolestiae porro eius odio et labore et velit aut'}]