# **Web scraping application with Python using Scrapy**

### **Extracting current world population data from a website**

<img src='./img/portada_scrapy.jpg'>

### **Consideraciones legales y éticas**

Esta publicación no trata sobre cómo extraer datos de una página web con fines ilegales.

Hay que asegurarse de tener permiso antes de extraer ciertos tipos de datos que puede violar los términos del servicio o incluso regulaciones legales:

- Revise los términos de uso de la página web en relación a los permisos de extracción de datos.
- Priorice el uso de las APIs, si están disponibles, ya que proporcionan acceso legal a los datos.
- Póngase en contacto directamente con el propietario de la página web para comprobar el permiso de extracción de datos.

### **Introducción**

En este proyecto, veremos cómo se pueden obtener las poblaciones actuales de los diferentes países o territorios dependientes del mundo, aplicando Scrapy. Además de la población, también obtendremos datos como:
- Porcentaje de cambio anual.
- Cambio Neto.
- Densidad de población.
- Superficie terrestre.
- Número de migrantes (neto).
- Tasa de fertilidad.
- Edad media.
- Porcentaje de población urbana.
- Porcentaje de población que representan en el mundo.

Estos datos han sido elaborados por las Naciones Unidas (Departamento de Asuntos Económicos y sociales, División de Población) y publicados por [Worldometers](https://www.worldometers.info/).

### **Conocimientos previos sobre Scrapy**

Scrapy es uno de los frameworks más potentes para realizar web scraping utilizando Python. Está diseñada para la extracción de datos a gran escala, de forma rápida y eficiente. 

El proceso implica realizar solicitudes HTTP a páginas web, analizar el contenido HTML devuelto y extraer la información requerida.


**Características del Scrapy**

- *Rendimiento y eficiencia*: Está diseñado para ser rápido y eficiente, ya que maneja múltiples solicitudes en paralelo de manera asíncrona utilizando Twisted, un motor de red asincrónica, lo que lo hace extremadamente rápido.

- *Contenido dinámico*: los sitios web con contenido cargado dinámicamente mediante JavaScript pueden ser difíciles de extraer, ya que los datos que necesita podrían no estar presentes en la respuesta HTML inicial.

- *Arquitectura extensible*: Scrapy tiene una arquitectura basada en middleware que permite personalizar el proceso de scraping fácilmente.

- *Control de flujo de datos*: Permite manejar las solicitudes y las respuestas de una manera estructurada, filtrando datos y manejando errores sin detener el proceso.

- *Soporte para politeness*: Scrapy puede respetar las reglas de robots.txt, lo que permite ajustar la frecuencia de las solicitudes para no sobrecargar los servidores web. Muchos sitios web tienen defensas contra el scraping, como el bloqueo de las direcciones IP de los clientes que realizan demasiadas solicitudes en un período corto.

- *Fácil integración con herramientas de almacenamiento*: Puedes guardar los datos extraídos en varios formatos como JSON, XML, CSV, o directamente en bases de datos SQL o NoSQL.

- *Integración con otras herramientas*: Se puede integrar con bases de datos, servicios en la nube y herramientas como Splash o Selenium para manejar contenido dinámico generado con JavaScript.

- *Gestión de Cookies y Sesiones*: Maneja automáticamente las cookies y mantiene sesiones durante el scraping.

**Arquitectura modular del Scrapy**

- *Spiders*: Son clases donde definimos cómo Scrapy debe navegar por un sitio web y extraer datos. Aquí especificamos la URL que se debe rastrear y cómo extraer la información. 

- *Crawlers* (rastreadores): son responsables de iniciar el proceso de scraping y gestionar las solicitudes hacia los diferentes sitios web. Scrapy incluye un administrador de rastreadores muy eficiente.

- *Selectors*: Utilizan XPath o CSS para localizar y extraer datos específicos de las páginas web.

- *Item*: es un contenedor donde se almacenan los datos que has extraído. Es una representación de los datos de un sitio web.

- *Pipeline*: Procesa los datos extraídos que han sido definidos en los items, permitiendo limpiar, validar y almacenar la información.

- *Middlewares*: Permiten personalizar el comportamiento de Scrapy. Son componentes que nos permiten modificar o personalizar las solicitudes y las respuestas en el proceso de scraping. Scrapy tiene middlewares para manejar cookies, cabeceras, user agents, y proxies, entre otras cosas.

**Flujo de trabajo en Scrapy**

- *Inicio del spider*: El spider comienza con una lista de URLs que se definirán en `start_urls` o a través de una función `start_requests`.

- *Solicitudes de URLs*: El spider envía solicitudes HTTP a las URLs especificadas. Scrapy descarga las páginas y las pasa a la función `parse`.

- *Extracción de datos*: En la función `parse`, el spider analiza el contenido de la página y extrae los datos que se necesitan utilizando `selectores de XPath o CSS`. Estos datos se almacenan en `items`.

- *Procesamiento de datos*: Los datos extraídos pasan por `pipelines` de procesamiento, donde se pueden limpiar, validar y almacenar en el formato deseado.

- *Navegación de enlaces*: Si la página contiene más enlaces que el spider debe visitar, estas URLs se envían nuevamente a Scrapy para continuar el proceso de scraping de manera recursiva.

**Scrapy Shell**

El Scrapy Shell es una característica muy útil para depurar y probar selectores en el proceso de scraping. Es una consola interactiva en la que puedes cargar una página y experimentar con las consultas antes de escribir el spider completo. Por ejemplo, puedes usar selectores CSS o XPath directamente en la consola para verificar que extraen la información correcta:

`scrapy shell 'http://ejemplo.com/page/1/'`

**Casos de uso**

- Extracción de precios de productos en sitios de e-commerce.
- Monitorización de sitios web para la detección de cambios en el contenido.
- Extracción de datos de investigaciones en grandes bases de datos públicas.
- Análisis de datos sociales para recopilar información desde foros, redes sociales, etc.

**Desafíos y consideraciones éticas**

- *Bloqueo de scraping*: Muchos sitios web utilizan mecanismos para bloquear bots, como CAPTCHAs, bloqueos por IP, o scripts de JavaScript. Para resolver esto, Scrapy permite integrar proxies rotativos y manejar cookies de forma avanzada.
- *Legales y éticas*: Es importante respetar los términos de uso de los sitios web y las reglas de robots.txt, ya que algunos sitios prohíben o limitan el scraping. Asegúrate de que tienes permiso para extraer y utilizar los datos.

### **Instalación de dependencias**

A continuación se muestran las librerías necesarias para la ejecución del código creado:

- ipykernel : kernel de Jupyter necesario para ejecutar Python.
- tqdm : herramienta útil para crear barras de progreso en bucles.
- joblib : biblioteca que permite la serialización de objetos Python.
- scipy : biblioteca para el cálculo avanzado que permite manipular y visualizar datos de alto nivel.
- pandas : biblioteca escrita sobre Numpy para la manipulación y el análisis de datos.

Ejecutamos en la terminal el siguiente código:

`pip install ipykernel tqdm joblib scipy pandas`


### **Instalación de Scrapy**

Estoy trabajando en un entorno conda en el que ya está instalado python, en concreto la versión 3.12.2.

Para instalar scrapy ejecutamos:

`pip install scrapy`

Podemos comprobar que la instalación fue exitosa mirando la versión instalada. En mi caso es la versión 2.11.2:

`scrapy version`

### **Archivo robots.txt**

En este archivo están las categorías que están dehabilitadas en la web.

En el navegador escribimos: https://www.worldometers.info/robots.txt y obtenemos:

<img src = './img/robots.jpg' windth = 800>

Eso quiere decir que este archivo no existe en esta página y por lo tanto no tiene nada deshabilitado. Podemos acceder a cualquier dato de la página web.

En caso de que sí hubiesen categorías deshabilitadas, scrapy usaría el archivo robots.txt para evitar tener problemas legales.

### **Comenzamos el proyecto**

En la terminal nos ubicamos en la ruta en la que queremos crear la carpeta que contendrá nuestro proyecto y ejecutamos:

`scrapy startproject población_mundial`

Se creará una carpeta cuya estructura interior tendrá el siguiente aspecto:

<img src = './img/estructura_scrapy.jpg' windth = 800>

Vemos qué es cada uno de los archivos que se han creado:

- `scrapy.cfg`: el archivo de configuración del proyecto.
- `items.py`: archivo de elementos del proyecto, define los modelos para los datos extraídos.
- `middlewares.py`: archivo de middleware del proyecto, que se conecta al procesamiento de solicitud/respuesta de Scrapy.
- `pipelines.py`: archivo de pipelines del proyecto, procesa los elementos después de que hayan sido raspados por el spider.
- `settings.py`: Archivo de configuración del proyecto, configura los ajustes para su proyecto Scrapy.
- `spiders/`: Directorio donde almacenarás tus spiders.

Algo muy importante es que comprobemos que en el archivo "settings.py" la opción "ROBOTSTXT_OBEY" esté activada, para que scrapy tenga en cuenta el archivo "robots.txt" antes de comenzar el web scraping.

<img src = './img/settings.jpg' width = 800>

### **Inspección de la web**

Con el lenguaje de XPath (consola JavaScript) vamos a ver cómo extraemos la información.

Abrimos la página de la que queremos extraer los datos: 'https://www.worldometers.info/world-population/population-by-country/'

Inspeccionando la web, podemos observar que nuestra tabla de datos se encuentra dentro de la etiqueta `<table>` y que tiene dos partes un "head" y un "body".

<img src = './img/table.jpg' windth = 800>

Dentro del "head" nos encontramos con un `<tr>` ya que el head sólo tiene una fila y en el interior del mismo nos encontramos con 12 `<th>` que es cada una de las columnas que tiene el encabezado de la tabla.

Dentro del body nos encontramos con 234 `<tr>` que es el número de filas que tiene el body y dentro de cada uno de ellos hay 12 `<td>` que son el número de columnas.

Para localizar los elementos de una página web, Scrapy dispone de dos métodos: XPath y los selectores CSS. En este artículo haremos uso de los XPath.

Para localizar los XPath de los elementos: botón derecho sobre el elemento, copiar/copiar XPath. Por ejemplo si queremos localizar el pais de la India, obtenemos:

`//*[@id="example2"]/tbody/tr[1]/td[2]/a`

<img src = './img/copiar_xpath.jpg' windth = 800>

Vamos a la consola javascrip y definimos el XPath para ver que nos devuelve el resultado correcto:

<img src = './img/consola_xpath.jpg' windth = 800>

### **Definimos los XPath**

**Nombre de las columnas**

`$x('//table//thead//tr//th//text()').map(elm => elm.wholeText)`

Resultados que me devuelve la consola:

['#', 'Country (or dependency)', 'Population', ' (2024)', 'Yearly', ' Change', 'Net', ' Change', 'Density', ' (P/Km²)', 'Land Area', ' (Km²)', 'Migrants', ' (net)', 'Fert.', ' Rate', 'Med.', ' Age', 'Urban', ' Pop %', 'World', ' Share']

Vemos que posteriormente vamos a tener que manipular esta lista ya que me devuelve los nombres de las columnas, pero tengo que juntar algunos.

**Valores de las filas**

Primer fila:

`$x('//table//tbody//tr[1]//td//text()').map(elm => elm.wholeText)`

Resultados que me devuelve la consola:

['1', 'India', '1,450,935,791', '0.89 %', '12,866,195', '488', '2,973,190', '-630,830', '2.0', '28', '37 %', '17.78 %']

Cuarta fila:

`$x('//table//tbody//tr[4]//td//text()').map(elm => elm.wholeText)`

Resultados que me devuelve la consola:

['4', 'Indonesia', '283,487,931', '0.82 %', '2,297,864', '156', '1,811,570', '-38,469', '2.1', '30', '59 %', '3.47 %']



### **Creación del spider**

Crearemos el spider para extraer información de la web.

En la terminal vamos al directorio "spiders" ejecutando el código:

`cd población_mundial/población_mundial/spiders`

Creamos el spider:

`echo. > spider_poblacion.py`

Dentro definimos la clase "poblacionmundial" y las funciones necesarias para poder utilizarla. Vemos el contenido final del spider:

In [None]:
import scrapy
import os
from csv import DictWriter 

def append_header_as_row(file_name, field_names):
    """ 
    Abre un csv y agrega los nombres de las columnas (headers)
    file_name es el nombre del csv que abrimos y
    field_names son los headers que añadimos como una lista
    """
    # Compruebo si el archivo existe
    file_existe = os.path.isfile(file_name)
    
    # Si existe, se elimina
    if file_existe:
        os.remove(file_name)
        print(f'Archivo {file_name} eliminado.')       

    # Abre el archivo en modo 'append'
    with open(file_name, 'a+', newline='', encoding='utf-8') as write_obj:
        # Crea un objeto 'writer' desde el módulo csv
        dict_writer = DictWriter(write_obj, fieldnames=field_names)
        # Añade la cabecera al objeto
        dict_writer.writeheader()  
        
def append_dict_as_row(file_name, dict_of_elem, field_names):
    """ 
    Abre un csv y agrega una fila en forma de diccionario en el csv
    file_name es el nombre del csv que abrimos,
    dict_of_elem es un dictado con los elementos de la fila que se va a añadir al final del csv
    y field_names son los nombres de las columnas (headers)
    """
    # Abre el archivo en modo 'append'
    with open(file_name, 'a+', newline='', encoding='utf-8') as write_obj:
        # Crea un objeto 'writer' desde el módulo csv
        dict_writer = DictWriter(write_obj, fieldnames=field_names)
        #  Añade un diccionario de filas al csv
        dict_writer.writerow(dict_of_elem)


class poblacionmundial(scrapy.Spider):
    
    name = 'pob_mundial' # nombre del spider
    #custom_settings = {'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7'} # activarlo si da problemas
    start_urls= ["https://www.worldometers.info/world-population/population-by-country/"] # Lista de URL desde las que comienza el scraper
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3" # usamos un user-agent para que amazon no nos bloquee (sino obtendríamos un error 503). Se pueden añadir otros.
    }
    custom_settings = {
        #'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7',
        #'FEED_URI': 'población_mundial_2024.csv', # nombre del archivo donde se guardan los datos
        #'FEED_FORMAT': 'csv', # formato del archivo
        'ROBOTSTXT_OBEY': True, # validamos el archivo robots.txt
        #'FEED_EXPORT_ENCODING': 'utf-8' # codificación usada en la exportación
    }

    
    def parse(self, response):
        """ 
        Es la función que hará el análisis y obtendrá los datos
        """
        
        # Extraer cabeceras de la tabla
        columnas = response.xpath('//table//thead//tr//th//text()').getall()
        columnas = [columnas[0]] + [columnas[1]] + [columnas[2]+columnas[3]] + [columnas[4]+columnas[5]] + [columnas[6]+columnas[7]] + [columnas[8]+columnas[9]] + [columnas[10]+columnas[11]] + [columnas[12]+columnas[13]] + [columnas[14]+columnas[15]] + [columnas[16]+columnas[17]] + [columnas[18]+columnas[19]] + [columnas[20]+columnas[21]]
               
        append_header_as_row(
            file_name = 'población_mundial_2024.csv',
            field_names = columnas
            )
        
        # Extraer las filas de la tabla
        table = response.xpath('//table//tbody//tr')
        
        for tb in table:
            row_data = tb.xpath('.//td//text()').getall()            
            row_data = [data.strip() for data in row_data] # limpia los espacios en blanco
            
            if len(row_data) == len(columnas):
                dictionary = dict(zip(columnas, row_data))
                append_dict_as_row(
                    file_name = 'población_mundial_2024.csv', 
                    dict_of_elem = dictionary, # diccionario de valores
                    field_names = columnas   # nombres de las columnas     
                )

### **Ejecución del spider**

Volvemos a la raiz de la carpeta del proyecto:

`cd..`

Y ejecutamos el spider utilizando el nombre con que lo hayamos definido. En nuestro caso "name = 'pob_mundial'":

`scrapy crawl pob_mundial`

El spider inspeccionará la página web en busca de los elementos que le he pedido a través de los XPath y con la función **parse** extraerá los datos y los guardará en un archivo csv.

### **Cargar en un DataFrame**

Cargamos el archivo en un DataFrame para visualizar mejor los resultados

In [1]:
import pandas as pd

In [2]:
pd.read_csv('./poblacion_mundial/población_mundial_2024.csv')

Unnamed: 0,#,Country (or dependency),Population (2024),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,1,India,1450935791,0.89 %,12866195,488,2973190,-630830,2.0,28,37 %,17.78 %
1,2,China,1419321278,-0.23 %,-3263655,151,9388211,-318992,1.0,40,66 %,17.39 %
2,3,United States,345426571,0.57 %,1949236,38,9147420,1286132,1.6,38,82 %,4.23 %
3,4,Indonesia,283487931,0.82 %,2297864,156,1811570,-38469,2.1,30,59 %,3.47 %
4,5,Pakistan,251269164,1.52 %,3764669,326,770880,-1401173,3.5,20,34 %,3.08 %
...,...,...,...,...,...,...,...,...,...,...,...,...
229,230,Montserrat,4389,-0.70 %,-31,44,100,-7,1.4,42,11 %,0.00 %
230,231,Falkland Islands,3470,-0.20 %,-7,0,12170,-13,1.7,42,68 %,0.00 %
231,232,Tokelau,2506,4.55 %,109,251,10,72,2.6,27,0 %,0.00 %
232,233,Niue,1819,0.11 %,2,7,260,10,2.5,36,44 %,0.00 %


### **Conclusiones**

El uso de Scrapy para realizar web scraping en una web que presenta datos de población mundial en una tabla estática ha demostrado ser una solución eficaz y eficiente. A través de este proceso, se han identificado varias ventajas clave del uso de Scrapy para este tipo de tareas, así como consideraciones importantes para futuros proyectos.

**Eficiencia y Velocidad**

- *Rendimiento Óptimo*: Scrapy es altamente eficiente para la extracción de datos de tablas estáticas. Su capacidad para gestionar múltiples solicitudes en paralelo permite la recolección rápida de grandes volúmenes de datos sin sobrecargar los recursos del sistema ni los servidores objetivo.

- *Simplicidad en la Implementación*: Trabajar con contenido estático facilita enormemente el desarrollo de spiders en Scrapy. La simplicidad del HTML estático reduce la complejidad del código, permitiendo una implementación rápida y directa sin la necesidad de manejar JavaScript o formularios dinámicos.

**Precisión en la Extracción**

- *Selección de Datos*: Scrapy permite una extracción precisa de los datos mediante el uso de selectores CSS y XPath. Esto asegura que solo se recojan los datos relevantes de la tabla, minimizando la necesidad de limpieza de datos posterior.
- *Automatización y Escalabilidad*: Scrapy automatiza de manera efectiva el proceso de scraping, lo que es especialmente útil para proyectos que requieren actualizaciones periódicas de datos. Su arquitectura escalable permite ajustarse fácilmente a diferentes volúmenes de datos y estructuras de sitios web.

**Manejo de Estructuras Complejas**

- *Navegación por HTML*: Aunque en este caso se trabajó con una tabla estática, Scrapy es capaz de manejar estructuras HTML complejas con facilidad. Esto lo hace adecuado no solo para tablas simples, sino también para proyectos donde los datos están dispersos en diferentes partes de una página o en múltiples páginas vinculadas.
- *Facilidad de Expansión*: Scrapy facilita la adición de nuevas funcionalidades, como el manejo de varias páginas, la inclusión de datos de múltiples fuentes, o el procesamiento y almacenamiento de datos en diferentes formatos (como JSON, CSV, o bases de datos).

**Consideraciones Éticas y Legales**

- *Cumplimiento de Normativas*: Es fundamental realizar el scraping de manera ética, respetando las políticas del sitio web, como las directrices del archivo "robots.txt". Además, es importante asegurarse de que los datos obtenidos sean utilizados de manera responsable y conforme a las regulaciones vigentes en cuanto a la recolección y uso de datos.

**Robustez y Mantenimiento**

- *Mantenimiento y Actualización*: Scrapy permite crear spiders robustos que pueden mantenerse y actualizarse fácilmente. Si la estructura de la página web cambia, Scrapy facilita la adaptación del código para continuar extrayendo los datos de manera eficiente.

- *Documentación y Comunidad*: Scrapy cuenta con una excelente documentación y una comunidad activa, lo que es un gran soporte para resolver dudas y mejorar la implementación. Esto asegura que incluso los desarrolladores menos experimentados puedan avanzar en sus proyectos de scraping con confianza.

En resumen, Scrapy es una herramienta poderosa y confiable para la extracción de datos de tablas estáticas en la web. Su eficiencia, facilidad de uso, y capacidad para manejar estructuras de datos complejas lo hacen ideal para proyectos de scraping que requieren precisión y escalabilidad. Además, su enfoque modular y su sólida comunidad de soporte aseguran que Scrapy continuará siendo una herramienta clave para la extracción de datos web en futuros proyectos.


### **Referencias**

- [Python](https://www.python.org/)
- [Ipykernel](https://pypi.org/project/ipykernel/)
- [tqdm](https://pypi.org/project/tqdm/)
- [joblib](https://pypi.org/project/joblib/)
- [scipy](https://scipy.org/)
- [Pandas](https://pandas.pydata.org/)
- [Documentación oficial de Scrapy](https://docs.scrapy.org/en/latest/)