## 2.2 Obtención de datos mediante web scraping

### INTRODUCCIÓN

El web scraping es una técnica que permite extraer información de páginas web de forma automática. En este caso, se utilizará la librería Scrapy para extraer datos de una tabla en una página web y guardarlos en un archivo CSV.

El sitio web seleccionado permite acceder a una tabla con la información de actividad volcánica de 89 volcanes. La tabla contiene los siguientes campos: ID, NOMBRE, PAIS, S02, ANOMALÍA TÉRMICA, DEFORMACIÓN Y FECHA DE ACTUALIZACIÓN. La url de la página web es la siguiente: http://www.mounts-project.com/home, este sitio nos permite consultar, copiar y hacer uso de la información que se encuentra en la página con fines educativos y de investigación.


### OBJETIVO
El objetivo es extraer los datos de la tabla y guardarlos en un archivo CSV.

### METODOLOGÍA
1. Importar las librerías necesarias.
2. Realizar una petición HTTP a la página web.
3. Crear un objeto Selector con el HTML de la página.
4. Extraer los encabezados de la tabla.
5. Extraer los datos del cuerpo de la tabla.
6. Crear un DataFrame de Pandas con los datos extraídos.
7. Guardar el DataFrame en un archivo CSV.
8. Mostrar un mensaje de confirmación.
9. Ejecutar el script.
10. Verificar que el archivo CSV se haya generado correctamente.

In [1]:
# Importar request para hacer la petición HTTP y Selector para extraer los datos
import requests
# Importar Selector desde Scrapy para extraer los datos
from scrapy import Selector
# Importar pandas para crear un DataFrame con los datos extraídos
import pandas as pd

# URL de la página web
url = "http://www.mounts-project.com/home"
response = requests.get(url)

# Crear el Selector con el HTML de la página
sel = Selector(text=response.text)

# Extraer los encabezados de la tabla
headers = sel.xpath('//table[@id="myTable"]//th')
column_names = [header.xpath('string(.)').get().strip() for header in headers]

# Extraer los datos del cuerpo de la tabla
rows = sel.xpath('//table[@id="myTable"]//tr')  # Seleccionar todas las filas de la tabla
data = []

for row in rows:
    cells = row.xpath('./td')  # Extraer solo las celdas dentro de la fila
    if cells:  # Solo procesar filas que tienen datos
        row_data = [cell.xpath('string(.)').get().strip() for cell in cells]
        data.append(row_data)

# Crear un DataFrame de Pandas
df = pd.DataFrame(data, columns=column_names)

# Guardar en un archivo CSV
df.to_csv('tabla_datos.csv', index=False, encoding='utf-8')

print("Archivo CSV generado exitosamente.")


Archivo CSV generado exitosamente.


### RESULTADOS

El script ha extraído los datos de la tabla y los ha guardado en un archivo CSV llamado "tabla_datos.csv". El archivo contiene 89 filas y 6 columnas con la información de actividad volcánica de cada volcán. A continuación, se muestra una vista previa de los datos extraídos:




In [2]:
# Mostrar una vista previa de los datos extraídos
df.head()


Unnamed: 0,ID,NAME,COUNTRY,SO2 MASS*[tons],THERMAL ANOMALIES*[npix],DEFORMATION*std.dev [m],LATEST product
0,211040,Stromboli,Italy,0,0.0,0.0,2025-02-08 12:36 S5P
1,211050,Vulcano,Italy,0,1.0,0.0,2025-02-08 12:36 S5P
2,211060,Etna,Italy,30,63.0,8.9e-05,2025-02-08 12:36 S5P
3,221080,Erta Ale,Ethiopia,0,84.0,0.0,2025-02-08 10:51 S5P
4,221190,Fentale,Ethiopia,0,,0.0027,2025-02-08 10:51 S5P


### CONCLUSIÓN
Algunas de las aplicaciones de esta información podrían ser el análisis de la actividad volcánica en diferentes países, la identificación de patrones de comportamiento o la predicción de futuras erupciones. El monitoreo de la ceniza volcánica y los gases emitidos por los volcanes es fundamental para la seguridad de las poblaciones cercanas y la aviación.