# EXTRACCIÓN DE DATOS CON SELENIUM #

En este proyecto, se utilizará lenguaje pyhton junto con librería Selenium para realizar web scraping en una página web que contiene información sobre tiburones. El objetivo es extraer los datos correspondientes a las siguientes categorías: Nombre_cientifico, Familia, Genero, Status_IUCN, Tamaño_medio, Descriptor, Año y Sociabilidad, limpiarlos y almacenarlos en una base de datos MySQL para realizar consultas posteriores.

- Proceso:

-Configuración del entorno en Visual Studio Code (VSC):
Para comenzar, se instalarán las herramientas necesarias, como Selenium WebDriver y el controlador de un navegador ChromeDriver. Esto permitirá automatizar la interacción con la página web desde VSC.

-Extracción de datos con Selenium:
Utilizando el WebDriver de Selenium, accederemos a la página web que contiene datos de tiburones. Se recorrerán las páginas de cada tiburón, extrayendo los valores correspondientes a cada columna construido gracias a bucles try y for.

-Limpieza de datos:
En particular, el Tamaño medio viene acompañado de la unidad de medida en centímetros (por ejemplo, "200 cm"). Para poder utilizar estos valores en cálculos numéricos, se procederá a eliminar esta unidad de medida y convertir el valor a un número entero que se pueda almacenar y procesar sin dificultades.

-Creación de un DataFrame :
Se convierte nuestra extracción de datos, a lista para poder asociarlo con MySQL. Esto permitirá organizar la información de forma estructurada antes de ser almacenada en la base de datos.

-Conexión a MySQL y almacenamiento de datos:
Finalmente, se establecerá una conexión con una base de datos MySQL, creando una tabla adecuada para almacenar la información de los tiburones. Los datos extraídos (limpios y organizados) se insertarán en dicha tabla, lo que permitirá realizar consultas más adelante, como obtener estadísticas, filtrar especies por características específicas, etc.

Este proyecto combina automatización web, procesamiento de datos y almacenamiento en bases de datos, ofreciendo una solución completa para la recopilación y análisis de información sobre tiburones desde la web.

A continuación los pasos:

In [1]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

In [2]:

# Iniciar el navegador
driver = webdriver.Chrome()
driver.maximize_window()

# Acceder a la web
driver.get("https://www.fishipedia.es/pez/type/requin")
print("Accede a la web")

lista_tiburones = [] # Aquí creamos una lista vacía, donde se irán adjuntando los datos

# Hacemos un scrapeo para 32 filas:

for i in range(1,32):
    # Hacer clic en cada tiburón
    driver.find_element("css selector", f"#listItems > li:nth-child({i}) > div > a").click()
    print(f"Accediendo al tiburón {i}")


    sleep(3)  # Espera para asegurar que la página haya cargado correctamente

    try:
        # Obtener el nombre científico
        nombre_cientifico = driver.find_element("css selector", "#Js--BannerJs table tbody tr.g-6-col td em").text
        print(f"Nombre científico: {nombre_cientifico}")
        familia=driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(5) > td > a").text
        print(f"Familia: {familia}")
        genero=driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(6) > td").text
        print(f"Genero: {genero}")
        descriptor =driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(2) > td").text
        print(f"Descriptor: {descriptor}")
        anio =driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(3) > td").text
        print(f"Año: {anio}")
        IUCN_status =driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(4) > td").text
        print(f"Status_IUCN: {IUCN_status}")
        try:
            tamano_medio=driver.find_element("css selector", "#sheetContent > section:nth-child(3) > div:nth-child(3) > div.isHiddenBeforeExLarge > ul > li.g-6-col.g-d-3-col.g-l-12-col.g-cell.inColumnDesk.ListHighlightInfo--Icon.ListHighlightInfo--Icon-size > div.ListHighlightInfo--Value.isCapitalize").text
            print(f"Tamaño medio: {tamano_medio}")
        except:
            print("sin dato")
        try:
            social=driver.find_element("css selector", "#sheetContent > section:nth-child(3) > div:nth-child(7) > ul > li.g-12-col.g-t-6-col.g-l-3-col.g-cell.ListHighlightInfo--Icon.ListHighlightInfo--Icon-sociability > div.ListHighlightInfo--Value.isCapitalize").text
            print(f"Sociabilidad: {social}")
        except:
            print("sin dato")
      
        # Guardar en la lista
        lista_tiburones.append({"Nombre_cientifico": nombre_cientifico, "Familia": familia,
                                "Genero":genero ,"Status_IUCN":IUCN_status,
                                "Tamaño_medio" :tamano_medio, "Descriptor":descriptor, "Año": anio,
                                "Sociabilidad":social})
        
    except Exception as e:
        print(f"Error al obtener el dato {i}: {e}")

    sleep(2)  # Pequeña pausa antes de regresar
    driver.back()
    sleep(3)  # Espera a que la lista de tiburones se vuelva a cargar

# Cerrar el navegador
driver.quit()

# Imprimir resultados
print("Lista de tiburones:", lista_tiburones)


Accede a la web
Accediendo al tiburón 1
Nombre científico: Alopias pelagicus
Familia: alopiidae
Genero: Alopias
Descriptor: Nakamura
Año: 1935
Status_IUCN: EN
Tamaño medio: 276 cm
Sociabilidad: solitario
Accediendo al tiburón 2
Nombre científico: Atelomycterus marmoratus
Familia: Scyliorhinidae
Genero: Atelomycterus
Descriptor: Bennet
Año: 1830
Status_IUCN: NT
Tamaño medio: 55 cm
sin dato
Accediendo al tiburón 3
Nombre científico: Carcharhinus amblyrhynchos
Familia: Carcharhinidae
Genero: Carcharhinus
Descriptor: Bleeker
Año: 1856
Status_IUCN: EN
Tamaño medio: 170 cm
sin dato
Accediendo al tiburón 4
Nombre científico: Carcharhinus falciformis
Familia: Carcharhinidae
Genero: Carcharhinus
Descriptor: Müller & Henle
Año: 1839
Status_IUCN: VU
Tamaño medio: 200 cm
sin dato
Accediendo al tiburón 5
Nombre científico: Carcharhinus leucas
Familia: Carcharhinidae
Genero: Carcharhinus
Descriptor: Müller & Henle
Año: 1839
Status_IUCN: VU
Tamaño medio: 190 cm
sin dato
Accediendo al tiburón 6
Nombre

In [14]:
lista_tiburones

[{'Nombre_cientifico': 'Alopias pelagicus',
  'Familia': 'alopiidae',
  'Genero': 'Alopias',
  'Status_IUCN': 'EN',
  'Tamaño_medio': '276 cm',
  'Descriptor': 'Nakamura',
  'Año': '1935',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Atelomycterus marmoratus',
  'Familia': 'Scyliorhinidae',
  'Genero': 'Atelomycterus',
  'Status_IUCN': 'NT',
  'Tamaño_medio': '55 cm',
  'Descriptor': 'Bennet',
  'Año': '1830',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Carcharhinus amblyrhynchos',
  'Familia': 'Carcharhinidae',
  'Genero': 'Carcharhinus',
  'Status_IUCN': 'EN',
  'Tamaño_medio': '170 cm',
  'Descriptor': 'Bleeker',
  'Año': '1856',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Carcharhinus falciformis',
  'Familia': 'Carcharhinidae',
  'Genero': 'Carcharhinus',
  'Status_IUCN': 'VU',
  'Tamaño_medio': '200 cm',
  'Descriptor': 'Müller & Henle',
  'Año': '1839',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Carcharhinus leucas',
  'Familia': '

In [15]:
df = pd.DataFrame(lista_tiburones)
df

Unnamed: 0,Nombre_cientifico,Familia,Genero,Status_IUCN,Tamaño_medio,Descriptor,Año,Sociabilidad
0,Alopias pelagicus,alopiidae,Alopias,EN,276 cm,Nakamura,1935,solitario
1,Atelomycterus marmoratus,Scyliorhinidae,Atelomycterus,NT,55 cm,Bennet,1830,solitario
2,Carcharhinus amblyrhynchos,Carcharhinidae,Carcharhinus,EN,170 cm,Bleeker,1856,solitario
3,Carcharhinus falciformis,Carcharhinidae,Carcharhinus,VU,200 cm,Müller & Henle,1839,solitario
4,Carcharhinus leucas,Carcharhinidae,Carcharhinus,VU,190 cm,Müller & Henle,1839,solitario
5,Carcharhinus melanopterus,Carcharhinidae,Carcharhinus,VU,100 cm,Quoy & Gaimard,1824,solitario
6,carcharhinus plumbeus,Carcharhinidae,Carcharhinus,EN,200 cm,Nardo,1827,solitario
7,Carcharias taurus,Carcharhinidae,Carcharias,CR,220 cm,Rafinesque,1810,solitario
8,Carcharodon carcharias,Lamnidae,Carcharodon,VU,450 cm,Carl von Linné,1758,solitario
9,Cetorhinus maximus,Cetorhinidae,Cetorhinus,EN,1000 cm,Johan Ernst Gunnerus,1765,grupos o en solitario


In [16]:
df["Tamaño_medio"] = df["Tamaño_medio"].str.replace("cm","") #Limpieza de cm en Tamaño_medio

In [17]:
df

Unnamed: 0,Nombre_cientifico,Familia,Genero,Status_IUCN,Tamaño_medio,Descriptor,Año,Sociabilidad
0,Alopias pelagicus,alopiidae,Alopias,EN,276,Nakamura,1935,solitario
1,Atelomycterus marmoratus,Scyliorhinidae,Atelomycterus,NT,55,Bennet,1830,solitario
2,Carcharhinus amblyrhynchos,Carcharhinidae,Carcharhinus,EN,170,Bleeker,1856,solitario
3,Carcharhinus falciformis,Carcharhinidae,Carcharhinus,VU,200,Müller & Henle,1839,solitario
4,Carcharhinus leucas,Carcharhinidae,Carcharhinus,VU,190,Müller & Henle,1839,solitario
5,Carcharhinus melanopterus,Carcharhinidae,Carcharhinus,VU,100,Quoy & Gaimard,1824,solitario
6,carcharhinus plumbeus,Carcharhinidae,Carcharhinus,EN,200,Nardo,1827,solitario
7,Carcharias taurus,Carcharhinidae,Carcharias,CR,220,Rafinesque,1810,solitario
8,Carcharodon carcharias,Lamnidae,Carcharodon,VU,450,Carl von Linné,1758,solitario
9,Cetorhinus maximus,Cetorhinidae,Cetorhinus,EN,1000,Johan Ernst Gunnerus,1765,grupos o en solitario


In [18]:
lista_buena= df.values.tolist()

In [19]:
lista_de_tuplas = [tuple(sublista) for sublista in lista_buena]

print(lista_de_tuplas) #la lista de TUPLAS, que me admite SQL

[('Alopias pelagicus', 'alopiidae', 'Alopias', 'EN', '276 ', 'Nakamura', '1935', 'solitario'), ('Atelomycterus marmoratus', 'Scyliorhinidae', 'Atelomycterus', 'NT', '55 ', 'Bennet', '1830', 'solitario'), ('Carcharhinus amblyrhynchos', 'Carcharhinidae', 'Carcharhinus', 'EN', '170 ', 'Bleeker', '1856', 'solitario'), ('Carcharhinus falciformis', 'Carcharhinidae', 'Carcharhinus', 'VU', '200 ', 'Müller & Henle', '1839', 'solitario'), ('Carcharhinus leucas', 'Carcharhinidae', 'Carcharhinus', 'VU', '190 ', 'Müller & Henle', '1839', 'solitario'), ('Carcharhinus melanopterus', 'Carcharhinidae', 'Carcharhinus', 'VU', '100 ', 'Quoy & Gaimard', '1824', 'solitario'), ('carcharhinus plumbeus', 'Carcharhinidae', 'Carcharhinus', 'EN', '200 ', 'Nardo', '1827', 'solitario'), ('Carcharias taurus', 'Carcharhinidae', 'Carcharias', 'CR', '220 ', 'Rafinesque', '1810', 'solitario'), ('Carcharodon carcharias', 'Lamnidae', 'Carcharodon', 'VU', '450 ', 'Carl von Linné', '1758', 'solitario'), ('Cetorhinus maximus

In [9]:
# pip install --upgrade mysql-connector-python

In [20]:
# Para cargar un data en mysql

import mysql.connector
from mysql.connector import errorcode

In [11]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', #carretera de unión
                              host='127.0.0.1',
                              database ='tiburones',auth_plugin='mysql_native_password')

mycursor = cnx.cursor() # creamos el "camioncito que transporta"

In [12]:
query = """
INSERT INTO tiburones (Nombre_cientifico,Familia,Genero,Status_IUCN,Tamaño_medio,Descriptor,Año,Sociabilidad)
VALUES (%s, %s,%s,%s,%s,%s,%s,%s)
"""

In [13]:
# Insertar múltiples registros utilizando ejecutemany()
mycursor.executemany(query,lista_de_tuplas)

# Confirmar los cambios en la base de datos
cnx.commit()

print("Datos insertados correctamente ✅.")
print(mycursor.rowcount, "registros insertados")

Datos insertados correctamente ✅.
31 registros insertados


✨Next steps✨
- Añadir nuevas tablas para establecer nexos de unión (como nombre cientígico como PK) para ampliar la información y profundizar en nuestro análisis.
- Coordenadas de avistamientos de las especies analizadas, y posible representación cartográfica con apoyo de QGIS.