### Proyecto: Extracci√≥n de datos sobre tiburones con Selenium y MySQL üåäü¶à


üìåObjetivo:
Automatizar la recolecci√≥n, limpieza y almacenamiento de datos sobre tiburones desde una p√°gina web, para su posterior an√°lisis.

üôåüèªPasos principales:

Configuraci√≥n del entorno:

Instalar Selenium y ChromeDriver en Visual Studio Code para automatizar la navegaci√≥n web.

Extracci√≥n de datos:

Usar Selenium para recorrer las p√°ginas web de tiburones.

Extraer datos de las categor√≠as: Nombre_cient√≠fico, Familia, G√©nero, Status_IUCN, Tama√±o_medio, Descriptor, A√±o y Sociabilidad.

Utilizar bucles try y for para manejar las p√°ginas y datos.

Limpieza de datos:

Limpiar el campo "Tama√±o medio" eliminando la unidad "cm" y convertirlo a n√∫mero entero para facilitar c√°lculos.

Organizaci√≥n de datos:

Convertir la informaci√≥n extra√≠da en una estructura tipo DataFrame o lista para facilitar la inserci√≥n en la base de datos.

Almacenamiento en MySQL:

Conectar con una base de datos MySQL.

Crear tabla adecuada para tiburones.

Insertar los datos limpios para futuras consultas y an√°lisis.

In [3]:
# Importar librer√≠as para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librer√≠a para manipulaci√≥n y an√°lisis de datos en Python.

# Importar librer√≠as manipulaci√≥n de datos

import requests

# Importar librer√≠as para automatizaci√≥n de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacci√≥n con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalaci√≥n del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es √∫til para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en p√°ginas web.

# Importar librer√≠as para pausar la ejecuci√≥n
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecuci√≥n del programa por un n√∫mero de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opci√≥n de Pandas para mostrar todas las columnas de un DataFrame.

In [4]:

# Iniciar el navegador
driver = webdriver.Chrome()
driver.maximize_window()

# Acceder a la web
driver.get("https://www.fishipedia.es/pez/type/requin")
print("Accede a la web")

lista_tiburones = [] # Aqu√≠ creamos una lista vac√≠a, donde se ir√°n adjuntando los datos

# Hacemos un scrapeo para 32 filas:

for i in range(1,32):
    # Hacer clic en cada tibur√≥n
    driver.find_element("css selector", f"#listItems > li:nth-child({i}) > div > a").click()
    print(f"Accediendo al tibur√≥n {i}")


    sleep(3)  # Espera para asegurar que la p√°gina haya cargado correctamente

    try:
        # Obtener el nombre cient√≠fico
        nombre_cientifico = driver.find_element("css selector", "#Js--BannerJs table tbody tr.g-6-col td em").text
        print(f"Nombre cient√≠fico: {nombre_cientifico}")
        familia=driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(5) > td > a").text
        print(f"Familia: {familia}")
        genero=driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(6) > td").text
        print(f"Genero: {genero}")
        descriptor =driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(2) > td").text
        print(f"Descriptor: {descriptor}")
        anio =driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(3) > td").text
        print(f"A√±o: {anio}")
        IUCN_status =driver.find_element("css selector", "#Js--BannerJs > table > tbody > tr:nth-child(4) > td").text
        print(f"Status_IUCN: {IUCN_status}")
        try:
            tamano_medio=driver.find_element("css selector", "#sheetContent > section:nth-child(3) > div:nth-child(3) > div.isHiddenBeforeExLarge > ul > li.g-6-col.g-d-3-col.g-l-12-col.g-cell.inColumnDesk.ListHighlightInfo--Icon.ListHighlightInfo--Icon-size > div.ListHighlightInfo--Value.isCapitalize").text
            print(f"Tama√±o medio: {tamano_medio}")
        except:
            print("sin dato")
        try:
            social=driver.find_element("css selector", "#sheetContent > section:nth-child(3) > div:nth-child(7) > ul > li.g-12-col.g-t-6-col.g-l-3-col.g-cell.ListHighlightInfo--Icon.ListHighlightInfo--Icon-sociability > div.ListHighlightInfo--Value.isCapitalize").text
            print(f"Sociabilidad: {social}")
        except:
            print("sin dato")
      
        # Guardar en la lista
        lista_tiburones.append({"Nombre_cientifico": nombre_cientifico, "Familia": familia,
                                "Genero":genero ,"Status_IUCN":IUCN_status,
                                "Tama√±o_medio" :tamano_medio, "Descriptor":descriptor, "A√±o": anio,
                                "Sociabilidad":social})
        
    except Exception as e:
        print(f"Error al obtener el dato {i}: {e}")

    sleep(2)  # Peque√±a pausa antes de regresar
    driver.back()
    sleep(3)  # Espera a que la lista de tiburones se vuelva a cargar

# Cerrar el navegador
driver.quit()

# Imprimir resultados
print("Lista de tiburones:", lista_tiburones)


Accede a la web
Accediendo al tibur√≥n 1
Nombre cient√≠fico: Alopias pelagicus
Familia: alopiidae
Genero: Alopias
Descriptor: Nakamura
A√±o: 1935
Status_IUCN: EN
Tama√±o medio: 276 cm
Sociabilidad: solitario
Accediendo al tibur√≥n 2
Nombre cient√≠fico: Atelomycterus marmoratus
Familia: Scyliorhinidae
Genero: Atelomycterus
Descriptor: Bennet
A√±o: 1830
Status_IUCN: NT
Tama√±o medio: 55 cm
sin dato
Accediendo al tibur√≥n 3
Nombre cient√≠fico: Carcharhinus amblyrhynchos
Familia: Carcharhinidae
Genero: Carcharhinus
Descriptor: Bleeker
A√±o: 1856
Status_IUCN: EN
Tama√±o medio: 170 cm
sin dato
Accediendo al tibur√≥n 4
Nombre cient√≠fico: Carcharhinus falciformis
Familia: Carcharhinidae
Genero: Carcharhinus
Descriptor: M√ºller & Henle
A√±o: 1839
Status_IUCN: VU
Tama√±o medio: 200 cm
sin dato
Accediendo al tibur√≥n 5
Nombre cient√≠fico: Carcharhinus leucas
Familia: Carcharhinidae
Genero: Carcharhinus
Descriptor: M√ºller & Henle
A√±o: 1839
Status_IUCN: VU
Tama√±o medio: 190 cm
sin dato
Accedien

In [5]:
lista_tiburones

[{'Nombre_cientifico': 'Alopias pelagicus',
  'Familia': 'alopiidae',
  'Genero': 'Alopias',
  'Status_IUCN': 'EN',
  'Tama√±o_medio': '276 cm',
  'Descriptor': 'Nakamura',
  'A√±o': '1935',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Atelomycterus marmoratus',
  'Familia': 'Scyliorhinidae',
  'Genero': 'Atelomycterus',
  'Status_IUCN': 'NT',
  'Tama√±o_medio': '55 cm',
  'Descriptor': 'Bennet',
  'A√±o': '1830',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Carcharhinus amblyrhynchos',
  'Familia': 'Carcharhinidae',
  'Genero': 'Carcharhinus',
  'Status_IUCN': 'EN',
  'Tama√±o_medio': '170 cm',
  'Descriptor': 'Bleeker',
  'A√±o': '1856',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Carcharhinus falciformis',
  'Familia': 'Carcharhinidae',
  'Genero': 'Carcharhinus',
  'Status_IUCN': 'VU',
  'Tama√±o_medio': '200 cm',
  'Descriptor': 'M√ºller & Henle',
  'A√±o': '1839',
  'Sociabilidad': 'solitario'},
 {'Nombre_cientifico': 'Carcharhinus leucas',
  'Fa

In [6]:
df = pd.DataFrame(lista_tiburones)
df

Unnamed: 0,Nombre_cientifico,Familia,Genero,Status_IUCN,Tama√±o_medio,Descriptor,A√±o,Sociabilidad
0,Alopias pelagicus,alopiidae,Alopias,EN,276 cm,Nakamura,1935,solitario
1,Atelomycterus marmoratus,Scyliorhinidae,Atelomycterus,NT,55 cm,Bennet,1830,solitario
2,Carcharhinus amblyrhynchos,Carcharhinidae,Carcharhinus,EN,170 cm,Bleeker,1856,solitario
3,Carcharhinus falciformis,Carcharhinidae,Carcharhinus,VU,200 cm,M√ºller & Henle,1839,solitario
4,Carcharhinus leucas,Carcharhinidae,Carcharhinus,VU,190 cm,M√ºller & Henle,1839,solitario
5,Carcharhinus melanopterus,Carcharhinidae,Carcharhinus,VU,100 cm,Quoy & Gaimard,1824,solitario
6,carcharhinus plumbeus,Carcharhinidae,Carcharhinus,EN,200 cm,Nardo,1827,solitario
7,Carcharias taurus,Carcharhinidae,Carcharias,CR,220 cm,Rafinesque,1810,solitario
8,Carcharodon carcharias,Lamnidae,Carcharodon,VU,450 cm,Carl von Linn√©,1758,solitario
9,Cetorhinus maximus,Cetorhinidae,Cetorhinus,EN,1000 cm,Johan Ernst Gunnerus,1765,grupos o en solitario


In [7]:
df["Tama√±o_medio"] = df["Tama√±o_medio"].str.replace("cm","") #Limpieza de cm en Tama√±o_medio

In [8]:
df

Unnamed: 0,Nombre_cientifico,Familia,Genero,Status_IUCN,Tama√±o_medio,Descriptor,A√±o,Sociabilidad
0,Alopias pelagicus,alopiidae,Alopias,EN,276,Nakamura,1935,solitario
1,Atelomycterus marmoratus,Scyliorhinidae,Atelomycterus,NT,55,Bennet,1830,solitario
2,Carcharhinus amblyrhynchos,Carcharhinidae,Carcharhinus,EN,170,Bleeker,1856,solitario
3,Carcharhinus falciformis,Carcharhinidae,Carcharhinus,VU,200,M√ºller & Henle,1839,solitario
4,Carcharhinus leucas,Carcharhinidae,Carcharhinus,VU,190,M√ºller & Henle,1839,solitario
5,Carcharhinus melanopterus,Carcharhinidae,Carcharhinus,VU,100,Quoy & Gaimard,1824,solitario
6,carcharhinus plumbeus,Carcharhinidae,Carcharhinus,EN,200,Nardo,1827,solitario
7,Carcharias taurus,Carcharhinidae,Carcharias,CR,220,Rafinesque,1810,solitario
8,Carcharodon carcharias,Lamnidae,Carcharodon,VU,450,Carl von Linn√©,1758,solitario
9,Cetorhinus maximus,Cetorhinidae,Cetorhinus,EN,1000,Johan Ernst Gunnerus,1765,grupos o en solitario


In [None]:
# Guardar como CSV
df.to_csv("Tiburones_fishipedia.csv", index=False)

print("Archivo CSV guardado exitosamente.")

Archivo CSV guardado exitosamente.


In [None]:
lista_buena= df.values.tolist()

In [None]:
lista_de_tuplas = [tuple(sublista) for sublista in lista_buena]

print(lista_de_tuplas) #la lista de TUPLAS, que me admite SQL

[('Alopias pelagicus', 'alopiidae', 'Alopias', 'EN', '276 ', 'Nakamura', '1935', 'solitario'), ('Atelomycterus marmoratus', 'Scyliorhinidae', 'Atelomycterus', 'NT', '55 ', 'Bennet', '1830', 'solitario'), ('Carcharhinus amblyrhynchos', 'Carcharhinidae', 'Carcharhinus', 'EN', '170 ', 'Bleeker', '1856', 'solitario'), ('Carcharhinus falciformis', 'Carcharhinidae', 'Carcharhinus', 'VU', '200 ', 'M√ºller & Henle', '1839', 'solitario'), ('Carcharhinus leucas', 'Carcharhinidae', 'Carcharhinus', 'VU', '190 ', 'M√ºller & Henle', '1839', 'solitario'), ('Carcharhinus melanopterus', 'Carcharhinidae', 'Carcharhinus', 'VU', '100 ', 'Quoy & Gaimard', '1824', 'solitario'), ('carcharhinus plumbeus', 'Carcharhinidae', 'Carcharhinus', 'EN', '200 ', 'Nardo', '1827', 'solitario'), ('Carcharias taurus', 'Carcharhinidae', 'Carcharias', 'CR', '220 ', 'Rafinesque', '1810', 'solitario'), ('Carcharodon carcharias', 'Lamnidae', 'Carcharodon', 'VU', '450 ', 'Carl von Linn√©', '1758', 'solitario'), ('Cetorhinus maxi

In [None]:
# pip install --upgrade mysql-connector-python

In [None]:
# Para cargar un data en mysql

import mysql.connector
from mysql.connector import errorcode

In [None]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab', #carretera de uni√≥n
                              host='127.0.0.1',
                              database ='tiburones',auth_plugin='mysql_native_password')

mycursor = cnx.cursor() # creamos el "camioncito que transporta"

In [None]:
query = """
INSERT INTO tiburones (Nombre_cientifico,Familia,Genero,Status_IUCN,Tama√±o_medio,Descriptor,A√±o,Sociabilidad)
VALUES (%s, %s,%s,%s,%s,%s,%s,%s)
"""

In [None]:
# Insertar m√∫ltiples registros utilizando ejecutemany()
mycursor.executemany(query,lista_de_tuplas)

# Confirmar los cambios en la base de datos
cnx.commit()

print("Datos insertados correctamente ‚úÖ.")
print(mycursor.rowcount, "registros insertados")

Datos insertados correctamente ‚úÖ.
31 registros insertados


‚ú®Next steps‚ú®
- A√±adir nuevas tablas para establecer nexos de uni√≥n (como nombre cient√≠gico como PK) para ampliar la informaci√≥n y profundizar en nuestro an√°lisis.
- Coordenadas de avistamientos de las especies analizadas, y posible representaci√≥n cartogr√°fica con apoyo de QGIS.