In [1]:
import pandas as pd

# -----------------------------
# DataFrame de observaciones (GBIF de ejemplo)
# -----------------------------
df_gbif = pd.DataFrame({
    'scientificName': [
        'Lynx pardinus',       # Lince ibérico
        'Aquila adalberti',    # Águila imperial
        'Testudo hermanni',    # Tortuga mediterránea
        'Rana iberica',        # Rana ibérica
        'Salmo trutta',        # Trucha común
        'Ciconia nigra',       # Cigüeña negra
        'Vipera seoanei',      # Víbora cantábrica
        'Emys orbicularis'     # Galápago europeo
    ],
    'country': ['ES','ES','ES','PT','ES','PT','ES','PT'],
    'latitude': [38.5,39.0,41.0,40.5,42.0,43.0,42.5,41.5],
    'longitude': [-3.5,-0.5,2.0,-6.0,-3.0,-1.0,-5.5,-4.0],
    'eventDate': ['2023-01-15','2023-02-20','2023-03-10','2023-01-25','2023-02-18','2023-03-05','2023-01-30','2023-02-12']
})

# -----------------------------
# DataFrame de conservación
# -----------------------------
df_conservacion = pd.DataFrame({
    'nombre_cientifico': [
        'Lynx pardinus','Aquila adalberti','Testudo hermanni','Rana iberica',
        'Salmo trutta','Ciconia nigra','Vipera seoanei','Emys orbicularis'
    ],
    'estado_conservacion': [
        'En Peligro Crítico','En Peligro','Vulnerable','En Peligro',
        'Preocupación menor','Vulnerable','Casi Amenazada','Vulnerable'
    ],
    'causa_amenaza': [
        'Pérdida de hábitat','Caza ilegal','Destrucción de hábitat','Contaminación de ríos',
        'Sobrepesca','Destrucción de humedales','Fragmentación de hábitat','Contaminación de aguas'
    ]
})

# -----------------------------
# DataFrame de hábitat
# -----------------------------
df_habitat = pd.DataFrame({
    'nombre_cientifico': [
        'Lynx pardinus','Aquila adalberti','Testudo hermanni','Rana iberica',
        'Salmo trutta','Ciconia nigra','Vipera seoanei','Emys orbicularis'
    ],
    'tipo_habitat': [
        'Bosque mediterráneo','Montañas y bosques','Matorrales y zonas rocosas','Ríos y arroyos',
        'Ríos y lagos','Bosques y humedales','Montañas y pastizales','Ríos y lagos'
    ],
    'area_protegida': [
        'Parque Natural Sierra de Andújar','Parque Natural Cazorla','Parque Natural dels Ports',
        'Parque Nacional Peneda-Gerês','Parque Nacional Picos de Europa','Parque Natural Montesinho',
        'Parque Natural de Somiedo','Parque Nacional Doñana'
    ]
})

# -----------------------------
# DataFrame de grupo y dieta
# -----------------------------
df_grupo = pd.DataFrame({
    'nombre_cientifico': [
        'Lynx pardinus','Aquila adalberti','Testudo hermanni','Rana iberica',
        'Salmo trutta','Ciconia nigra','Vipera seoanei','Emys orbicularis'
    ],
    'grupo': [
        'Mamífero','Ave','Reptil','Anfibio','Pez','Ave','Reptil','Reptil'
    ],
    'dieta': [
        'Carnívoro','Carnívoro','Herbívoro','Insectívoro','Omnívoro','Carnívoro','Carnívoro','Omnívoro'
    ]
})



In [2]:
df_gbif.to_csv("gbif_animales.csv", index=False)
df_conservacion.to_csv("conservacion.csv", index=False)
df_habitat.to_csv("habitat.csv", index=False)
df_grupo.to_csv("grupo.csv", index=False)

print("Todos los CSV ampliados se han guardado correctamente.")


Todos los CSV ampliados se han guardado correctamente.


In [3]:
df_final = df_gbif.merge(df_conservacion, left_on='scientificName', right_on='nombre_cientifico', how='left') \
                   .merge(df_habitat, left_on='scientificName', right_on='nombre_cientifico', how='left') \
                   .merge(df_grupo, left_on='scientificName', right_on='nombre_cientifico', how='left')

print("\nDataFrame final unido con más especies:")
print(df_final)



DataFrame final unido con más especies:
     scientificName country  latitude  longitude   eventDate  \
0     Lynx pardinus      ES      38.5       -3.5  2023-01-15   
1  Aquila adalberti      ES      39.0       -0.5  2023-02-20   
2  Testudo hermanni      ES      41.0        2.0  2023-03-10   
3      Rana iberica      PT      40.5       -6.0  2023-01-25   
4      Salmo trutta      ES      42.0       -3.0  2023-02-18   
5     Ciconia nigra      PT      43.0       -1.0  2023-03-05   
6    Vipera seoanei      ES      42.5       -5.5  2023-01-30   
7  Emys orbicularis      PT      41.5       -4.0  2023-02-12   

  nombre_cientifico_x estado_conservacion             causa_amenaza  \
0       Lynx pardinus  En Peligro Crítico        Pérdida de hábitat   
1    Aquila adalberti          En Peligro               Caza ilegal   
2    Testudo hermanni          Vulnerable    Destrucción de hábitat   
3        Rana iberica          En Peligro     Contaminación de ríos   
4        Salmo trutta  Preo

In [4]:
# Mostrar primeras filas
print(df_final.head())

# Revisar columnas
print(df_final.columns)

# Información general del DataFrame
print(df_final.info())

# Conteos básicos
print(df_final['grupo'].value_counts())
print(df_final['estado_conservacion'].value_counts())


     scientificName country  latitude  longitude   eventDate  \
0     Lynx pardinus      ES      38.5       -3.5  2023-01-15   
1  Aquila adalberti      ES      39.0       -0.5  2023-02-20   
2  Testudo hermanni      ES      41.0        2.0  2023-03-10   
3      Rana iberica      PT      40.5       -6.0  2023-01-25   
4      Salmo trutta      ES      42.0       -3.0  2023-02-18   

  nombre_cientifico_x estado_conservacion           causa_amenaza  \
0       Lynx pardinus  En Peligro Crítico      Pérdida de hábitat   
1    Aquila adalberti          En Peligro             Caza ilegal   
2    Testudo hermanni          Vulnerable  Destrucción de hábitat   
3        Rana iberica          En Peligro   Contaminación de ríos   
4        Salmo trutta  Preocupación menor              Sobrepesca   

  nombre_cientifico_y                tipo_habitat  \
0       Lynx pardinus         Bosque mediterráneo   
1    Aquila adalberti          Montañas y bosques   
2    Testudo hermanni  Matorrales y zonas

In [5]:
# Mostrar todo el DataFrame en consola
print(df_final)

# O solo las primeras filas
print(df_final.head(10))  # Muestra las primeras 10 filas


     scientificName country  latitude  longitude   eventDate  \
0     Lynx pardinus      ES      38.5       -3.5  2023-01-15   
1  Aquila adalberti      ES      39.0       -0.5  2023-02-20   
2  Testudo hermanni      ES      41.0        2.0  2023-03-10   
3      Rana iberica      PT      40.5       -6.0  2023-01-25   
4      Salmo trutta      ES      42.0       -3.0  2023-02-18   
5     Ciconia nigra      PT      43.0       -1.0  2023-03-05   
6    Vipera seoanei      ES      42.5       -5.5  2023-01-30   
7  Emys orbicularis      PT      41.5       -4.0  2023-02-12   

  nombre_cientifico_x estado_conservacion             causa_amenaza  \
0       Lynx pardinus  En Peligro Crítico        Pérdida de hábitat   
1    Aquila adalberti          En Peligro               Caza ilegal   
2    Testudo hermanni          Vulnerable    Destrucción de hábitat   
3        Rana iberica          En Peligro     Contaminación de ríos   
4        Salmo trutta  Preocupación menor                Sobrepesca 

In [6]:
df_final


Unnamed: 0,scientificName,country,latitude,longitude,eventDate,nombre_cientifico_x,estado_conservacion,causa_amenaza,nombre_cientifico_y,tipo_habitat,area_protegida,nombre_cientifico,grupo,dieta
0,Lynx pardinus,ES,38.5,-3.5,2023-01-15,Lynx pardinus,En Peligro Crítico,Pérdida de hábitat,Lynx pardinus,Bosque mediterráneo,Parque Natural Sierra de Andújar,Lynx pardinus,Mamífero,Carnívoro
1,Aquila adalberti,ES,39.0,-0.5,2023-02-20,Aquila adalberti,En Peligro,Caza ilegal,Aquila adalberti,Montañas y bosques,Parque Natural Cazorla,Aquila adalberti,Ave,Carnívoro
2,Testudo hermanni,ES,41.0,2.0,2023-03-10,Testudo hermanni,Vulnerable,Destrucción de hábitat,Testudo hermanni,Matorrales y zonas rocosas,Parque Natural dels Ports,Testudo hermanni,Reptil,Herbívoro
3,Rana iberica,PT,40.5,-6.0,2023-01-25,Rana iberica,En Peligro,Contaminación de ríos,Rana iberica,Ríos y arroyos,Parque Nacional Peneda-Gerês,Rana iberica,Anfibio,Insectívoro
4,Salmo trutta,ES,42.0,-3.0,2023-02-18,Salmo trutta,Preocupación menor,Sobrepesca,Salmo trutta,Ríos y lagos,Parque Nacional Picos de Europa,Salmo trutta,Pez,Omnívoro
5,Ciconia nigra,PT,43.0,-1.0,2023-03-05,Ciconia nigra,Vulnerable,Destrucción de humedales,Ciconia nigra,Bosques y humedales,Parque Natural Montesinho,Ciconia nigra,Ave,Carnívoro
6,Vipera seoanei,ES,42.5,-5.5,2023-01-30,Vipera seoanei,Casi Amenazada,Fragmentación de hábitat,Vipera seoanei,Montañas y pastizales,Parque Natural de Somiedo,Vipera seoanei,Reptil,Carnívoro
7,Emys orbicularis,PT,41.5,-4.0,2023-02-12,Emys orbicularis,Vulnerable,Contaminación de aguas,Emys orbicularis,Ríos y lagos,Parque Nacional Doñana,Emys orbicularis,Reptil,Omnívoro


In [7]:
# Supongamos que tienes estos DataFrames:
# df_observaciones, df_conservacion, df_habitat, df_grupo

# Renombrar columna de nombre científico en todos los DataFrames
df_conservacion = df_conservacion.rename(columns={'nombre_cientifico': 'nombre_cientifico'})
df_habitat      = df_habitat.rename(columns={'nombre_cientifico': 'nombre_cientifico'})
df_grupo        = df_grupo.rename(columns={'nombre_cientifico': 'nombre_cientifico'})


In [8]:
df_final

Unnamed: 0,scientificName,country,latitude,longitude,eventDate,nombre_cientifico_x,estado_conservacion,causa_amenaza,nombre_cientifico_y,tipo_habitat,area_protegida,nombre_cientifico,grupo,dieta
0,Lynx pardinus,ES,38.5,-3.5,2023-01-15,Lynx pardinus,En Peligro Crítico,Pérdida de hábitat,Lynx pardinus,Bosque mediterráneo,Parque Natural Sierra de Andújar,Lynx pardinus,Mamífero,Carnívoro
1,Aquila adalberti,ES,39.0,-0.5,2023-02-20,Aquila adalberti,En Peligro,Caza ilegal,Aquila adalberti,Montañas y bosques,Parque Natural Cazorla,Aquila adalberti,Ave,Carnívoro
2,Testudo hermanni,ES,41.0,2.0,2023-03-10,Testudo hermanni,Vulnerable,Destrucción de hábitat,Testudo hermanni,Matorrales y zonas rocosas,Parque Natural dels Ports,Testudo hermanni,Reptil,Herbívoro
3,Rana iberica,PT,40.5,-6.0,2023-01-25,Rana iberica,En Peligro,Contaminación de ríos,Rana iberica,Ríos y arroyos,Parque Nacional Peneda-Gerês,Rana iberica,Anfibio,Insectívoro
4,Salmo trutta,ES,42.0,-3.0,2023-02-18,Salmo trutta,Preocupación menor,Sobrepesca,Salmo trutta,Ríos y lagos,Parque Nacional Picos de Europa,Salmo trutta,Pez,Omnívoro
5,Ciconia nigra,PT,43.0,-1.0,2023-03-05,Ciconia nigra,Vulnerable,Destrucción de humedales,Ciconia nigra,Bosques y humedales,Parque Natural Montesinho,Ciconia nigra,Ave,Carnívoro
6,Vipera seoanei,ES,42.5,-5.5,2023-01-30,Vipera seoanei,Casi Amenazada,Fragmentación de hábitat,Vipera seoanei,Montañas y pastizales,Parque Natural de Somiedo,Vipera seoanei,Reptil,Carnívoro
7,Emys orbicularis,PT,41.5,-4.0,2023-02-12,Emys orbicularis,Vulnerable,Contaminación de aguas,Emys orbicularis,Ríos y lagos,Parque Nacional Doñana,Emys orbicularis,Reptil,Omnívoro


In [9]:
# Lista de columnas duplicadas que quieres eliminar
columnas_a_eliminar = ['scientificName', 'nombre_cientifico_x', 'nombre_cientifico_y']

# Eliminar columnas duplicadas, mantener solo 'nombre_cientifico'
df_final = df_final.drop(columns=columnas_a_eliminar)

# Revisar el DataFrame limpio
print(df_final.head())


  country  latitude  longitude   eventDate estado_conservacion  \
0      ES      38.5       -3.5  2023-01-15  En Peligro Crítico   
1      ES      39.0       -0.5  2023-02-20          En Peligro   
2      ES      41.0        2.0  2023-03-10          Vulnerable   
3      PT      40.5       -6.0  2023-01-25          En Peligro   
4      ES      42.0       -3.0  2023-02-18  Preocupación menor   

            causa_amenaza                tipo_habitat  \
0      Pérdida de hábitat         Bosque mediterráneo   
1             Caza ilegal          Montañas y bosques   
2  Destrucción de hábitat  Matorrales y zonas rocosas   
3   Contaminación de ríos              Ríos y arroyos   
4              Sobrepesca                Ríos y lagos   

                     area_protegida nombre_cientifico     grupo        dieta  
0  Parque Natural Sierra de Andújar     Lynx pardinus  Mamífero    Carnívoro  
1            Parque Natural Cazorla  Aquila adalberti       Ave    Carnívoro  
2         Parque Natura

In [10]:
# Diccionario de nombres científicos → nombres comunes
diccionario_nombres = {
    'Lynx pardinus': 'Lince ibérico',
    'Aquila adalberti': 'Águila imperial ibérica',
    'Testudo hermanni': 'Tortuga mediterránea',
    'Rana iberica': 'Rana ibérica',
    'Salmo trutta': 'Trucha común',
    'Ciconia nigra': 'Cigüeña negra',
    'Vipera seoanei': 'Víbora cantábrica',
    'Emys orbicularis': 'Galápago europeo'
}


In [11]:
# Crear columna con nombre común
df_final['nombre_comun'] = df_final['nombre_cientifico'].map(diccionario_nombres)

# Revisar el resultado
print(df_final[['nombre_cientifico','nombre_comun']])


  nombre_cientifico             nombre_comun
0     Lynx pardinus            Lince ibérico
1  Aquila adalberti  Águila imperial ibérica
2  Testudo hermanni     Tortuga mediterránea
3      Rana iberica             Rana ibérica
4      Salmo trutta             Trucha común
5     Ciconia nigra            Cigüeña negra
6    Vipera seoanei        Víbora cantábrica
7  Emys orbicularis         Galápago europeo


In [12]:
# Supongamos que tus columnas actuales son:
# ['scientificName', 'country', 'decimalLatitude', 'decimalLongitude', 'eventDate']

# Renombrarlas al español
df_final = df_final.rename(columns={
    'scientificName': 'nombre_cientifico',
    'country': 'pais',
    'latitude': 'latitud',
    'longitude': 'longitud',
    'eventDate': 'fecha_evento'
})

# Revisar columnas renombradas
print(df_final.columns)


Index(['pais', 'latitud', 'longitud', 'fecha_evento', 'estado_conservacion',
       'causa_amenaza', 'tipo_habitat', 'area_protegida', 'nombre_cientifico',
       'grupo', 'dieta', 'nombre_comun'],
      dtype='object')


In [13]:
# Lista con el orden deseado
orden_columnas = [
    'nombre_comun', 'nombre_cientifico', 'grupo', 'dieta',
    'estado_conservacion', 'causa_amenaza',
    'tipo_habitat', 'area_protegida',
    'pais', 'latitud', 'longitud', 'fecha_evento'
]

# Reordenar columnas
df_final = df_final[orden_columnas]

# Ver el DataFrame ordenado
print(df_final.head())


              nombre_comun nombre_cientifico     grupo        dieta  \
0            Lince ibérico     Lynx pardinus  Mamífero    Carnívoro   
1  Águila imperial ibérica  Aquila adalberti       Ave    Carnívoro   
2     Tortuga mediterránea  Testudo hermanni    Reptil    Herbívoro   
3             Rana ibérica      Rana iberica   Anfibio  Insectívoro   
4             Trucha común      Salmo trutta       Pez     Omnívoro   

  estado_conservacion           causa_amenaza                tipo_habitat  \
0  En Peligro Crítico      Pérdida de hábitat         Bosque mediterráneo   
1          En Peligro             Caza ilegal          Montañas y bosques   
2          Vulnerable  Destrucción de hábitat  Matorrales y zonas rocosas   
3          En Peligro   Contaminación de ríos              Ríos y arroyos   
4  Preocupación menor              Sobrepesca                Ríos y lagos   

                     area_protegida pais  latitud  longitud fecha_evento  
0  Parque Natural Sierra de Andújar

In [14]:
# Reemplazar cualquier carácter extraño en los nombres de las columnas
# Supongamos que tu DataFrame se llama df
df_final.columns = df_final.columns.str.replace(r'[^a-zA-Z0-9_áéíóúñ]', '', regex=True)


# Revisar columnas limpias
print(df_final.columns)


Index(['nombre_comun', 'nombre_cientifico', 'grupo', 'dieta',
       'estado_conservacion', 'causa_amenaza', 'tipo_habitat',
       'area_protegida', 'pais', 'latitud', 'longitud', 'fecha_evento'],
      dtype='object')


In [15]:
# Supongamos que tu DataFrame se llama df
df_final = df_final.drop('fecha_evento', axis=1)  # axis=1 indica que es columna


In [16]:
df_final

Unnamed: 0,nombre_comun,nombre_cientifico,grupo,dieta,estado_conservacion,causa_amenaza,tipo_habitat,area_protegida,pais,latitud,longitud
0,Lince ibérico,Lynx pardinus,Mamífero,Carnívoro,En Peligro Crítico,Pérdida de hábitat,Bosque mediterráneo,Parque Natural Sierra de Andújar,ES,38.5,-3.5
1,Águila imperial ibérica,Aquila adalberti,Ave,Carnívoro,En Peligro,Caza ilegal,Montañas y bosques,Parque Natural Cazorla,ES,39.0,-0.5
2,Tortuga mediterránea,Testudo hermanni,Reptil,Herbívoro,Vulnerable,Destrucción de hábitat,Matorrales y zonas rocosas,Parque Natural dels Ports,ES,41.0,2.0
3,Rana ibérica,Rana iberica,Anfibio,Insectívoro,En Peligro,Contaminación de ríos,Ríos y arroyos,Parque Nacional Peneda-Gerês,PT,40.5,-6.0
4,Trucha común,Salmo trutta,Pez,Omnívoro,Preocupación menor,Sobrepesca,Ríos y lagos,Parque Nacional Picos de Europa,ES,42.0,-3.0
5,Cigüeña negra,Ciconia nigra,Ave,Carnívoro,Vulnerable,Destrucción de humedales,Bosques y humedales,Parque Natural Montesinho,PT,43.0,-1.0
6,Víbora cantábrica,Vipera seoanei,Reptil,Carnívoro,Casi Amenazada,Fragmentación de hábitat,Montañas y pastizales,Parque Natural de Somiedo,ES,42.5,-5.5
7,Galápago europeo,Emys orbicularis,Reptil,Omnívoro,Vulnerable,Contaminación de aguas,Ríos y lagos,Parque Nacional Doñana,PT,41.5,-4.0


In [17]:
df_final['ubicacion'] = df_final['pais'].fillna('') + ' - ' + \
                  df_final['area_protegida'].fillna('') + ' - ' + \
                  df_final['tipo_habitat'].fillna('')


In [20]:
df_final.drop(['pais', 'area_protegida', 'tipo_habitat'], axis=1, inplace=True)


In [21]:
df_final

Unnamed: 0,nombre_comun,nombre_cientifico,grupo,dieta,estado_conservacion,causa_amenaza,latitud,longitud,ubicacion
0,Lince ibérico,Lynx pardinus,Mamífero,Carnívoro,En Peligro Crítico,Pérdida de hábitat,38.5,-3.5,ES - Parque Natural Sierra de Andújar - Bosque...
1,Águila imperial ibérica,Aquila adalberti,Ave,Carnívoro,En Peligro,Caza ilegal,39.0,-0.5,ES - Parque Natural Cazorla - Montañas y bosques
2,Tortuga mediterránea,Testudo hermanni,Reptil,Herbívoro,Vulnerable,Destrucción de hábitat,41.0,2.0,ES - Parque Natural dels Ports - Matorrales y ...
3,Rana ibérica,Rana iberica,Anfibio,Insectívoro,En Peligro,Contaminación de ríos,40.5,-6.0,PT - Parque Nacional Peneda-Gerês - Ríos y arr...
4,Trucha común,Salmo trutta,Pez,Omnívoro,Preocupación menor,Sobrepesca,42.0,-3.0,ES - Parque Nacional Picos de Europa - Ríos y ...
5,Cigüeña negra,Ciconia nigra,Ave,Carnívoro,Vulnerable,Destrucción de humedales,43.0,-1.0,PT - Parque Natural Montesinho - Bosques y hum...
6,Víbora cantábrica,Vipera seoanei,Reptil,Carnívoro,Casi Amenazada,Fragmentación de hábitat,42.5,-5.5,ES - Parque Natural de Somiedo - Montañas y pa...
7,Galápago europeo,Emys orbicularis,Reptil,Omnívoro,Vulnerable,Contaminación de aguas,41.5,-4.0,PT - Parque Nacional Doñana - Ríos y lagos


In [22]:
# Nuevo orden de columnas
nuevo_orden = [
    'nombre_comun',
    'nombre_cientifico',
    'grupo',
    'dieta',
    'ubicacion',
    'estado_conservacion',
    'causa_amenaza',
    'latitud',
    'longitud'
]

# Reordenar columnas
df_final = df_final[nuevo_orden]


In [23]:
df_final

Unnamed: 0,nombre_comun,nombre_cientifico,grupo,dieta,ubicacion,estado_conservacion,causa_amenaza,latitud,longitud
0,Lince ibérico,Lynx pardinus,Mamífero,Carnívoro,ES - Parque Natural Sierra de Andújar - Bosque...,En Peligro Crítico,Pérdida de hábitat,38.5,-3.5
1,Águila imperial ibérica,Aquila adalberti,Ave,Carnívoro,ES - Parque Natural Cazorla - Montañas y bosques,En Peligro,Caza ilegal,39.0,-0.5
2,Tortuga mediterránea,Testudo hermanni,Reptil,Herbívoro,ES - Parque Natural dels Ports - Matorrales y ...,Vulnerable,Destrucción de hábitat,41.0,2.0
3,Rana ibérica,Rana iberica,Anfibio,Insectívoro,PT - Parque Nacional Peneda-Gerês - Ríos y arr...,En Peligro,Contaminación de ríos,40.5,-6.0
4,Trucha común,Salmo trutta,Pez,Omnívoro,ES - Parque Nacional Picos de Europa - Ríos y ...,Preocupación menor,Sobrepesca,42.0,-3.0
5,Cigüeña negra,Ciconia nigra,Ave,Carnívoro,PT - Parque Natural Montesinho - Bosques y hum...,Vulnerable,Destrucción de humedales,43.0,-1.0
6,Víbora cantábrica,Vipera seoanei,Reptil,Carnívoro,ES - Parque Natural de Somiedo - Montañas y pa...,Casi Amenazada,Fragmentación de hábitat,42.5,-5.5
7,Galápago europeo,Emys orbicularis,Reptil,Omnívoro,PT - Parque Nacional Doñana - Ríos y lagos,Vulnerable,Contaminación de aguas,41.5,-4.0


SOLO ME DA UNO POR CADA ESPECIE 


In [39]:
# paso_a_paso_merge.py
import pandas as pd
import unicodedata

# ------------- 1. Cargar el Excel exportado del PDF -------------
excel_path = "Especies.xlsx"   # ajusta si el archivo tiene otro nombre

# Cargar todas las hojas en un solo DataFrame (si solo hay 1 hoja también funciona)
xls = pd.ExcelFile(excel_path)
df_excel = pd.concat([xls.parse(sheet) for sheet in xls.sheet_names], ignore_index=True)

print("Hojas en el Excel:", xls.sheet_names)
print("Tamaño combinado del Excel:", df_excel.shape)
print("Primeras filas (raw) del Excel:")
print(df_excel.head(6))


# ------------- 2. Normalizar nombres de columnas esperadas -------------
# Ajusta estos nombres según veas en el df_excel.head()
# Buscamos columnas parecidas a 'Especie', 'Categoria', 'Localizacion'
cols = {c: c.strip() for c in df_excel.columns}
df_excel.rename(columns=cols, inplace=True)

# Intentos típicos de nombre:
possible_especie = [c for c in df_excel.columns if 'espec' in c.lower()]
possible_categoria = [c for c in df_excel.columns if 'cat' in c.lower()]
possible_local = [c for c in df_excel.columns if 'local' in c.lower() or 'ubic' in c.lower()]

print("\nColumnas detectadas en Excel:", list(df_excel.columns))
print("Columna candidata 'Especie':", possible_especie)
print("Columna candidata 'Categoria':", possible_categoria)
print("Columna candidata 'Localizacion':", possible_local)

# Si las detecta, renombramos a nombres estandar
if possible_especie:
    df_excel.rename(columns={possible_especie[0]: 'Especie'}, inplace=True)
if possible_categoria:
    df_excel.rename(columns={possible_categoria[0]: 'Categoria'}, inplace=True)
if possible_local:
    df_excel.rename(columns={possible_local[0]: 'Localizacion'}, inplace=True)

# Si no existe 'Localizacion' y hay muchas columnas, las combinamos en una sola
if 'Localizacion' not in df_excel.columns:
    # combinar todas las columnas a partir de la 3ª (ajusta índice si hace falta)
    if df_excel.shape[1] > 2:
        df_excel['Localizacion'] = df_excel.iloc[:, 2:].fillna('').astype(str).agg(' '.join, axis=1)
        print("\nSe ha creado 'Localizacion' combinando columnas a partir de la columna 3.")
    else:
        df_excel['Localizacion'] = ''

# Mostrar resultado tras renombrar/combinar
print("\nColumnas finales del Excel:", list(df_excel.columns))
print(df_excel[['Especie','Categoria','Localizacion']].head(8))


# ------------- 3. Limpiar valores: remover saltos de línea, espacios, acentos, poner en minúsculas -------------
def normalize_text(s):
    if pd.isna(s):
        return ''
    if not isinstance(s, str):
        s = str(s)
    s = s.replace('\n', ' ').strip()
    # quitar acentos
    s = ''.join(ch for ch in unicodedata.normalize('NFKD', s) if not unicodedata.combining(ch))
    s = ' '.join(s.split())  # colapsar múltiples espacios
    return s.lower()

# Crear columnas normalizadas para hacer merge robusto
df_excel['Especie_norm'] = df_excel['Especie'].apply(normalize_text)
df_excel['Categoria_norm'] = df_excel['Categoria'].apply(normalize_text)
df_excel['Localizacion_norm'] = df_excel['Localizacion'].apply(normalize_text)

print("\nPrimeras 'Especie_norm' del Excel:")
print(df_excel['Especie_norm'].head(6))


# ------------- 4. Preparar tu DataFrame del proyecto (df) para unir -------------
# Asumo que tu DataFrame del proyecto se llama `df`. Si tiene otro nombre, cámbialo aquí.
# Muestra sus columnas para confirmar
print("\nColumnas de tu DataFrame del proyecto (df):")
print(df.columns)

# Crear columnas normalizadas en tu df para hacer merges robustos
# Intentamos usar 'nombre_cientifico' y 'nombre_comun' si existen; si no, inspecciona y ajusta.
if 'nombre_cientifico' in df.columns:
    df['nombre_cientifico_norm'] = df['nombre_cientifico'].apply(normalize_text)
else:
    df['nombre_cientifico_norm'] = ''

if 'nombre_comun' in df.columns:
    df['nombre_comun_norm'] = df['nombre_comun'].apply(normalize_text)
else:
    df['nombre_comun_norm'] = ''

print("\nEjemplos normalizados en tu df:")
print(df[['nombre_cientifico','nombre_cientifico_norm']].head(6) if 'nombre_cientifico' in df.columns else df[['nombre_comun','nombre_comun_norm']].head(6))


# ------------- 5. Intentar merge: primero por nombre científico, luego por nombre común -------------
# Merge 1: por nombre científico (si ambas columnas existen)
if 'nombre_cientifico_norm' in df.columns and df['nombre_cientifico_norm'].str.len().sum() > 0:
    merged1 = df.merge(df_excel, left_on='nombre_cientifico_norm', right_on='Especie_norm', how='left', suffixes=('','_miteco'))
    n_matched1 = merged1['Especie'].notna().sum()
    print(f"\nMerge por nombre científico: coincidencias encontradas = {n_matched1} / {len(df)}")
else:
    merged1 = None
    print("\nNo se intentó merge por nombre científico (columna ausente o vacía).")

# Merge 2: por nombre común (si existe)
merged2 = None
if 'nombre_comun_norm' in df.columns and df['nombre_comun_norm'].str.len().sum() > 0:
    merged2 = df.merge(df_excel, left_on='nombre_comun_norm', right_on='Especie_norm', how='left', suffixes=('','_miteco'))
    n_matched2 = merged2['Especie'].notna().sum()
    print(f"Merge por nombre común: coincidencias encontradas = {n_matched2} / {len(df)}")
else:
    print("No se intentó merge por nombre común (columna ausente o vacía).")

# ------------- 6. Elegir resultado final inteligente -------------
# Si merge1 produjo matches significativos, lo preferimos; sino intentamos merge2; si ambos útiles podemos combinar info.
if merged1 is not None and merged1['Especie'].notna().sum() > 0:
    df_final = merged1
    metodo = 'cientifico'
elif merged2 is not None and merged2['Especie'].notna().sum() > 0:
    df_final = merged2
    metodo = 'comun'
else:
    # ninguno tuvo matches: hacemos un left-join sin normalizar para ver si hay alguna coincidencia directa
    df_final = df.merge(df_excel, left_on='nombre_cientifico', right_on='Especie', how='left') if 'nombre_cientifico' in df.columns else df.merge(df_excel, left_on='nombre_comun', right_on='Especie', how='left')
    metodo = 'directo-fallback'
print(f"\nUsando merge por: {metodo}")
print("Filas en df_final:", df_final.shape)


# ------------- 7. Mostrar no coincidencias para que las revises -------------
no_coincidencias = df_final[df_final['Especie'].isna()]
print("\nEjemplos de filas SIN coincidencia (5 primeras) — revisa nombres para posibles desajustes:")
print(no_coincidencias.head(5)[['nombre_comun','nombre_cientifico','nombre_cientifico_norm','nombre_comun_norm']].head(5))

# ------------- 8. Opcional: guardar resultado a CSV -------------
out_path = "df_unido_con_excel_especies.csv"
df_final.to_csv(out_path, index=False, encoding='utf-8-sig')
print(f"\nResultado guardado en: {out_path}")

# ------------- 9. Siguiente paso sugerido -------------
print("\nSiguiente paso recomendado: inspeccionar las primeras filas sin coincidencia y corregir manualmente nombres científicos o comunes (typos, paréntesis, sinónimos).")
print("Si quieres, te doy ahora un snippet para generar un reporte de las 'Especies' del Excel que no se han encontrado en tu df, para que las puedas mapear manualmente.")


Hojas en el Excel: ['Table 1']
Tamaño combinado del Excel: (322, 9)
Primeras filas (raw) del Excel:
                                     ESPECIE                   CATEGORÍA  \
0                                        NaN                         NaN   
1                    AGUILA IMPERIAL IBERICA  I. EN PELIGRO DE EXTINCION   
2           AVETORO COMÚN Botaurus stellaris  I. EN PELIGRO DE EXTINCION   
3                            AVUTARDA HUBARA  I. EN PELIGRO DE EXTINCION   
4         CABEZON (Cheirolophus metlesicsii)  I. EN PELIGRO DE EXTINCION   
5  CARDO DE PLATA (Stemmacantha\ncynaroides)  I. EN PELIGRO DE EXTINCION   

  LOCALIZACIÓN                               Unnamed: 3     Unnamed: 4  \
0     CANARIAS         ANDALUCIA/EXTREM ADURA Y MELILLA  CASTILLA‐LEON   
1          NaN  CORTIJOS DE VICOS Y GARRAPILOS (Campeo)            NaN   
2          NaN                                      NaN            NaN   
3       PAJARA                                      NaN            NaN 

KeyError: "['nombre_comun'] not in index"