# 🧬 Taller de Minería y Exploración de Bases de Datos Biológicas con Python  
### Universidad de Sonora (UNISON)  
### Universidad Nacional Autónoma de México (UNAM)

👩‍🏫 **Instructores:**  
- cDra. Stephanye Mata-González  
- cDr. Kevin Manuel Galván Lara  


---

📘 **Objetivo general:**  
Aplicar herramientas de Python para la gestión, limpieza, análisis y visualización de bases de datos biológicas usando el dataset  
`db_Dasypus_novemcinctus.csv`.

---

# 🧩 BLOQUE 3 – Primeros pasos con Pandas 🐍

In [None]:
# 🔹 1. Importar librerías y cargar datos
import pandas as pd
# Carga el archivo CSV
# df = pd.read_csv('db_Dasypus_novemcinctus.csv')


In [None]:
# 🔹 2. Explorar estructura
# Usa .head(), .info(), .shape

In [None]:
# 🔹 3. Identificar valores faltantes
# df.isna().sum()

In [None]:
# 🔹 4. Resumen estadístico
# df.describe()

In [None]:
# 🔹 5. Contar registros por país
# df['country'].value_counts()

💬 **Reflexión:**  
¿Qué tipo de información contiene este dataset y qué variables parecen más importantes?

🚀 **Reto avanzado:**  
Crea un gráfico de barras con los 5 países con más registros y guarda el resultado en `resumen_paises.csv`.


# 🧩 BLOQUE 4 – Manipulación y selección básica 🧠

In [None]:
# 🔹 1. Seleccionar columnas
# df[['scientificName','year','country']]

In [None]:
# 🔹 2. Filtrar registros (México, año > 2000)

In [None]:
# 🔹 3. Ordenar por año

In [None]:
# 🔹 4. Crear nueva columna 'decada'

In [None]:
# 🔹 5. Eliminar duplicados

💬 **Reflexión:**  
¿Cuántos registros quedaron tras el filtrado y limpieza?

🚀 **Reto avanzado:**  
Genera un subconjunto limpio de los últimos 30 años y guárdalo como `datos_limpios.csv`.

# 🧩 BLOQUE 5 – Accediendo a datos de biodiversidad vía API 🌎

In [None]:
# pip install pygbif
from pygbif import species, occurrences

In [None]:
# 🔹 1. Buscar especie
# sp = species.name_backbone(name='Dasypus novemcinctus')
# sp

In [None]:
# 🔹 2. Descargar registros
# data = occurrences.search(taxonKey=sp['usageKey'], limit=100)

In [None]:
# 🔹 3. Convertir en DataFrame
# df_api = pd.DataFrame(data['results'])
# df_api.head()

💬 **Reflexión:**  
¿Qué tipo de información devuelve GBIF?

🚀 **Reto avanzado:**  
Descarga otra especie y grafica el número de registros por país.

# 🧩 BLOQUE 6 – Limpieza y validación de datos 🧹

In [None]:
# 🔹 1. Valores faltantes y duplicados
# df.isna().sum()
# df.duplicated().sum()

In [None]:
# 🔹 2. Filtrar coordenadas válidas
# df = df[(df.decimalLatitude.between(-90,90)) & (df.decimalLongitude.between(-180,180))]

In [None]:
# 🔹 3. Normalizar nombres científicos
# df['scientificName'] = df['scientificName'].str.strip().str.title()

In [None]:
# 🔹 4. Filtrar años válidos
# df = df[df['year'].between(1900,2025)]

💬 **Reflexión:**  
¿Cuántos registros se eliminaron o corrigieron?

🚀 **Reto avanzado:**  
Genera un reporte con el porcentaje de valores limpios por columna.

# 🧩 BLOQUE 7 – Análisis exploratorio y visualización 📊

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 🔹 1. Estadísticas descriptivas
# df.describe()

In [None]:
# 🔹 2. Gráfico de barras por país
# sns.countplot(data=df, x='country'); plt.xticks(rotation=90)

In [None]:
# 🔹 3. Histograma de años
# sns.histplot(df['year'], bins=20)

In [None]:
# 🔹 4. Boxplot por país
# sns.boxplot(x='country', y='year', data=df)

🚀 **Reto avanzado:**  
Crea un panel con tres subgráficos:  
1️⃣ Registros por país  
2️⃣ Registros por década  
3️⃣ Relación entre altitud y año (si existe esa columna)


# 🧩 BLOQUE 8 – Introducción al análisis espacial con GeoPandas 🌍


In [None]:
# import geopandas as gpd
# from shapely.geometry import Point

# 🔹 1. Crear GeoDataFrame
# gdf = gpd.GeoDataFrame(df, geometry=gpd.points_from_xy(df.decimalLongitude, df.decimalLatitude), crs='EPSG:4326')


In [None]:
# 🔹 2. Graficar puntos
# gdf.plot(figsize=(8,6), color='red', markersize=5)


In [None]:
# 🔹 3. Mapa mundial + registros
# world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
# ax = world.plot(color='lightgray')
# gdf.plot(ax=ax, color='green', markersize=5)


🚀 **Reto avanzado:**  
Agrega mapa base con `contextily` y guarda el mapa como `mapa_especie.png`.

# 🧩 BLOQUE 9 – Visualización espacial avanzada y mapas interactivos 🗺️


In [None]:
# import folium

# 🔹 1. Crear mapa interactivo
# m = folium.Map(location=[20,-100], zoom_start=5)
# for x, y in zip(df['decimalLatitude'], df['decimalLongitude']):
#     folium.CircleMarker([x,y], radius=2, color='blue').add_to(m)
# m


In [None]:
# 🔹 2. Intersección espacial (opcional con GeoPandas)
# gpd.sjoin(gdf, world, how='inner', predicate='within')


🚀 **Reto final:**  
Crea un mapa interactivo con colores por país y *popup* que muestre el nombre científico.  
Guarda el resultado como `mapa_interactivo.html`.
