# Bloque 7: Análisis Exploratorio y Visualización Inicial

En este bloque aprenderás a:
✅ Obtener estadísticas descriptivas con Pandas.  
✅ Agrupar y resumir información (por país, año, etc.).  
✅ Visualizar los datos con Matplotlib y Seaborn.  
✅ Detectar patrones y tendencias en tus datos de biodiversidad.

💡 *Objetivo:* Explorar de forma visual los registros biológicos limpios obtenidos en el bloque anterior.


2. Importar librerías y cargar el dataset limpio

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo visual
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10,5)

# Cargar el dataset limpio
df = pd.read_csv('/content/db_Dasypus_novemcinctus.csv')

# Vista inicial
df.head()


3. Estadísticas descriptivas básicas

In [None]:
# Información general
df.info()

# Estadísticas numéricas (años, coordenadas)
df.describe()


In [None]:
# Conteo de registros por país
df['countryCode'].value_counts().head(10)

In [None]:
# Conteo por tipo de registro
df['basisOfRecord'].value_counts()

Preguntas guía:

¿Qué países tienen más registros?

¿Qué tipo de registro es más común?

¿Qué rango de años abarca tu dataset?

4. Registros por año

In [None]:
# Agrupar registros por año
registros_por_anio = df['year'].value_counts().sort_index()

# Gráfico de barras
registros_por_anio.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('Número de registros por año')
plt.xlabel('Año')
plt.ylabel('Cantidad de registros')
plt.show()


Ejercicio:
Describe el patrón temporal.
¿Hay periodos de aumento o disminución? ¿Podría reflejar campañas de muestreo o proyectos específicos?

5. Registros por país o estado

In [None]:
# Top 10 países
top_paises = df['countryCode'].value_counts().head(10)

sns.barplot(x=top_paises.values, y=top_paises.index, palette="viridis")
plt.title('Top 10 países con más registros')
plt.xlabel('Número de registros')
plt.ylabel('País')
plt.show()


In [None]:
# Si tu dataset tiene columna de estado/provincia
if 'stateProvince' in df.columns:
    top_estados = df['stateProvince'].value_counts().head(10)
    sns.barplot(x=top_estados.values, y=top_estados.index, palette="mako")
    plt.title('Top 10 estados/provincias con más registros')
    plt.xlabel('Número de registros')
    plt.ylabel('Estado/Provincia')
    plt.show()


Reto:
Compara el número de registros entre países tropicales y templados. ¿Qué patrones observas?

6. Distribución de coordenadas (histogramas)

In [None]:
# Distribución de latitudes
sns.histplot(df['decimalLatitude'], bins=30, color='teal')
plt.title('Distribución de latitudes')
plt.xlabel('Latitud')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
# Distribución de longitudes
sns.histplot(df['decimalLongitude'], bins=30, color='orange')
plt.title('Distribución de longitudes')
plt.xlabel('Longitud')
plt.ylabel('Frecuencia')
plt.show()


Interpretación:
¿La especie se distribuye más en el hemisferio norte o sur? ¿Oriente u occidente?

7. Visualización de relaciones entre variables

In [None]:
# Relación entre año y latitud (ver si hay cambios en distribución)
sns.scatterplot(data=df, x='year', y='decimalLatitude', alpha=0.5)
plt.title('Distribución latitudinal a través del tiempo')
plt.xlabel('Año')
plt.ylabel('Latitud')
plt.show()


Reto:
¿Hay un desplazamiento de registros hacia latitudes más altas o bajas a lo largo del tiempo?

8. Boxplot por país o tipo de registro

In [None]:
# Boxplot de años por país (solo si hay varios países)
sns.boxplot(data=df, x='countryCode', y='year')
plt.title('Distribución temporal de registros por país')
plt.xticks(rotation=90)
plt.show()


In [None]:
# Boxplot por tipo de registro
sns.boxplot(data=df, x='basisOfRecord', y='year')
plt.title('Distribución de años según tipo de registro')
plt.xticks(rotation=45)
plt.show()


Reflexión:
¿Algunos tipos de registros son más recientes (por ejemplo, observaciones humanas vs. especímenes de museo)?

## 🧠 Actividad práctica

Usa tu propio dataset limpio (de GBIF) y responde:
1. ¿Cuál es el rango temporal de tus datos?
2. ¿Cuáles son los 3 países con más registros?
3. ¿Cómo ha cambiado el número de registros por año?
4. Crea un gráfico de barras del número de registros por tipo de `basisOfRecord`.
5. Crea un histograma de la distribución de latitudes.

💬 Extra: Si tu dataset contiene varios taxones, crea un gráfico con el número de registros por especie.


Ejemplo de gráfico para el punto 4:

In [None]:
sns.countplot(data=df, y='basisOfRecord', order=df['basisOfRecord'].value_counts().index, palette='crest')
plt.title('Número de registros por tipo de observación')
plt.xlabel('Cantidad')
plt.ylabel('Tipo de registro')
plt.show()


## 🔹 Mini Reto: Exploración de Patrones Biológicos

Selecciona una de las siguientes preguntas y genera un análisis visual con tu dataset:

1. ¿En qué años se ha recolectado más información de la especie?
2. ¿Qué país o región concentra la mayoría de los registros?
3. ¿Existen tendencias espaciales o temporales notables?
4. ¿Hay relación entre tipo de registro y año?

Incluye al menos:
- Una tabla resumen (`groupby()` o `value_counts()`).
- Dos gráficos (uno de barras y uno de dispersión o boxplot).
- Una interpretación corta de tus resultados.

Guarda tu notebook como `bloque7_exploracion_[tu_nombre].ipynb`.


En este bloque aprendiste a:
✅ Calcular estadísticas descriptivas y resumir datos con Pandas.  
✅ Crear visualizaciones básicas con Matplotlib y Seaborn.  
✅ Detectar patrones temporales, espaciales y taxonómicos en tus datos.  

🚀 En el siguiente bloque (Bloque 8) aprenderás a usar **GeoPandas** para representar espacialmente los registros sobre mapas, generando tus primeros mapas temáticos.
