# Bloque 7: An√°lisis Exploratorio y Visualizaci√≥n Inicial

En este bloque aprender√°s a:
‚úÖ Obtener estad√≠sticas descriptivas con Pandas.  
‚úÖ Agrupar y resumir informaci√≥n (por pa√≠s, a√±o, etc.).  
‚úÖ Visualizar los datos con Matplotlib y Seaborn.  
‚úÖ Detectar patrones y tendencias en tus datos de biodiversidad.

üí° *Objetivo:* Explorar de forma visual los registros biol√≥gicos limpios obtenidos en el bloque anterior.


2. Importar librer√≠as y cargar el dataset limpio

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de estilo visual
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10,5)

# Cargar el dataset limpio
df = pd.read_csv('gbif_dasypus_limpio.csv')

# Vista inicial
df.head()


3. Estad√≠sticas descriptivas b√°sicas

In [None]:
# Informaci√≥n general
df.info()

# Estad√≠sticas num√©ricas (a√±os, coordenadas)
df.describe()


In [None]:
# Conteo de registros por pa√≠s
df['country'].value_counts().head(10)


In [None]:
# Conteo por tipo de registro
df['basisOfRecord'].value_counts()


Preguntas gu√≠a:

¬øQu√© pa√≠ses tienen m√°s registros?

¬øQu√© tipo de registro es m√°s com√∫n?

¬øQu√© rango de a√±os abarca tu dataset?

4. Registros por a√±o

In [None]:
# Agrupar registros por a√±o
registros_por_anio = df['year'].value_counts().sort_index()

# Gr√°fico de barras
registros_por_anio.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('N√∫mero de registros por a√±o')
plt.xlabel('A√±o')
plt.ylabel('Cantidad de registros')
plt.show()


*Ejercicio:
Describe el patr√≥n temporal.
¬øHay periodos de aumento o disminuci√≥n? ¬øPodr√≠a reflejar campa√±as de muestreo o proyectos espec√≠ficos?*

5. Registros por pa√≠s o estado

In [None]:
# Top 10 pa√≠ses
top_paises = df['country'].value_counts().head(10)

sns.barplot(x=top_paises.values, y=top_paises.index, palette="viridis")
plt.title('Top 10 pa√≠ses con m√°s registros')
plt.xlabel('N√∫mero de registros')
plt.ylabel('Pa√≠s')
plt.show()


In [None]:
# Si tu dataset tiene columna de estado/provincia
if 'stateProvince' in df.columns:
    top_estados = df['stateProvince'].value_counts().head(10)
    sns.barplot(x=top_estados.values, y=top_estados.index, palette="mako")
    plt.title('Top 10 estados/provincias con m√°s registros')
    plt.xlabel('N√∫mero de registros')
    plt.ylabel('Estado/Provincia')
    plt.show()


*Reto:
Compara el n√∫mero de registros entre pa√≠ses tropicales y templados. ¬øQu√© patrones observas?*

6. Distribuci√≥n de coordenadas (histogramas)

In [None]:
# Distribuci√≥n de latitudes
sns.histplot(df['decimalLatitude'], bins=30, color='teal')
plt.title('Distribuci√≥n de latitudes')
plt.xlabel('Latitud')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
# Distribuci√≥n de longitudes
sns.histplot(df['decimalLongitude'], bins=30, color='orange')
plt.title('Distribuci√≥n de longitudes')
plt.xlabel('Longitud')
plt.ylabel('Frecuencia')
plt.show()


*Interpretaci√≥n:
¬øLa especie se distribuye m√°s en el hemisferio norte o sur? ¬øOriente u occidente?*

7. Visualizaci√≥n de relaciones entre variables

In [None]:
# Relaci√≥n entre a√±o y latitud (ver si hay cambios en distribuci√≥n)
sns.scatterplot(data=df, x='year', y='decimalLatitude', alpha=0.5)
plt.title('Distribuci√≥n latitudinal a trav√©s del tiempo')
plt.xlabel('A√±o')
plt.ylabel('Latitud')
plt.show()


*Reto:
¬øHay un desplazamiento de registros hacia latitudes m√°s altas o bajas a lo largo del tiempo?*

In [None]:
# Boxplot de a√±os por pa√≠s (solo si hay varios pa√≠ses)
sns.boxplot(data=df, x='country', y='year')
plt.title('Distribuci√≥n temporal de registros por pa√≠s')
plt.xticks(rotation=90)
plt.show()


In [None]:
# Boxplot por tipo de registro
sns.boxplot(data=df, x='basisOfRecord', y='year')
plt.title('Distribuci√≥n de a√±os seg√∫n tipo de registro')
plt.xticks(rotation=45)
plt.show()


*Reflexi√≥n:
¬øAlgunos tipos de registros son m√°s recientes (por ejemplo, observaciones humanas vs. espec√≠menes de museo)?*

# üß† Actividad pr√°ctica

Usa tu propio dataset limpio (de GBIF) y responde:
1. ¬øCu√°l es el rango temporal de tus datos?
2. ¬øCu√°les son los 3 pa√≠ses con m√°s registros?
3. ¬øC√≥mo ha cambiado el n√∫mero de registros por a√±o?
4. Crea un gr√°fico de barras del n√∫mero de registros por tipo de `basisOfRecord`.
5. Crea un histograma de la distribuci√≥n de latitudes.

üí¨ Extra: Si tu dataset contiene varios taxones, crea un gr√°fico con el n√∫mero de registros por especie.


Ejemplo de gr√°fico para el punto 4:

In [None]:
sns.countplot(data=df, y='basisOfRecord', order=df['basisOfRecord'].value_counts().index, palette='crest')
plt.title('N√∫mero de registros por tipo de observaci√≥n')
plt.xlabel('Cantidad')
plt.ylabel('Tipo de registro')
plt.show()


## üîπ Mini Reto: Exploraci√≥n de Patrones Biol√≥gicos

Selecciona una de las siguientes preguntas y genera un an√°lisis visual con tu dataset:

1. ¬øEn qu√© a√±os se ha recolectado m√°s informaci√≥n de la especie?
2. ¬øQu√© pa√≠s o regi√≥n concentra la mayor√≠a de los registros?
3. ¬øExisten tendencias espaciales o temporales notables?
4. ¬øHay relaci√≥n entre tipo de registro y a√±o?

Incluye al menos:
- Una tabla resumen (`groupby()` o `value_counts()`).
- Dos gr√°ficos (uno de barras y uno de dispersi√≥n o boxplot).
- Una interpretaci√≥n corta de tus resultados.

Guarda tu notebook como `bloque7_exploracion_[tu_nombre].ipynb`.


# -----
En este bloque aprendiste a:
‚úÖ Calcular estad√≠sticas descriptivas y resumir datos con Pandas.  
‚úÖ Crear visualizaciones b√°sicas con Matplotlib y Seaborn.  
‚úÖ Detectar patrones temporales, espaciales y taxon√≥micos en tus datos.  

üöÄ En el siguiente bloque (Bloque 8) aprender√°s a usar **GeoPandas** para representar espacialmente los registros sobre mapas, generando tus primeros mapas tem√°ticos.
