# 🌍 Análisis de Datos Ambientales WDPA (Áreas Protegidas)
**Autor:** José Gonzalías Millán  
**Fecha:** 2025-10-19

Este notebook analiza los datos de áreas protegidas globales (WDPA), realizando un proceso de limpieza, selección de columnas relevantes y visualización de resultados.

## 🧰 Importación de librerías
Se importan las librerías necesarias para la manipulación de datos y la generación de visualizaciones.

In [None]:
import pandas as pd
import zipfile
import matplotlib.pyplot as plt
import seaborn as sns
import os

## 📦 Extracción del archivo ZIP
Se descomprime el archivo ZIP que contiene los datos de la WDPA para poder acceder al CSV principal.

In [None]:
zip_file_path = 'WDPA_WDOECM_Oct2025_Public_all_csv (1).zip'
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    csv_file_name = zip_ref.namelist()[0]
    zip_ref.extractall()
print(f'Archivo extraído: {csv_file_name}')

## 🧹 Limpieza del dataset principal
Seleccionamos las columnas más relevantes y verificamos los valores faltantes.

In [None]:
wdpa_data = pd.read_csv(csv_file_name)
required_columns = ['WDPAID', 'NAME', 'DESIG_ENG', 'IUCN_CAT', 'MARINE', 'REP_AREA', 'GIS_AREA', 'STATUS', 'STATUS_YR', 'GOV_TYPE', 'OWN_TYPE', 'MANG_AUTH', 'PARENT_ISO3', 'ISO3']
missing_columns = [col for col in required_columns if col not in wdpa_data.columns]
if missing_columns:
    print(f'Advertencia: faltan columnas {missing_columns}')
    wdpa_cleaned = wdpa_data[[col for col in required_columns if col in wdpa_data.columns]]
else:
    wdpa_cleaned = wdpa_data[required_columns]
display(wdpa_cleaned.head())
display(wdpa_cleaned.isnull().sum())
wdpa_cleaned.to_csv('WDPA_cleaned_dataset.csv', index=False)
print('Dataset limpio guardado como WDPA_cleaned_dataset.csv')

## 📂 Limpieza del dataset secundario
Ahora limpiamos el archivo de fuentes secundarias `WDPA_sources_Oct2025.csv`, que contiene información complementaria sobre las áreas protegidas.

In [None]:
archivo = 'WDPA_sources_Oct2025.csv'
datos = pd.read_csv(archivo)
datos_limpios = datos[['metadataid', 'data_title', 'resp_party', 'year', 'update_yr', 'ref_system', 'scale', 'lineage', 'citation', 'disclaimer', 'language', 'verifier']]
display(datos_limpios.head())
display(datos_limpios.isnull().sum())
datos_limpios.to_csv('WDPA_dataset_limpio.csv', index=False)
print('Dataset limpio guardado como WDPA_dataset_limpio.csv')

## 📊 Visualización de datos
Se crean gráficos descriptivos para observar tendencias en la creación de áreas protegidas y las entidades responsables.

In [None]:
plt.figure(figsize=(12,6))
sns.countplot(data=datos_limpios, x='year', palette='viridis')
plt.title('Número de Áreas Protegidas por Año de Creación', fontsize=16)
plt.xlabel('Año de Creación')
plt.ylabel('Número de Áreas Protegidas')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(12,8))
sns.countplot(data=datos_limpios, y='resp_party', palette='muted', order=datos_limpios['resp_party'].value_counts().index[:10])
plt.title('Áreas Protegidas por Entidad Responsable', fontsize=16)
plt.xlabel('Número de Áreas Protegidas')
plt.ylabel('Entidad Responsable')
plt.tight_layout()
plt.show()

## 🧠 Conclusiones
- Existen variaciones importantes en la creación de áreas protegidas a lo largo de los años.
- Algunas entidades son responsables de un número significativamente mayor de áreas.
- La limpieza de datos permitió estructurar un dataset más manejable y útil para futuros análisis.

✅ *Análisis finalizado correctamente.*