# Aplica funciones para la limpieza y estructuración de los datos

### Objetivo

Este tutorial te guiará paso a paso en cómo procesar un archivo Excel con información sobre presas en México, convirtiéndolo en un conjunto de datos geoespaciales estructurado y listo para su análisis en formato GeoPackage.

El proceso incluye una serie de pasos en los que se aplican funciones contenidas en el módulo ``preprocesos_capas`` de este repositorio. Aunque el ejemplo sigue un flujo específico, es importante destacar que cada conjunto de datos tiene sus propias particularidades, por lo que la secuencia puede variar según tus necesidades. Este tutorial te ofrece una referencia práctica aplicada a un caso real.

### Paso 1: Importar Librerías y Configurar el Entorno

In [1]:
import warnings
warnings.filterwarnings("ignore", category=RuntimeWarning, module="pyogrio")
import sys
sys.path.append('../')

import os
import geopandas as gpd
from modulos.preprocesos_capas.importar import *
from modulos.preprocesos_capas.procesos import *

### Paso 2: Cargar Datos desde Excel

Cargamos un archivo Excel (.xlsx) que contiene los datos de las presas.

* Esta función despliega un cuadro para seleccionar el archivo Excel.
* Devuelve un DataFrame con los datos cargados.

In [2]:
df = cargar_excel()

Resumen de la capa:

Dimensiones de la tabla --> Filas: 210, Columnas: 386

Nombres de los campos -->
clavesih, nombreoficial, nombrecomun, estado, nommunicipio, regioncna, latitud, longitud, uso, corriente, tipovertedor, inicioop, elevcorona, bordolibre, nameelev, namealmac, namoelev, namoalmac, alturacortina, NOM_ENT, CVE_ENT, NOM_MUN, CVE_MUN, 2021_01_01, 2021_01_02, 2021_01_03, 2021_01_04, 2021_01_05, 2021_01_06, 2021_01_07, 2021_01_08, 2021_01_09, 2021_01_10, 2021_01_11, 2021_01_12, 2021_01_13, 2021_01_14, 2021_01_15, 2021_01_16, 2021_01_17, 2021_01_18, 2021_01_19, 2021_01_20, 2021_01_21, 2021_01_22, 2021_01_23, 2021_01_24, 2021_01_25, 2021_01_26, 2021_01_27, 2021_01_28, 2021_01_29, 2021_01_30, 2021_01_31, 2021_02_01, 2021_02_02, 2021_02_03, 2021_02_04, 2021_02_05, 2021_02_06, 2021_02_07, 2021_02_08, 2021_02_09, 2021_02_10, 2021_02_11, 2021_02_12, 2021_02_13, 2021_02_14, 2021_02_15, 2021_02_16, 2021_02_17, 2021_02_18, 2021_02_19, 2021_02_20, 2021_02_21, 2021_02_22, 2021_02_23, 202

### Paso 3: Crear un Identificador (GID)
Generamos una columna única `g_id` que será utilizada como identificador.

In [3]:
df = crea_gid(df)
df.head(3)

Unnamed: 0,g_id,clavesih,nombreoficial,nombrecomun,estado,nommunicipio,regioncna,latitud,longitud,uso,...,2021_12_22,2021_12_23,2021_12_24,2021_12_25,2021_12_26,2021_12_27,2021_12_28,2021_12_29,2021_12_30,2021_12_31
0,1,ABRAG,"Abelardo L. Rodríguez, Ags.","Abelardo L. Rodríguez, Ags.",Aguascalientes,Jesús María,Lerma-Santiago-Pacífico,21.916944,-102.427778,RI,...,0.806901,0.806901,0.797837,0.797837,0.797837,0.797837,0.797837,0.797837,0.797837,0.788773
1,2,ALRBN,"Abelardo L. Rodríguez, B.C.","Tijuana, B.C.",Baja California,Tijuana,Península de Baja California,32.444722,-116.908333,AP,...,0.179961,0.179961,0.180923,0.181886,0.18212,0.18212,0.18212,0.182354,0.182354,0.182601
2,3,ARLSO,"Abelardo Rodríguez Luján, Son.","Hermosillo, Son.",Sonora,Hermosillo,Noroeste,29.076667,-110.92,AP,...,0.003202,0.00313,0.00313,0.00313,0.003052,0.003052,0.003052,0.002979,0.002979,0.002979


* `crea_gid`: Agrega una columna ``g_i``d única para cada fila.
* `head(3)`: Visualiza las primeras tres filas del DataFrame.

### Paso 4: Convertir las Coordenadas en Puntos Geoespaciales

Creamos una geometría geoespacial basada en las coordenadas de latitud y longitud.

In [4]:
gdf = generar_puntos(df, c_long='longitud', c_lat='latitud')

Dimensiones de la tabla -->  (210, 388)

Nombres de los campos -->  ['g_id', 'clavesih', 'nombreoficial', 'nombrecomun', 'estado', 'nommunicipio', 'regioncna', 'y_lat', 'x_long', 'uso', 'corriente', 'tipovertedor', 'inicioop', 'elevcorona', 'bordolibre', 'nameelev', 'namealmac', 'namoelev', 'namoalmac', 'alturacortina', 'NOM_ENT', 'CVE_ENT', 'NOM_MUN', 'CVE_MUN', '2021_01_01', '2021_01_02', '2021_01_03', '2021_01_04', '2021_01_05', '2021_01_06', '2021_01_07', '2021_01_08', '2021_01_09', '2021_01_10', '2021_01_11', '2021_01_12', '2021_01_13', '2021_01_14', '2021_01_15', '2021_01_16', '2021_01_17', '2021_01_18', '2021_01_19', '2021_01_20', '2021_01_21', '2021_01_22', '2021_01_23', '2021_01_24', '2021_01_25', '2021_01_26', '2021_01_27', '2021_01_28', '2021_01_29', '2021_01_30', '2021_01_31', '2021_02_01', '2021_02_02', '2021_02_03', '2021_02_04', '2021_02_05', '2021_02_06', '2021_02_07', '2021_02_08', '2021_02_09', '2021_02_10', '2021_02_11', '2021_02_12', '2021_02_13', '2021_02_14', '202

* ``generar_puntos``:
    * Toma las columnas ``longitud`` y ``latitud`` y crea un GeoDataFrame.
    * Asigna un sistema de referencia de coordenadas (CRS).

## Paso 5: Comprobar el CRS

Verificamos que el CRS esté correctamente definido.

In [5]:
gdf.crs

<Geographic 2D CRS: EPSG:4326>
Name: WGS 84
Axis Info [ellipsoidal]:
- Lat[north]: Geodetic latitude (degree)
- Lon[east]: Geodetic longitude (degree)
Area of Use:
- name: World.
- bounds: (-180.0, -90.0, 180.0, 90.0)
Datum: World Geodetic System 1984 ensemble
- Ellipsoid: WGS 84
- Prime Meridian: Greenwich

### Paso 6: Convertir Claves a Texto

Aseguramos que las columnas ``CVE_ENT`` y ``CVE_MUN`` sean tratadas como texto para preservar los ceros iniciales.

In [6]:
gdf = convertir_columna_texto(gdf, 'CVE_ENT')
gdf = convertir_columna_texto(gdf, 'CVE_MUN')

### Paso 7: Completar Claves con Ceros

Estandarizamos las claves añadiendo ceros iniciales para alcanzar el número de dígitos esperado.

In [None]:
gdf = completar_claves(gdf, 'CVE_ENT', 2) #dos dígitos
gdf = completar_claves(gdf, 'CVE_MUN', 3) #tres dígitos

### Paso 8: Renombrar Columnas

Renombramos columnas clave para mejorar la claridad y consistencia.

In [8]:
dicc_cols = {'CVE_ENT': 'cve_ent', 'CVE_MUN': 'cve_mun', 'NOM_ENT': 'nom_ent', 'NOM_MUN': 'nom_mun'}
gdf = renombrar_columnas(gdf, dicc_cols)

### Paso 9: Reordenar Columnas
Reorganizamos las columnas para facilitar la interpretación de los datos.

In [9]:
gdf_reordenado = mover_columnas(gdf, al_inicio=['g_id', 'nom_ent', 'cve_ent', 'nom_mun', 'cve_mun', 'cvegeomun', 'clavesih',
                                                'nombreoficial', 'nombrecomun', 'estado', 'nommunicipio', 'regioncna', 
                                                'uso', 'corriente', 'tipovertedor', 'inicioop', 'elevcorona', 'bordolibre',
                                                'nameelev', 'namealmac', 'namoelev', 'namoalmac', 'alturacortina'], 
                                                al_final=['x_long', 'y_lat', 'geometry'])

* ``al_inicio``: Columnas clave al principio.
* ``al_final``: Coordenadas y geometría al final

### Paso 10: Generar ``cvegeomun``

Creamos una nueva columna ``cvegeomun`` concatenando las claves de entidad y municipio, y la posicionamos en un lugar específico.

In [11]:
gdf_reordenado = generar_cvegeomun(gdf_reordenado, posicion_col=5)

In [12]:
gdf_reordenado.head(3)

Unnamed: 0,g_id,nom_ent,cve_ent,nom_mun,cve_mun,cvegeomun,clavesih,nombreoficial,nombrecomun,estado,...,2021_12_25,2021_12_26,2021_12_27,2021_12_28,2021_12_29,2021_12_30,2021_12_31,x_long,y_lat,geometry
0,1,Aguascalientes,1,Jesús María,5,1005,ABRAG,"Abelardo L. Rodríguez, Ags.","Abelardo L. Rodríguez, Ags.",Aguascalientes,...,0.797837,0.797837,0.797837,0.797837,0.797837,0.797837,0.788773,-102.427778,21.916944,POINT (-102.42778 21.91694)
1,2,Baja California,2,Tijuana,4,2004,ALRBN,"Abelardo L. Rodríguez, B.C.","Tijuana, B.C.",Baja California,...,0.181886,0.18212,0.18212,0.18212,0.182354,0.182354,0.182601,-116.908333,32.444722,POINT (-116.90833 32.44472)
2,3,Sonora,26,Hermosillo,30,26030,ARLSO,"Abelardo Rodríguez Luján, Son.","Hermosillo, Son.",Sonora,...,0.00313,0.003052,0.003052,0.003052,0.002979,0.002979,0.002979,-110.92,29.076667,POINT (-110.92 29.07667)


### Paso 11: Identificar y Manejar Nulos

Identificamos valores nulos en el GeoDataFrame y los manejamos.

1. **Identificar Nulos**: Contamos los valores nulos en cada columna.

In [15]:
nulos = identificar_nulos(gdf_reordenado)

Total de nulos en el DataFrame: 31

Resumen de nulos por columna:

+---------------+-------+------------+
|    Columna    | Nulos | Porcentaje |
+---------------+-------+------------+
|  nombrecomun  |   2   |    0.95    |
|      uso      |   1   |    0.48    |
|   inicioop    |  24   |   11.43    |
|  elevcorona   |   2   |    0.95    |
| alturacortina |   2   |    0.95    |
+---------------+-------+------------+

Columnas con valores nulos: nombrecomun, uso, inicioop, elevcorona, alturacortina


2. **Reemplazar Nulos**: Reemplazamos los valores nulos en la columna ``nombre`` por un valor predeterminado.

In [16]:
gdf_reordenado = nan_df(gdf_reordenado)

In [17]:
nulos = identificar_nulos(gdf_reordenado)

No hay nulos en el DataFrame.


### Paso 12: Guardar los Datos Procesados
Guardamos el GeoDataFrame procesado como un archivo GeoPackage (.gpkg).

In [22]:
gdf_reordenado.to_file(os.path.join('..', '..', '..', 'datos', 'datos-procesados', 'niveles_presas_2021_inegi.gpkg'), driver='GPKG')

**Al finalizar este flujo de trabajo, habrás convertido un archivo Excel con datos tabulares en un conjunto de datos geoespaciales  estructurado y corregido conforme a algunos de los [procesos ETEC](https://cdn.conahcyt.mx/gema/documentos/Procesos_ETEC-2024_V3.pdf). Ahora tu archivo ya está listo para análisis en sistemas GIS o herramientas de procesamiento geoespacial.**