# 1. Data Preparation – Tmin Peru Raster
  
**Repositorio:** `Minimum-Temperature-Raster`  
**Objetivo:** Preparar los insumos base (raster y shapefile) para el análisis de temperaturas mínimas (Tmin) del Perú.  

---

### Propósito

1. Cargar y limpiar los límites administrativos (departamentos, provincias o distritos).  
2. Asegurar que los campos `NOMBRE`/`UBIGEO` estén **en mayúsculas** y **sin tildes**.  
3. Cargar el raster GeoTIFF de **temperatura mínima (Tmin)** y verificar su estructura.  
4. Preparar un bucle para iterar sobre las bandas (asumiendo Band 1 = año 2020, etc.).  


**Importar librerías**

In [8]:
#En Anaconda Prompt
#pip install -r requirements.txt

In [2]:
import geopandas as gpd
import rasterio
import rioxarray
import pandas as pd
import matplotlib.pyplot as plt
from unidecode import unidecode
from rasterio.plot import show

## 1.1 Cargar shapefile de límites administrativos

En este paso cargamos el shapefile del Perú (departamentos, provincias o distritos).  
Usamos rutas **relativas** (`data/raw/`) para asegurar reproducibilidad.

Tenemos carpetas: district, province, department.

In [10]:
import os

# Mostrar el directorio de trabajo actual
print(os.getcwd())


C:\Users\Michael Encalada\Documents\GitHub\QLAB\diplo\Minimum-Temperature-Raster\notebooks


In [11]:
# Cambiar el directorio
os.chdir("C:/Users/Michael Encalada/Documents/GitHub/QLAB/diplo/Minimum-Temperature-Raster")

In [13]:
import geopandas as gpd
import os

# Definir rutas relativas
base_path = "data/raw"

# Rutas a cada nivel administrativo
shp_department = os.path.join(base_path, "department", "Departamental INEI 2023 geogpsperu SuyoPomalia.shp")
shp_province   = os.path.join(base_path, "province", "Provincial INEI 2023 geogpsperu SuyoPomalia.shp")
shp_district   = os.path.join(base_path, "district", "Distrital INEI 2023 geogpsperu SuyoPomalia.shp")

#Cargar shapefiles
dept = gpd.read_file(shp_department)
prov = gpd.read_file(shp_province)
dist = gpd.read_file(shp_district)


## 1.2 Limpieza de campos: nombres y acentos

Comprobamos que todos los nombres de columnas esten en mayúsculas y eliminamos los acentos o tildes de los nombres geográficos.  
Esto evita errores al hacer merges o zonal statistics.


**A.** Limpieza por departamento

In [14]:
# Mostrar una vista previa de las columnas clave
dept.head(3)

Unnamed: 0,CCDD,DEPARTAMEN,OBJECTID,ESRI_OID,geometry
0,1,AMAZONAS,1.0,1.0,"POLYGON ((-77.81399 -2.99278, -77.81483 -2.995..."
1,2,ANCASH,2.0,2.0,"POLYGON ((-77.64697 -8.05086, -77.64689 -8.051..."
2,3,APURIMAC,3.0,3.0,"POLYGON ((-73.74655 -13.17442, -73.7457 -13.17..."


In [18]:

# Renombrar columnas a formato estándar en mayúsculas
dept = dept.rename(columns={
    'CDD': 'CCDD',
    'DEPARTAMEN': 'DEPARTAMENTO'})

# Eliminar columnas innecesarias
dept = dept.drop(columns=['OBJECTID', 'ESRI_OID'], errors='ignore')

# Asegurar tipo de dato correcto para el código (como string de 2 dígitos)
dept['CCDD'] = dept['CCDD'].astype(str).str.zfill(2)

# Normalizar nombres de departamento (en mayúsculas y sin espacios)
dept['DEPARTAMENTO'] = dept['DEPARTAMENTO'].str.strip().str.upper()

# Verificar resultado
dept.head(3)


Unnamed: 0,CCDD,DEPARTAMENTO,geometry
0,1,AMAZONAS,"POLYGON ((-77.81399 -2.99278, -77.81483 -2.995..."
1,2,ANCASH,"POLYGON ((-77.64697 -8.05086, -77.64689 -8.051..."
2,3,APURIMAC,"POLYGON ((-73.74655 -13.17442, -73.7457 -13.17..."


**B.** Limpieza Provincia

In [15]:
# Mostrar una vista previa de las columnas clave
prov.head(3)

Unnamed: 0,OBJECTID,CCDD,CCPP,DEPARTAMEN,PROVINCIA,geometry
0,1.0,1,1,AMAZONAS,CHACHAPOYAS,"POLYGON ((-77.72614 -5.94354, -77.72486 -5.943..."
1,2.0,1,2,AMAZONAS,BAGUA,"POLYGON ((-78.61909 -4.51001, -78.61802 -4.510..."
2,3.0,1,3,AMAZONAS,BONGARA,"POLYGON ((-77.72759 -5.1403, -77.72361 -5.1406..."


In [20]:
from unidecode import unidecode

# Normalizar nombres de columnas
prov.columns = prov.columns.str.strip().str.upper()

# Asegurar consistencia en nombres de departamentos y provincias
prov['DEPARTAMEN'] = prov['DEPARTAMENTO'].apply(lambda x: unidecode(x.strip().upper()))
prov['PROVINCIA'] = prov['PROVINCIA'].apply(lambda x: unidecode(x.strip().upper()))

# Eliminar columnas innecesarias
prov = prov.drop(columns=['OBJECTID'], errors='ignore')

# Eliminar posibles duplicados
prov = prov.drop_duplicates(subset=['CCDD', 'CCPP']).reset_index(drop=True)

# Verificar 
prov.head(5)


Unnamed: 0,OBJECTID,CCDD,CCPP,DEPARTAMEN,PROVINCIA,GEOMETRY
0,1.0,1,1,AMAZONAS,CHACHAPOYAS,"POLYGON ((-77.72614 -5.94354, -77.72486 -5.943..."
1,2.0,1,2,AMAZONAS,BAGUA,"POLYGON ((-78.61909 -4.51001, -78.61802 -4.510..."
2,3.0,1,3,AMAZONAS,BONGARA,"POLYGON ((-77.72759 -5.1403, -77.72361 -5.1406..."
3,4.0,1,4,AMAZONAS,CONDORCANQUI,"POLYGON ((-77.81399 -2.99278, -77.81483 -2.995..."
4,5.0,1,5,AMAZONAS,LUYA,"POLYGON ((-78.13023 -5.9037, -78.13011 -5.9041..."


**C.** Limpieza distrito

In [16]:
# Mostrar una vista previa de las columnas clave
dist.head(3)

Unnamed: 0,UBIGEO,CCDD,CCPP,CCDI,DEPARTAMEN,PROVINCIA,DISTRITO,OBJECTID,ESRI_OID,geometry
0,10101,1,1,1,AMAZONAS,CHACHAPOYAS,CHACHAPOYAS,1.0,1.0,"POLYGON ((-77.8858 -6.1778, -77.88323 -6.17846..."
1,10102,1,1,2,AMAZONAS,CHACHAPOYAS,ASUNCION,2.0,2.0,"POLYGON ((-77.74482 -5.94497, -77.74482 -5.945..."
2,10103,1,1,3,AMAZONAS,CHACHAPOYAS,BALSAS,3.0,3.0,"POLYGON ((-77.9358 -6.69039, -77.93531 -6.6909..."


In [21]:
# Normalizar nombres de columnas
dist.columns = dist.columns.str.strip().str.upper()

# Asegurar consistencia en nombres
for col in ['DEPARTAMEN', 'PROVINCIA', 'DISTRITO']:
    dist[col] = dist[col].apply(lambda x: unidecode(x.strip().upper()))

dist.head(3)

Unnamed: 0,UBIGEO,CCDD,CCPP,CCDI,DEPARTAMEN,PROVINCIA,DISTRITO,OBJECTID,ESRI_OID,GEOMETRY
0,10101,1,1,1,AMAZONAS,CHACHAPOYAS,CHACHAPOYAS,1.0,1.0,"POLYGON ((-77.8858 -6.1778, -77.88323 -6.17846..."
1,10102,1,1,2,AMAZONAS,CHACHAPOYAS,ASUNCION,2.0,2.0,"POLYGON ((-77.74482 -5.94497, -77.74482 -5.945..."
2,10103,1,1,3,AMAZONAS,CHACHAPOYAS,BALSAS,3.0,3.0,"POLYGON ((-77.9358 -6.69039, -77.93531 -6.6909..."


## 1.3. Verificar y ajustar el sistema de coordenadas (CRS)

Todos los datos deben estar en el sistema de referencia **EPSG:4326 (WGS 84)**  
para que coincidan con el raster y sean compatibles con Streamlit Maps.  


In [27]:
import geopandas as gpd

# Asegurar que GEOMETRY sea la geometría activa
dist = dist.set_geometry("GEOMETRY")

# Verificar CRS
print("CRS actual:", dist.crs)



CRS actual: EPSG:4326


In [None]:
Guardar shapefiles

In [28]:
# Guardar shapefiles reproyectados
dept.to_file("data/processed/departamentos.shp", driver="ESRI Shapefile", encoding="utf-8")
prov.to_file("data/processed/provincias.shp", driver="ESRI Shapefile", encoding="utf-8")
dist.to_file("data/processed/distritos.shp", driver="ESRI Shapefile", encoding="utf-8")

  dept.to_file("data/processed/departamentos.shp", driver="ESRI Shapefile", encoding="utf-8")
  ogr_write(


## 1.5. Cargar y explorar el raster Tmin

Abrimos el raster GeoTIFF (`tmin_raster.tif`), verificamos:
- Número de bandas (puede representar años o meses)
- CRS (debe ser el mismo que el shapefile)
- Resolución espacial y extensión
