<span style="color:lightgreen; font-size:30px">**PG303 - Análisis geoespacial**</span>
***
<span style="color:gold; font-size:30px">**Geopandas**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>

***

Bienvenido al curso PG303 - Análisis geoespacial!!!

Vamos a revisar aplicaciones de <span style="color:gold">análisis geoespacial</span> usando código en Python.\
Es necesario que tengas un conocimiento previo en programación con Python, estadística y sistemas de información geográfica.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

## **Índice**
***
- [¿Qué es Geopandas?](#parte-1)
- [`GeoDataFrame` y `GeoSeries`](#parte-2)
- [¿Cómo abrir un shapefile en Python?](#parte-3)
- [¿Cómo visualizar un shapefile en Python?](#parte-4)
- [Crear y guardar un shapefile con Python](#parte-5)
- [Funciones adicionales en Geopandas](#parte-6)
- [¿Cómo crear un GeoDataFrame a partir de un DataFrame con coordenadas?](#parte-7)

***

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es Geopandas?**</span>
***

<span style="color:gold">Geopandas</span> es una librería de Python que extiende las funcionalidades de Pandas para que pueda ser usado en el análisis de datos geoespaciales.\
<span style="color:#43c6ac">Las operaciones espaciales se realizan usando objetos geométricos a través de Shapely.</span>

Las principales ventajas de usar Geopandas son:

- **Integración de datos geoespaciales:** \
Geopandas proporciona una estructura de datos geoespaciales llamada GeoDataFrame, que permite almacenar y manipular datos geográficos de forma eficiente. Esto incluye datos vectoriales (puntos, líneas, polígonos) y datos raster (imágenes georeferenciadas). Geopandas también puede leer y escribir formatos de datos comunes, como Shapefile, GeoJSON y archivos raster.

- **Visualización de datos geoespaciales:** \
Se pueden generar mapas temáticos, trazar geometrías geoespaciales, ajustar colores y estilos, y superponer capas de datos en mapas. Esto facilita la exploración y comunicación efectiva de los resultados del análisis.

- **Análisis espacial:** \
Geopandas también ofrece una amplia gama de herramientas para el análisis espacial. Se pueden realizar operaciones espaciales, como la unión, intersección y diferencia de geometrías. También se pueden realizar consultas espaciales para seleccionar y filtrar datos basados en su ubicación geográfica. Estas capacidades son útiles para realizar análisis geoespaciales complejos y extraer información significativa de los datos.

- **Integración con otras librerías:** \
Geopandas se integra bien con otras librerías populares de Python utilizadas en el análisis de datos y la visualización, como NumPy, Pandas y Matplotlib. Esto permite combinar las capacidades en un solo flujo de trabajo para realizar análisis más avanzados y generar visualizaciones atractivas.

- **Integración con análisis de datos tabulares:** \
Al utilizar Geopandas, se pueden combinar fácilmente datos geoespaciales con datos tabulares. Esto permite realizar análisis integrados, donde los atributos de las geometrías se pueden vincular y analizar junto con otros datos relevantes. Geopandas proporciona funcionalidades para realizar operaciones de combinación, agregación y filtrado en datos geoespaciales y tabulares.

Dentro del campo de la Geología, algunas de sus aplicaciones son:

- **Análisis de datos geológicos:** \
Manejo y análisis de datos geológicos que contienen información espacial, como ubicación de muestras, unidades litológicas, estructuras geológicas y depósitos minerales. Se pueden realizar consultas espaciales para seleccionar y filtrar datos geológicos con base en su ubicación geográfica.

- **Mapeo geológico:** \
Geopandas facilita la creación y visualización de mapas geológicos. Puedes representar diferentes unidades litológicas, estructuras geológicas, vetas y otras características geológicas en un mapa temático. Además, se pueden superponer capas de datos adicionales, como datos geofísicos o datos de perforación, para obtener una visión más completa del área de estudio.

- **Análisis estructural:** \
Se puede representar y analizar la distribución de fallas, pliegues, fracturas y otras estructuras geológicas en un área determinada. Mediante consultas espaciales y operaciones geométricas, se pueden realizar mediciones y cálculos estructurales, como la orientación de planos y la cinemática de las deformaciones.

- **Análisis de recursos minerales:** \
Permite la manipulación y análisis de datos geoespaciales relacionados con depósitos minerales. Se pueden realizar operaciones espaciales para identificar áreas de interés, analizar la distribución espacial de los depósitos y realizar evaluaciones de recursos.

- **Análisis de riesgos geológicos:** \
Para la evaluación y mapeo de riesgos geológicos, como la actividad sísmica, la erosión costera o la susceptibilidad a deslizamientos de tierra. Se pueden combinar datos geoespaciales de diferentes fuentes para identificar áreas de alto riesgo y generar mapas de peligro.

***

<a id="parte-2"></a>

### <span style="color:lightgreen">**`GeoDataFrame` y `GeoSeries`**</span>
***

La estructura de datos principal en Geopandas es el `GeoDataFrame`, una subclase del `DataFrame` de Pandas, que puede almacenar columnas de geometría y realizar operaciones espaciales.\
Una `GeoSeries` es una subclase de la `Series` de Pandas, que maneja las geometrías.\
En resumen, el `GeoDataFrame` es una combinación de las `Series` de Pandas, con datos tradicionales (numéricos, lógicos, etc.) y las `GeoSeries` de Geopandas, con geometrías (puntos, líneas, polígonos, etc.).

<img src="https://geopandas.org/en/stable/_images/dataframe.svg" style="background:white" width="750px"/>

Una `GeoSeries` puede contener cualquier tipo de geometría y tiene un atributo `crs`, que corresponde al sistema de coordenadas usado para representar y proyectar la información espacial (CRS es una abreviación de Coordinate Reference System).\
En resumen, cada `GeoSeries` en un `GeoDataFrame` puede estar en una proyección diferente, permitiendo tener múltiples proyecciones de la misma geometría.

Solo se puede tener una `GeoSeries` como geometría activa dentro del `GeoDataFrame`, esto significa que todas las operaciones geométricas realizadas en el `GeoDataFrame` operan sobre esta columna activa.

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**¿Cómo abrir un shapefile en Python?**</span>
***

Podemos abrir un shapefile usando Geopandas, a través de la función `read_file`:
> Abriremos el contenido de `countries` dentro de la carpeta `files`, y lo asignaremos a la variable `gdf`.

In [None]:
# Desactivamos las advertencias de Python, innecesarias en este tutorial
import warnings
warnings.filterwarnings("ignore")

import geopandas as gpd

In [None]:
gdf = gpd.read_file("files/countries")

Usaremos el método `head` (igual que en Pandas) para observar las 5 primeras filas del GeoDataFrame:

In [None]:
gdf.head()

In [None]:
print(f"Total de países: {len(gdf)}")

El dataset de `countries` contiene información general acerca de 177 países: población, continente al que pertenecen, nombre, abreviatura, PBI y una geometría de polígono con la forma de cada país.

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**¿Cómo visualizar un shapefile en Python?**</span>
***

Para visualizar los objetos geométricos que representan el área de cada país, usaremos el método `plot`:

In [None]:
gdf.plot();

Podemos modificar los detalles del gráfico con los argumentos `figsize` y `color`:

In [None]:
gdf.plot(figsize=(10, 10), color="green");

Podemos agregar mayor flexibilidad si lo combinamos con Matplotlib:

In [None]:
import matplotlib.pyplot as plt

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 10))

# Polígonos de los países
gdf.plot(ax=ax, color="green")

# Límites de la figura
ax.set_xlim(-90, -30)
ax.set_ylim(-60, 15)

# Grilla
ax.grid(lw=0.5, color="black", alpha=0.5)

plt.show()

***

<a id="parte-5"></a>

### <span style="color:lightgreen">**Crear y guardar un shapefile con Python**</span>
***

Empezaremos seleccionando las filas que correspondan al continente de Sudamérica `South America`:

In [None]:
south_america = gdf[gdf["continent"] == "South America"]

Para guardar información vectorial con Geopandas, podemos usar la función `to_file`:
> Para guardarlo en un shapefile, debemos colocar la extensión .shp, por ejemplo: `south_america.shp`.\
> Si por otro lado solo colocamos el nombre, sin la extensión, se creará una carpeta que contendrá dicho shapefile.

In [None]:
south_america.to_file("files/south_america")

Volvemos a cargar el shapefile:

In [None]:
gpd.read_file("files/south_america")

***

<a id="parte-6"></a>

### <span style="color:lightgreen">**Funciones adicionales en Geopandas**</span>
***

Podemos obtener el sistema de coordenadas del GeoDataFrame usando el atributo `crs`:

In [None]:
gdf.crs

Es importante tener en cuenta el sistema de coordenadas de cada objeto geométrico que utilicemos para evitar errores de proyección.

Si usamos el método `explore`, podremos visualizar un mapa interactivo:
> El parámetro `column` selecciona la columna que queremos visualizar.\
> El parámetro `legend` agrega una leyenda opcional en el mapa.

In [None]:
gdf.explore(column="pop_est", legend=False)

Podemos generar las columnas de área, perímetro y centroide de cada polígono usando los atributos `area`, `length` y `centroid` respectivamente:

In [None]:
gdf["area"] = gdf.area
gdf["perimeter"] = gdf.length
gdf["centroid"] = gdf.centroid

In [None]:
gdf.head()

Por último, graficaremos los polígonos y sus centroides dentro de una sola figura:

In [None]:
fig, ax = plt.subplots(figsize=(15, 12))

gdf["geometry"].plot(ax=ax, color="lightgreen", edgecolor="black")
gdf["centroid"].plot(ax=ax, color="red", marker=".", markersize=10)

plt.show()

***

<a id="parte-7"></a>

### <span style="color:lightgreen">**¿Cómo crear un GeoDataFrame a partir de un DataFrame con coordenadas?**</span>
***

Cargaremos el CSV de sismos llamado `sismos.xlsx`:

In [None]:
import pandas as pd

In [None]:
sismos = pd.read_excel("files/sismos.xlsx")

In [None]:
sismos.head()

Podemos usar las columnas de longitud y latitud para crear geometrías de puntos usando la función `points_from_xy`.\
Guardaremos este resultado en una nueva columna llamada `geometry`:

In [None]:
sismos["geometry"] = gpd.points_from_xy(sismos["longitud (º)"], sismos["latitud (º)"])

In [None]:
sismos.head()

Ahora, transformaremos el DataFrame en un GeoDataFrame usando la función `GeoDataFrame`:
> Usaremos el sistemas de coordenadas geográfico WGS84 bajo la denominación EPSG:4326.

In [None]:
sismos = gpd.GeoDataFrame(sismos, geometry=sismos.geometry, crs="EPSG:4326")

In [None]:
sismos.head()

Por último, graficaremos la ubicación de todos los sismos de magnitud mayor a 5 registrados en el Perú:
> Usaremos los polígonos de cada país en `gdf` para complementar el gráfico.

In [None]:
sismos_filtrado = sismos[sismos["magnitud (M)"] >= 5.0].copy()

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(8, 10))

# Polígonos de los países
gdf.plot(ax=ax, color="lightgreen", edgecolor="black")
sismos_filtrado.plot(ax=ax, markersize=2, color="red")

# Límites de la figura (centrado en Perú)
ax.set_xlim(-83, -68)
ax.set_ylim(-19, 1)

# Grilla
ax.grid(lw=0.5, color="black", alpha=0.5)

# Título
ax.set_title("Sismos registrados en Perú (Mw$\geq$5.0)", fontsize=16)

plt.show()

***