<a href="https://colab.research.google.com/github/Dannvaz/Datos-mapas-y-votos/blob/main/1_5_Diseccion_secciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



**Análisis Geoespacial para Principiantes: Visualizando Datos Electorales con Python**

En el campo de las ciencias sociales, y particularmente en el análisis político, la capacidad de visualizar y analizar datos espaciales se ha vuelto crucial.  Comprender patrones geográficos en fenómenos sociales, como el comportamiento electoral, permite a investigadores y analistas desentrañar dinámicas complejas y tomar decisiones informadas.  Afortunadamente, herramientas de programación como Python, junto con bibliotecas especializadas, han democratizado el acceso a estas técnicas, haciéndolas accesibles incluso para aquellos sin una formación profunda en informática.

El código que presentamos es un excelente ejemplo de cómo Python puede ser utilizado para el análisis geoespacial en ciencias sociales. Se centra en un caso práctico concreto: la visualización de secciones electorales en Guanajuato, México.  Aunque el ejemplo es específico, los principios y las técnicas aquí ilustradas son aplicables a una amplia gama de investigaciones en ciencias sociales que involucren datos georreferenciados.

**Bibliotecas Clave: El Arsenal Python para Datos Geoespaciales**

Para llevar a cabo este análisis, el código se apoya en cuatro bibliotecas fundamentales de Python, cada una con un propósito específico:

*   **geopandas:**  Esta biblioteca es la piedra angular del análisis geoespacial en Python.  Piensa en `geopandas` como una extensión de la popular biblioteca `pandas` (que veremos a continuación), pero diseñada específicamente para manejar datos geográficos.  Permite trabajar con mapas, polígonos, coordenadas y otros datos geoespaciales de manera intuitiva. En nuestro código, `geopandas` se utiliza para cargar el archivo GeoPackage que contiene la información de las secciones electorales, filtrar datos por entidad federativa y municipios, y finalmente, graficar las geometrías de estas secciones en un mapa.  Para un científico social, `geopandas` abre la puerta a analizar datos de encuestas georreferenciadas, datos censales a nivel de distrito, o incluso datos de eventos políticos con una dimensión espacial.

*   **pandas:**  Si `geopandas` maneja los aspectos *geo* de los datos, `pandas` se encarga de la manipulación de datos tabulares en general.  `pandas` es una biblioteca esencial en la ciencia de datos en Python, facilitando la organización y el análisis de datos en formato de tablas, similar a una hoja de cálculo de Excel o una base de datos. En el contexto de nuestro código, `pandas` juega un rol importante en la conversión de un `GeoDataFrame` (el tipo de datos geoespaciales de `geopandas`) a un `DataFrame` tradicional. Esta conversión es útil para exportar los datos a formatos como Excel, o para realizar análisis estadísticos que no requieran la información geométrica.  Además, `pandas` permite eliminar columnas innecesarias, simplificando los conjuntos de datos para análisis posteriores.  En ciencias sociales, `pandas` es fundamental para limpiar, transformar y analizar datos de encuestas, censos, registros administrativos, entre otros.

*   **matplotlib:**  La visualización es clave para la comprensión de datos, y `matplotlib` es la biblioteca estándar en Python para crear gráficos y mapas estáticos de alta calidad.  `matplotlib` permite generar una amplia variedad de visualizaciones, desde simples gráficos de barras hasta mapas complejos con múltiples capas de información.  En nuestro código, `matplotlib` se utiliza para generar el mapa de las secciones electorales.  Se personalizan elementos como títulos, colores, etiquetas y se guarda el mapa como un archivo de imagen. La capacidad de crear mapas visualmente atractivos y informativos es esencial para la divulgación científica y la presentación de resultados de investigación en ciencias sociales. [Image of Ejemplo de mapa generado con matplotlib]

*   **openpyxl:**  Finalmente, `openpyxl` se encarga de la tarea de exportar datos a archivos de Excel.  Aunque Python ofrece muchas opciones para el análisis de datos, Excel sigue siendo una herramienta ampliamente utilizada para compartir y manipular datos, especialmente en entornos no especializados en programación.  `openpyxl` permite guardar los `DataFrame` de `pandas` directamente en formato `.xlsx`, facilitando la interoperabilidad con otras herramientas y usuarios.  Para un investigador en ciencias sociales, esto significa poder compartir fácilmente sus datos procesados y visualizados con colegas o tomadores de decisiones que quizás no estén familiarizados con Python.

**Desglosando el Código: Paso a Paso para Principiantes**

El código proporcionado está estructurado de manera lógica y progresiva, facilitando su comprensión para principiantes.  Vamos a analizar cada sección paso a paso:

**1. Instalación e Importación de `geopandas`**

In [None]:
!pip install geopandas
import geopandas as gpd

*   **`!pip install geopandas`**:  Esta línea es un comando especial para ejecutar en entornos como Google Colab (que es donde probablemente ejecutarás este código, como se indica en el enlace proporcionado). `pip` es el gestor de paquetes de Python, y `install geopandas` le indica a `pip` que descargue e instale la biblioteca `geopandas`.  Esencialmente, esta línea prepara tu entorno de trabajo para que puedas usar las funciones de `geopandas`.
*   **`import geopandas as gpd`**:  Una vez instalada la biblioteca, esta línea la importa a tu script de Python.  `import geopandas`  haría lo mismo, pero `as gpd` le asigna un alias corto (`gpd`) a la biblioteca.  Esto significa que en lugar de escribir `geopandas` cada vez que quieras usar una función de la biblioteca, puedes simplemente escribir `gpd`, haciendo tu código más conciso y legible.

**2. Cargar el Archivo GeoPackage**

In [None]:
gpkg_file_path = '/content/SECCIONES_2024.gpkg'
secciones_gdf = gpd.read_file( gpkg_file_path, layer='SECCIONES_2024')

*   **`gpkg_file_path = '/content/SECCIONES_2024.gpkg'`**:  Aquí se define una variable llamada `gpkg_file_path` que almacena la ruta al archivo GeoPackage.  Un archivo GeoPackage (`.gpkg`) es un formato estándar para almacenar datos geoespaciales.  Es importante notar que la ruta `'/content/SECCIONES_2024.gpkg'` asume que el archivo se encuentra en la carpeta `/content/` en Google Colab. Si tu archivo está en una ubicación diferente, debes modificar esta ruta.
*   **`secciones_gdf = gpd.read_file( gpkg_file_path, layer='SECCIONES_2024')`**:  Esta es la línea clave para cargar los datos geoespaciales.  `gpd.read_file()` es una función de `geopandas` que lee archivos geoespaciales.  Se le pasan dos argumentos:
    *   `gpkg_file_path`:  La ruta al archivo GeoPackage que definimos en la línea anterior.
    *   `layer='SECCIONES_2024'`:  Los archivos GeoPackage pueden contener múltiples "capas" de información.  Aquí, se especifica que queremos cargar la capa llamada `'SECCIONES_2024'`, que presumiblemente contiene los datos de las secciones electorales.
    El resultado de esta función se guarda en una variable llamada `secciones_gdf`.  `gdf` significa `GeoDataFrame`, que es la estructura de datos principal de `geopandas` para representar datos geoespaciales.  Un `GeoDataFrame` es similar a una tabla, pero cada fila puede tener asociada una geometría (por ejemplo, un polígono que representa una sección electoral).

**3. Filtrar Secciones de Guanajuato**

In [None]:
secciones_gto = secciones_gdf[secciones_gdf['ENTIDAD'] == 11]

*   **`secciones_gdf['ENTIDAD'] == 11`**:  Esta parte del código crea una "máscara booleana".  Accede a la columna `'ENTIDAD'` del `GeoDataFrame` `secciones_gdf` y verifica para cada fila si el valor en esa columna es igual a `11`.  Esto devuelve una Serie de valores `True` y `False`, donde `True` indica que la condición se cumple (la entidad es 11, que corresponde a Guanajuato en México) y `False` indica lo contrario.
*   **`secciones_gdf[...]`**:  Esta sintaxis se utiliza para filtrar filas de un `DataFrame` (o `GeoDataFrame`).  Al pasar la máscara booleana entre corchetes, se seleccionan únicamente las filas donde la máscara es `True`.
*   **`secciones_gto = ...`**:  El resultado del filtrado se asigna a una nueva variable llamada `secciones_gto`, que ahora contiene solo las secciones electorales correspondientes a Guanajuato.

**4. Simplificar Geometrías**

In [None]:
secciones_gto['geometry'] = secciones_gto['geometry'].simplify(0.01)

*   **`secciones_gto['geometry']`**:  Accede a la columna `'geometry'` del `GeoDataFrame` `secciones_gto`.  Esta columna contiene los objetos geométricos (polígonos) que definen la forma de cada sección electoral.
*   **`.simplify(0.01)`**:  El método `.simplify()` se aplica a cada geometría en la columna `'geometry'`.  Este método reduce el número de vértices que definen cada polígono, simplificando su forma. El valor `0.01` es un parámetro que controla el nivel de simplificación.  Simplificar las geometrías puede ser útil para mejorar el rendimiento al graficar mapas, especialmente cuando se trabaja con conjuntos de datos grandes o visualizaciones interactivas.  Sin embargo, una simplificación excesiva puede distorsionar la forma de las geometrías.
*   **`secciones_gto['geometry'] = ...`**:  El resultado de la simplificación se reasigna de nuevo a la columna `'geometry'` del `GeoDataFrame` `secciones_gto`, reemplazando las geometrías originales con las simplificadas.

**5. Mostrar las Primeras Filas**

In [None]:
secciones_gto.head()

*   **`.head()`**:  Este método se utiliza para mostrar las primeras filas de un `DataFrame` o `GeoDataFrame`.  Por defecto, muestra las primeras 5 filas, pero puedes especificar el número de filas entre paréntesis (por ejemplo, `.head(10)` para mostrar las primeras 10 filas).  Esto es útil para inspeccionar rápidamente los datos y verificar que las operaciones anteriores (filtrado, simplificación, etc.) se hayan realizado correctamente.  En este caso, `secciones_gto.head()` mostrará las primeras 5 filas del `GeoDataFrame` filtrado que contiene las secciones electorales de Guanajuato.

**6. Graficar el GeoDataFrame**

In [None]:
secciones_gto.plot(aspect=1)

*   **`.plot()`**:  Este es un método fundamental de `geopandas` para generar mapas de forma rápida y sencilla.  Cuando se aplica a un `GeoDataFrame`, `.plot()` automáticamente grafica las geometrías contenidas en la columna `'geometry'`.
*   **`aspect=1`**:  Este parámetro se agrega para establecer la relación de aspecto del mapa en 1, lo que asegura que el mapa se visualice sin distorsiones en las proporciones.  Esto es especialmente importante para mapas que representan áreas geográficas donde las proporciones precisas son relevantes.

**7. Convertir a GeoJSON**

In [None]:
secciones_gto.to_file('secciones_gto.geojson', driver='GeoJSON')

*   **`.to_file(...)`**:  Este método de `geopandas` se utiliza para guardar un `GeoDataFrame` en un archivo.
*   **`'secciones_gto.geojson'`**:  Este es el nombre del archivo que se creará.  `.geojson` es un formato estándar basado en JSON para codificar estructuras de datos geográficos.  GeoJSON es ampliamente utilizado en aplicaciones web y sistemas de información geográfica (SIG).
*   **`driver='GeoJSON'`**:  Este parámetro especifica el "driver" que se utilizará para escribir el archivo.  En este caso, `'GeoJSON'` indica que se debe utilizar el driver GeoJSON para generar un archivo en formato GeoJSON.  La conversión a GeoJSON puede ser útil para compartir los datos con otras herramientas o plataformas que trabajen con este formato.

**8. Exportar a Excel**

Esta sección del código se enfoca en exportar los datos a un archivo Excel.

In [None]:
!pip install geopandas pandas openpyxl
import geopandas as gpd
import pandas as pd

# ... (cargar archivo y filtrar Guanajuato, como antes) ...

secciones_gto_df = pd.DataFrame(secciones_gto.drop(columns='geometry'))
secciones_gto_df.to_excel('secciones_gto.xlsx', index=False)

from google.colab import files
files.download('secciones_gto.xlsx')

*   **`!pip install geopandas pandas openpyxl`**:  Se instala `openpyxl` además de `geopandas` y `pandas`, ya que `openpyxl` es necesario para escribir archivos Excel.
*   **`import pandas as pd`**:  Se importa la biblioteca `pandas` si no se había importado previamente.
*   **`secciones_gto_df = pd.DataFrame(secciones_gto.drop(columns='geometry'))`**:
    *   **`secciones_gto.drop(columns='geometry')`**:  Se elimina la columna `'geometry'` del `GeoDataFrame` `secciones_gto`.  El método `.drop()` de `pandas` se utiliza para eliminar columnas o filas.  `columns='geometry'` especifica que se desea eliminar la columna llamada `'geometry'`.  Esto es necesario porque un `DataFrame` de `pandas` tradicional no puede contener objetos geométricos directamente.
    *   **`pd.DataFrame(...)`**:  El resultado de `.drop()` (que es un `GeoDataFrame` sin la columna `'geometry'`) se convierte a un `DataFrame` de `pandas` utilizando `pd.DataFrame()`.  Esto crea un `DataFrame` que contiene los datos tabulares (atributos) de las secciones electorales, pero sin la información geométrica.
    *   **`secciones_gto_df = ...`**:  El `DataFrame` resultante se guarda en la variable `secciones_gto_df`.
*   **`secciones_gto_df.to_excel('secciones_gto.xlsx', index=False)`**:
    *   **`.to_excel(...)`**:  Este método de `pandas` exporta un `DataFrame` a un archivo Excel.
    *   **`'secciones_gto.xlsx'`**:  Es el nombre del archivo Excel que se creará.
    *   **`index=False`**:  Este parámetro indica que no se debe escribir el índice del `DataFrame` en el archivo Excel.
*   **`from google.colab import files; files.download('secciones_gto.xlsx')`**:  Este código es específico para Google Colab.  Permite descargar el archivo `'secciones_gto.xlsx'` directamente a tu computadora desde el entorno de Colab.

**9. Visualización con Etiquetas**

Esta sección se enfoca en crear un mapa visual de las secciones electorales con etiquetas.

In [None]:
!pip install geopandas matplotlib
import geopandas as gpd
import matplotlib.pyplot as plt

# ... (cargar archivo y filtrar Guanajuato, como antes) ...

fig, ax = plt.subplots(figsize=(10, 10))
secciones_gto.plot(ax=ax, color='lightblue', edgecolor='black', aspect=1)

for x, y, label in zip(secciones_gto.geometry.centroid.x, secciones_gto.geometry.centroid.y, secciones_gto['SECCION']):
    ax.text(x, y, label, fontsize=8, ha='center', color='black')

plt.title('Secciones Electorales de Guanajuato con Etiquetas', fontsize=15)
plt.show()

*   **`!pip install geopandas matplotlib`**:  Se instalan las bibliotecas necesarias (`matplotlib` además de `geopandas`).
*   **`import matplotlib.pyplot as plt`**:  Se importa el módulo `pyplot` de `matplotlib` con el alias `plt`, que es la convención estándar para usar `matplotlib`.
*   **`fig, ax = plt.subplots(figsize=(10, 10))`**:
    *   **`plt.subplots(...)`**:  Esta función de `matplotlib.pyplot` crea una figura (`fig`) y un eje (`ax`) para graficar.  En `matplotlib`, una figura es el contenedor general para la visualización, y un eje es el área donde se dibuja el gráfico.
    *   **`figsize=(10, 10)`**:  Define el tamaño de la figura en pulgadas (ancho y alto).
    *   **`fig, ax = ...`**:  La función `plt.subplots()` devuelve dos objetos: la figura y el eje, que se guardan en las variables `fig` y `ax` respectivamente.
*   **`secciones_gto.plot(ax=ax, color='lightblue', edgecolor='black', aspect=1)`**:  Se grafica el `GeoDataFrame` `secciones_gto` en el eje `ax`.
    *   **`ax=ax`**:  Se especifica que el gráfico debe dibujarse en el eje `ax` que creamos anteriormente.
    *   **`color='lightblue'`**:  Define el color de relleno de los polígonos (secciones electorales) como azul claro.
    *   **`edgecolor='black'`**:  Define el color del borde de los polígonos como negro.
    *   **`aspect=1`**:  Nuevamente, se establece la relación de aspecto en 1 para evitar distorsiones.
*   **`for x, y, label in zip(...)`**:  Este bucle `for` añade etiquetas a cada sección electoral en el mapa.
    *   **`secciones_gto.geometry.centroid`**:  Calcula el centroide (punto central) de cada polígono en la columna `'geometry'` de `secciones_gto`.  Esto devuelve una Serie de objetos `Point` que representan los centroides.
    *   **`.x` y `.y`**:  Acceden a las coordenadas x e y de cada centroide, respectivamente.
    *   **`secciones_gto['SECCION']`**:  Accede a la columna `'SECCION'` de `secciones_gto`, que se supone que contiene las etiquetas para cada sección electoral.
    *   **`zip(...)`**:  Combina las coordenadas x, coordenadas y, y etiquetas en tuplas.
    *   **`for x, y, label in ...`**:  Itera sobre las tuplas generadas por `zip()`, asignando la coordenada x a `x`, la coordenada y a `y`, y la etiqueta a `label` en cada iteración.
    *   **`ax.text(x, y, label, fontsize=8, ha='center', color='black')`**:  Para cada sección electoral, se añade un texto (etiqueta) en el mapa.
        *   **`ax.text(...)`**:  Función de `matplotlib.axes` para añadir texto al eje.
        *   **`x, y`**:  Coordenadas donde se colocará el texto (centroide de la sección).
        *   **`label`**:  El texto a mostrar (etiqueta de la sección).
        *   **`fontsize=8`**:  Tamaño de la fuente del texto.
        *   **`ha='center'`**:  Alineación horizontal del texto (centrado horizontalmente en el punto x, y).
        *   **`color='black'`**:  Color del texto (negro).
*   **`plt.title('Secciones Electorales de Guanajuato con Etiquetas', fontsize=15)`**:  Establece el título del mapa.
    *   **`plt.title(...)`**:  Función de `matplotlib.pyplot` para establecer el título del gráfico actual.
    *   **`'Secciones Electorales de Guanajuato con Etiquetas'`**:  Texto del título.
    *   **`fontsize=15`**:  Tamaño de la fuente del título.
*   **`plt.show()`**:  Muestra el mapa en pantalla.

**10. Guardar el Mapa**

In [None]:
fig.savefig('mapa_secciones_guanajuato.png', dpi=300)
from google.colab import files
files.download('mapa_secciones_guanajuato.png')

*   **`fig.savefig(...)`**:  Método de la figura (`fig`) para guardar la figura en un archivo de imagen.
    *   **`'mapa_secciones_guanajuato.png'`**:  Nombre del archivo de imagen que se creará.  `.png` indica que se guardará en formato PNG (Portable Network Graphics), un formato de imagen común para gráficos y mapas.
    *   **`dpi=300`**:  Resolución de la imagen en puntos por pulgada (dots per inch).  `dpi=300` genera una imagen de alta resolución, adecuada para impresión o visualización detallada.
*   **`from google.colab import files; files.download('mapa_secciones_guanajuato.png')`**:  Nuevamente, código específico de Google Colab para descargar el archivo de imagen a tu computadora.

**11. Seleccionar Municipios Específicos**

Esta última sección muestra cómo filtrar por municipios específicos.

In [None]:
import geopandas as gpd
import matplotlib.pyplot as plt

# ... (cargar archivo y filtrar Guanajuato, como antes) ...

secciones_gto_filtered = secciones_gto[(secciones_gto['ENTIDAD'] == 11) & (secciones_gto['MUNICIPIO'].isin([2, 46]))]

# ... (resto del código para graficar y etiquetar, similar a la sección anterior) ...

*   **`secciones_gto_filtered = secciones_gto[(secciones_gto['ENTIDAD'] == 11) & (secciones_gto['MUNICIPIO'].isin([2, 46]))]`**:  Esta línea filtra aún más el `GeoDataFrame` `secciones_gto`.
    *   **`(secciones_gto['ENTIDAD'] == 11)`**:  Condición que ya conocemos: selecciona solo las secciones de Guanajuato.
    *   **`(secciones_gto['MUNICIPIO'].isin([2, 46]))`**:  Nueva condición:  utiliza el método `.isin()` para verificar si el valor en la columna `'MUNICIPIO'` está dentro de la lista `[2, 46]`.  Esto selecciona únicamente las secciones que pertenecen a los municipios con códigos 2 y 46.
    *   **`&`**:  El operador `&` (AND lógico) combina las dos condiciones.  Solo las filas que cumplen *ambas* condiciones se seleccionan.
    *   **`secciones_gto_filtered = ...`**:  El resultado del filtrado se guarda en una nueva variable llamada `secciones_gto_filtered`.
*   El resto del código en esta sección es similar a la sección de visualización anterior, pero utiliza `secciones_gto_filtered` en lugar de `secciones_gto` para graficar y etiquetar solo las secciones de los municipios filtrados.

**Conclusión: Python como Herramienta para el Análisis Socioespacial**

En resumen, el código que hemos desglosado demuestra el poder de Python y sus bibliotecas geoespaciales para realizar análisis espaciales en ciencias sociales.  Desde la carga y manipulación de datos geográficos con `geopandas` y `pandas`, hasta la creación de visualizaciones informativas con `matplotlib`, estas herramientas abren un mundo de posibilidades para investigadores y analistas.  La capacidad de filtrar datos por ubicación geográfica, visualizar patrones espaciales y exportar resultados en formatos accesibles como Excel y GeoJSON, convierte a Python en un aliado valioso para cualquier persona que trabaje con datos espaciales en el ámbito de las ciencias sociales.  Este código, aunque sencillo en su alcance, es un punto de partida excelente para explorar técnicas más avanzadas de análisis geoespacial y aplicarlas a una amplia gama de preguntas de investigación en el estudio de la sociedad y la política.

Espero que esta explicación detallada sea útil para principiantes en ciencias sociales que se acercan a la programación y al análisis geoespacial. ¡No dudes en preguntar si tienes más dudas!