# **Indexación y selección de datos**

En el análisis geoespacial, la capacidad de filtrar, consultar y extraer información de grandes conjuntos de datos es fundamental, ya que permite **optimizar** la manipulación de datos espaciales, **aislar** regiones de interés y mejorar la **eficiencia** en los análisis. Estas operaciones no solo facilitan la exploración de datos, sino que también **reducen la carga computacional** al trabajar con información geográfica de gran escala.

Para lograr esto, `GeoPandas` extiende las funcionalidades de `Pandas`, proporcionando métodos de **indexación y selección** que permiten **extraer subconjuntos de datos** de manera eficiente. En este artículo, exploraremos cómo realizar **selecciones** basadas en **etiquetas** y **posiciones**, así como la **selección espacial** basada en coordenadas, que facilita la extracción de datos cuyas geometrías intersectan un área delimitada. Estas herramientas son clave para estructurar consultas espaciales y optimizar el procesamiento de datos geográficos.

Comenzaremos importando las librerías a utilizar

In [3]:
# importar librerías
import numpy as np
import geopandas as gpd
import warnings
warnings.filterwarnings('ignore')

Carguemos los datos.

In [4]:
# Ruta del archivo
uri=r'D:\Charlie\01_Cartografia\catastro.gpkg'

# Lectura como GeoDataFrame
puertas = gpd.read_file(uri, layer='puertas')

Veamos las columnas de esta capa:

In [5]:
puertas.columns.values

array(['OBJECTID', 'CODIGOPREDIO', 'NUMEROLOTE', 'NUMEROPUERTA',
       'CODIGODISTRITO', 'CODIGOSEGMENTOVIA', 'CODIGOMANZANA',
       'CODIGOPUERTA', 'geometry'], dtype=object)

## **1. Operadores de Indexación**

Los operadores de indexación de _Python_ y _NumPy_ `[]`, así como el operador de atributo `.`, proporcionan un acceso rápido y sencillo a las estructuras de datos de _pandas_ en una amplia variedad de casos de uso. A continuación, se presentan las principales formas de selección en un `DataFrame`.

N°|Tipo|Uso|Sintaxis|Retorno
--|----|-----------|--------|--------
**1**|**Selección de una columna**|Especificar la etiqueta dentro del operador `[]`. También podemos usar el operador `.`, siempre que la etiqueta de la columna sea válida|`df[col1]`<br>`df.col1`|Los valores de `col1`
**2**|**Selección de múltiples columnas**|Especificar una **lista de etiquetas**|`df[[col1,col2]]`|Los valores de `col1` y `col2`
**3**|**Selección mediante `slincing`**|Indicar un rango de etiquetas "Desde:Hasta"|`df[colA:colN]`|Los valores desde `colA` hasta `colN`, incluyendolos
**4**|**Selección con máscaras boleanas**|Mediante **expresiones lógicas**, se genera una `Serie booleana` en la que **`True`** indica las **filas a conservar** y **`False`** las que **se descartan**.<br><br>Para combinar varias expresiones utilizamos `&` (**AND**), `\|` (**OR**) y `~` (**NOT**). Es importante usar paréntesis para definir la prioridad de evaluación.|`df[<expresiones>]`|Los valores que cumplen las expresiones lógicas

## **2. Selección por etiqueta: `.loc`**

La selección por etiqueta se realiza mediante el método _Pandas_ **[.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)**, que permite **acceder a filas y columnas** a través de sus **nombres de índice**.


| **N°** | **Tipo** | **Uso** | **Sintaxis** | **Retorno** |
|--|----|-----------|---------|--------|
| **1** | **Selección de una fila/columna** | Especificar la **etiqueta** de una fila o columna. | * `df.loc[row1]`<br>* `df.loc[:, col1]` | Valores de la fila `row1` o la columna `col1`. |
| **2** | **Selección de múltiples filas/columnas** | Especificar una **lista de etiquetas** de filas o columnas. | * `df.loc[[row1, row2]]`<br>* `df.loc[:, [col1, col2]]` | Subconjunto de datos con las filas o columnas seleccionadas. |
| **3** | **Selección de filas/columnas mediante `slicing`** | Indicar un **rango de etiquetas** de filas o columnas en el formato `"Desde:Hasta"`. | * `df.loc[rowA:rowN]`<br>* `df.loc[:, colA:colN]` | Subconjunto de datos dentro del rango de filas o columnas especificadas, incluyéndolas. |
| **4** | **Selección de una fila y una columna** | Especificar **ambas etiquetas** para acceder a un valor específico. | * `df.loc[row1, col1]` | Valor en la intersección de la fila `row1` y la columna `col1`. |
| **5** | **Selección de múltiples filas y columnas** | Proporcionar una **lista de etiquetas** en ambos ejes. | * `df.loc[[row1, row2], [col1, col2]]` | Subconjunto de datos con las filas y columnas indicadas. |
| **6** | **Selección de múltiples filas y columnas mediante `slicing`** | Indicar un **rango de etiquetas** en ambos ejes. | * `df.loc[rowA:rowN, colA:colN]` | Subconjunto de datos dentro del rango de filas y columnas especificadas, incluyéndolas. |
| **7** | **Selección con máscaras booleanas** | Utilizar **expresiones lógicas** que generan una `Serie booleana`, donde **`True`** indica las filas a conservar y **`False`** las que se descartan.<br><br>Para combinar expresiones, usar `&` (**AND**), `\|` (**OR**) y `~` (**NOT**). Se recomienda utilizar paréntesis para definir la prioridad de evaluación. | * `df.loc[<expresión>]` | Subconjunto de datos que cumple con la condición establecida. |
| **8** | **Actualización de un valor** | Modificar el contenido de una celda especificando su fila y columna. | * `df.loc[row1, col1] = <nuevo_valor>` | El valor en la intersección de la fila y columna indicadas se actualiza. |
| **9** | **Actualización de valores con máscaras booleanas** | Modificar el contenido de una columna solo en las filas que cumplan una condición.<br><br>Es importante especificar correctamente las columnas, ya que los cambios se aplican a todas las indicadas. Si no se define una columna, la modificación afectará a todas.| * `df.loc[<expresión>, <col>] = <nuevo_valor>` | Actualiza los valores de la columna donde la condición se evalúe como `True`. |

## **3. Selección por posición `.iloc`**

La selección por posición se realiza mediante el método _Pandas_ **[.iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)**, que permite **acceder a filas y columnas** mediante **índices enteros basados en su posición**.