# **Indexación y selección de datos**

En el análisis geoespacial, la capacidad de filtrar, consultar y extraer información de grandes conjuntos de datos es fundamental, ya que permite **optimizar** la manipulación de datos espaciales, **aislar** regiones de interés y mejorar la **eficiencia** en los análisis. Estas operaciones no solo facilitan la exploración de datos, sino que también **reducen la carga computacional** al trabajar con información geográfica de gran escala.

Para lograr esto, `GeoPandas` extiende las funcionalidades de `Pandas`, proporcionando métodos de **indexación y selección** que permiten **extraer subconjuntos de datos** de manera eficiente. En este artículo, exploraremos cómo realizar **selecciones** basadas en **etiquetas** y **posiciones**, así como la **selección espacial** basada en coordenadas, que facilita la extracción de datos cuyas geometrías intersectan un área delimitada. Estas herramientas son clave para estructurar consultas espaciales y optimizar el procesamiento de datos geográficos.

Comenzaremos importando las librerías a utilizar

In [1]:
# importar librerías
import numpy as np
import geopandas as gpd
import warnings
warnings.filterwarnings('ignore')

Carguemos los datos.

In [2]:
# Ruta del archivo
uri=r'D:\Charlie\01_Cartografia\catastro.gpkg'

# Lectura como GeoDataFrame
puertas = gpd.read_file(uri, layer='puertas')

Veamos las columnas de esta capa:

In [3]:
puertas.columns.values

array(['OBJECTID', 'CODIGOPREDIO', 'NUMEROLOTE', 'NUMEROPUERTA',
       'CODIGODISTRITO', 'CODIGOSEGMENTOVIA', 'CODIGOMANZANA',
       'CODIGOPUERTA', 'geometry'], dtype=object)

## **1. Selección con Operadores de Indexación**

Los operadores de indexación de _Python_ y _NumPy_ `[]`, así como el operador de atributo `.`, proporcionan un acceso rápido y sencillo a las estructuras de datos de _pandas_ en una amplia variedad de casos de uso. A continuación, se presentan las principales formas de selección en un `DataFrame`.

### **1.1. Selección de columnas**

#### **Seleccionar una columna específica**

Para acceder a una columna específica, debemos especificar la **etiqueta** dentro del operador `[]`.

```{admonition} Selección de una columna específica
:class: tip

df[column1]
```

También podemos usar el operador `.`, siempre que la etiqueta de la columna sea válida: `df.column1`

In [4]:
# Seleccionar la columna NUMEROPUERTA
puertas['NUMEROPUERTA']

0           842
1          811A
2           930
3           943
4           971
           ... 
2323691     S/N
2323692     S/N
2323693     S/N
2323694     S/N
2323695     S/N
Name: NUMEROPUERTA, Length: 2323696, dtype: object

#### **Seleccionar múltiples columnas**

Para seleccionar múltiples columnas, debemos proporcionar una **lista con sus etiquetas**:

```{admonition} Selección de multiples columnas
:class: tip

df[[column1, column2, ..., columnN]]
```

Retorna los valores de las columnas especificadas.

In [7]:
# Selección de columnas en base a una lista de etiquetas
puertas[['NUMEROPUERTA', 'CODIGODISTRITO']]

Unnamed: 0,NUMEROPUERTA,CODIGODISTRITO
0,842,150132
1,811A,150132
2,930,150132
3,943,150132
4,971,150132
...,...,...
2323691,S/N,150112
2323692,S/N,150112
2323693,S/N,150112
2323694,S/N,150112


### **1.2. Selección con máscaras boleanas**

La selección con máscaras booleanas permite filtrar datos mediante **expresiones lógicas**. Se genera una **Serie boleana** donde **`True`** indica las **filas a conservar** y **`False`** las que **se descartan**. Para combinar expresiones, usar & (AND), | (OR) y ~ (NOT). Se recomienda utilizar paréntesis para definir la prioridad de evaluación.

```{admonition} Selección con máscaras boleanas
:class: tip

df[<expresiones>]
```

Retorna, solamente los valores que cumplen las expresiones lógicas.

Por ejemplo, seleccionemos las "puertas" cuyo **código de distrito** sea "150117" y que tengan un **número de puerta válido**.

In [10]:
# CODIGODISTRITO es '150117'
maskDist = puertas.CODIGODISTRITO=='150117'

# NUMEROPUERTA válidos
maskPuerta = puertas.NUMEROPUERTA != 'S/N'

# Seleccionando por las condiciones:
puertas_olivos_names = puertas[maskDist & maskPuerta]

# Imprimir la cantidad de filas y columnas seleccionadas
print(f'Fila y columnas: {puertas_olivos_names.shape}')

# Ver las dos primeras filas y las columnas 'CODIGOPREDIO' y 'NUMEROPUERTA':
puertas_olivos_names[['CODIGOPREDIO','NUMEROPUERTA']].head(2)

Fila y columnas: (19965, 9)


Unnamed: 0,CODIGOPREDIO,NUMEROPUERTA
408847,L13,319
408857,L08,1888


## **2. Selección por etiqueta `.loc`**

La selección por etiqueta se realiza mediante el método _Pandas_ **[.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)**, que permite **acceder a filas y columnas** a través de sus **nombres de índice**.

### **2.1. Selección de filas**

Las filas se seleccionan utilizando **etiquetas de filas**, que por defecto son números enteros, a menos que se haya definido otro valor. Si no se especifica ninguna columna, se devolverán todas por defecto.

#### **Selección de una Fila Específica**

Para seleccionar una única fila, utilizamos:

```{tip}
df.loc[row1]
```

Esto devuelve todos los valores de la fila con la etiqueta `row1`.

In [None]:
# Seleccionando la etiqueta de fila 5:
puertas.loc[5]

#### **Selección de múltiples filas**

Para seleccionar múltiples filas, utilizamos:

```{tip}
df.loc[[row1, row2]]
```

Retorna un **subconjunto de datos** que incluye las filas con las etiquetas `row1` y `row2`.

In [None]:
# Seleccionando un lista de etiquetas de filas
puertas.loc[[5,10,37]]

#### **Selección mediante `slicing`**

También podemos utilizar un **rango de etiquetas** de fila con `slicing`:

```{tip}
df.loc[rowA:rowN]
```

Esto retorna un **subconjunto de datos** que incluye todas las filas desde la etiqueta `rowA` hasta `rowN`, incluyéndolas.

In [None]:
#### **Selección mediante `slicing`**

Podemos seleccionar columnas indicando un **rango de etiquetas**.

```{admonition} Selección de columnas mediante slicing
:class: tip

df[columnA:columnN]
```

Retorna los valores desde `columnA` hasta `columnN`, incluyendolas

In [None]:
# Seleccionando etiquetas de filas con un slice 
puertas.loc[40:42]

### **2.2. Selección de columnas**

Las columnas se seleccionan mediante su **etiqueta de índice**, que corresponde a su **nombre**. Sin embargo, también es **necesario especificar las filas**. Para seleccionar **todas las filas**, podemos utilizar el operador `:`.

#### **Selección de una columna específica**

Para seleccionar una única columna, utilizamos:

```{tip}
df.loc[:, column1]
```

Es necesario especificar las filas, pero podemos usar el operador `:` para seleccionar todas. Esto devuelve la columna `column1` con todos sus valores.

In [None]:
# Selección de la columna "NUMEROPUERTA" y todas sus filas
puertas.loc[:,'NUMEROPUERTA']

#### **Selección de múltiples columnas**

Para seleccionar múltiples columnas, pasamos una **lista con sus etiquetas** de la siguiente manera:

```{tip}
df.loc[:, [column1, column2]]
```

Esto devuelve un subconjunto de datos con las columnas `column1` y `column2`.

In [None]:
# Selección de múltiples columnas y todas su filas
puertas.loc[:, ['NUMEROPUERTA','CODIGODISTRITO','geometry']]

#### **Selección mediante `slicing`**

También podemos emplear un **rango de etiquetas** para seleccionar columnas mediante `slicing`:

```{tip}
df.loc[columnA:columnN]
```

Esto devuelve un **subconjunto de datos** que incluye todas las columnas desde `columnA` hasta `columnN`.

In [None]:
puertas.loc[:, 'CODIGOPREDIO':'NUMEROPUERTA']

### **2.3. Selección de filas y columnas**

Una de las principales ventajas de **`loc`** es su capacidad para **seleccionar filas y columnas** simultáneamente de manera intuitiva, utilizando **etiquetas en ambas dimensiones**.

#### **Selección de una fila y una columna**

Para seleccionar un único valor, especificamos la **etiqueta** de la **fila** y la de la **columna**:

```{tip}
df.loc[row1, column1]
```

Esto devuelve el valor específico ubicado en la **intersección** de la fila `row1` y la columna `column1`.

In [None]:
# Seleccionando el valor almacenado en la fila 5
# de la columna "NUMEROPUERTA"
puertas.loc[5, 'NUMEROPUERTA']

#### **Selección de mútiples filas y columnas**

Para seleccionar múltiples filas y columnas, debemos proporcionar una **lista con sus etiquetas de índice** en ambos ejes:

```{tip}
df.loc[[row1, row2], [column1, column2]]
```

Esto devuelve un subconjunto de datos que incluye únicamente las **filas** `row1` y `row2`, junto con las **columnas** `column1` y `column2`.

In [None]:
puertas.loc[[5,6,7,8], ['CODIGOPREDIO','NUMEROPUERTA']]

#### **Selección mediante `slicing`**

También podemos emplear un **rango de etiquetas** para seleccionar **filas** y **columnas** mediante `slicing`:

```{tip}
df.loc[rowA:rowN, columnA:columnN]
```

Esto devuelve un **subconjunto de datos** que abarca las **filas** desde `rowA` hasta `rowN` y las **columnas** desde `columnA` hasta `columnN`, incluyéndolas.

In [None]:
puertas.loc[5:8, 'CODIGOPREDIO':'NUMEROPUERTA']

### **2.4. Selección con máscaras boleanas**

El método  **`loc`** permite seleccionar datos utilizando máscaras booleanas, generadas a partir de **expresiones lógicas**. Estas devuelven una **Serie boleana** en la que `True` indica las **filas a conservar** y `False`, las **filas a descartar**.

```{tip}
df.loc[<expresiones_lógicas>]
```

A continuación, seleccionaremos todas las puertas sin número asignado y mostraremos únicamente las columnas `CODIGOPREDIO` y `NUMEROPUERTA`.

In [None]:
# Mascara de NUMEROPUERTA igual a sin nombre
maskPuertas = puertas.NUMEROPUERTA == 'S/N'

# Lista de columnas a seleccionar
colsPuertas = ['CODIGOPREDIO','NUMEROPUERTA']

# Filtro por condición y de columnas
puertas.loc[maskPuertas, colsPuertas]

Podemos generar estadísticas descriptivas del campo `NUMEROPUERTA`:

In [None]:
# Cálculo de estadísticas descriptivas
puertas.NUMEROPUERTA.describe()

Las estadísticas del campo `NUMEROPUERTA` indican que hay 2,323,696 valores no nulos, pero este conteo incluye el valor **"S/N"**, que es el más frecuente, con 1,518,892 apariciones. Sin embargo, **"S/N"** no representa un número de puerta válido, por lo que debería reemplazarse por `NaN` para obtener un análisis más preciso.

En el siguiente apartado, aplicaremos esta limpieza asignando valores a una columna específica.

### **2.5. Asignación de nuevo valores**

Una de las principales ventajas de loc es su capacidad para asignar valores a una o varias columnas, siempre que las filas cumplan una determinada condición, es decir, aquellas donde las **expresiones lógicas** evalúe como `True`.

```{tip}
df.loc[<expresiones_lógicas>, <columnas_modificar>] = <nuevo_valor>
```

En el apartado anterior, identificamos las filas donde `NUMEROPUERTA` no tiene un valor válido, lo que puede afectar los análisis de completitud. En este ejemplo, reemplazaremos esos valores por `NaN` en la columna `NUMEROPUERTA` para mejorar la calidad de los datos.

```{note}
Es importante especificar correctamente las columnas, ya que los cambios se aplicarán a todas las columnas que indiquemos. Si no se especifica la columna, la modificación afectará a todas las columnas del **GeoDataFrame**.
```

In [None]:
# Reemplazando los NUMEROPUERTA sin nombre por NaN
puertas.loc[puertas.NUMEROPUERTA == 'S/N', 'NUMEROPUERTA'] = np.nan

Volvamos a cacular las estadísticas descriptivas para el campo `NUMEROPUERTA`:

In [None]:
# Cálculo de estadísticas descriptivas
puertas.NUMEROPUERTA.describe()

Ahora, extraeremos el subconjunto de datos que si tiene `NUMEROPUERTA`

In [None]:
puertas_validas = puertas[puertas.NUMEROPUERTA.notna()]
puertas_validas.shape

La asignación de valores también nos permite **crear nuevas columnas** para almacenar información adicional. Por ejemplo, podemos agregar la columna `PARIDAD` para indicar si el número de puerta es par o impar. Aplicaremos esta asignación sobre el nuevo `GeoDataFrame` **puertas_validas**.

In [None]:
# Condicion para evaluar puertas pares
conPares = puertas_validas.NUMEROPUERTA.str.extract(r"(\d+)")[0].str[-1]\
                          .isin([str(i) for i in list(range(0,9,2))])

# Condicion para evaluar puertas impares
conNones = puertas_validas.NUMEROPUERTA.str.extract(r"(\d+)")[0].str[-1]\
                          .isin([str(i) for i in list(range(1,10,2))])

# Aplicando las condiciones para calcular un nuevo campo "Paridad"
puertas_validas.loc[conPares,'PARIDAD'] = 'Pares'
puertas_validas.loc[conNones,'PARIDAD'] = 'Impares'

# Visualizando:
puertas_validas[['CODIGOPREDIO','NUMEROPUERTA','PARIDAD']]

## **3. Selección por posición `.iloc`**

La selección por posición se realiza mediante el método _Pandas_ **[.iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)**, que permite **acceder a filas y columnas** mediante **índices enteros basados en su posición**.

### **3.1. Selección de filas**

Las filas se seleccionan utilizando su **posición numérica**. Si no se especifica ninguna columna, se devolverán todas por defecto.


#### **Selección de una Fila Específica**

Para seleccionar una única fila, utilizamos:

```{tip}
df.iloc[i]
```

Esto devuelve todos los valores de la fila en la posición **`i`**.

In [None]:
# Retorna la posición 0
puertas.iloc[0]

#### **Selección de múltiples filas**

Para seleccionar múltiples filas, utilizamos:

```{tip}
df.iloc[[i, j, k]]
```

Esto devuelve un **subconjunto de datos** con las filas en las posiciones `i`, `j` y `k`.

In [None]:
# Retorna las fila en la posición 0, 10 y 15
puertas.iloc[[0, 10, 15]]

#### **Selección mediante `slicing`**

También podemos utilizar un **rango de indices** para seleccionar filas mediante `slicing`:

```{tip}
df.iloc[i:k]
```

Esto devuelve un **subconjunto de datos** incluyendo las filas desde la posición `i` hasta `k-1`.

In [None]:
# Retorna las filas desde la posicion 5 al 8
puertas.iloc[5:9]

### **3.2. Selección de columnas**

Las columnas se seleccionan mediante su **posición numérica**, es decir, su índice entero. Asimismo, es **necesario especificar las filas**. Para seleccionar **todas las filas**, utilizamos el operador `:`.

#### **Selección de una columna específica**

Para seleccionar una única columna por su posición, usamos:

```{tip}
df.iloc[:, i]
```

Esto devuelve la columna ubicada en la posición `i`.

In [None]:
# Retorna la columna en la posición 3 (NUMEROPUERTA)
puertas.iloc[:, 3]

#### **Selección de múltiples columnas**

Para seleccionar múltiples columnas por su posición, pasamos una **lista con sus índices** de la siguiente manera:

```{tip}
df.iloc[:, [i, j]]
```

Esto devuelve un **subconjunto de datos** con las columnas ubicadas en las posiciones `i` y `j`.

In [None]:
# Retorna la columna en las posiciones 0, 3, -1  
# (CODIGOPREDIO, NUMEROPUERTA, geometry)
puertas.iloc[:, [0, 3, -1]]

#### **Selección mediante `slicing`**

También podemos emplear un **rango de indices** para seleccionar columnas mediante `slicing`:

```{tip}
df.iloc[:, i:k]
```

Esto devuelve un **subconjunto de datos** que incluye todas las columnas desde la fila `i` hasta `k-1`.

In [None]:
# Retorna la columna en la posicion 1, 2 y 3
puertas.iloc[:, 1:4]

### **3.3. Selección de filas y columnas**

### **3.4. Selección con máscaras boleanas**

### **3.5. Asignación de nuevos valores**

## **4. Selección por cuadro delimitador `.cx`**