# Selección y Filtrado de Datos

Este notebook cubre todas las formas de seleccionar y filtrar datos en pandas.

In [14]:
import numpy as np
import pandas as pd

# Crear DataFrame de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=8)
df = pd.DataFrame({
    'A': np.random.randn(8),
    'B': np.random.randn(8),
    'C': np.random.randint(1, 100, 8),
    'D': ['alto', 'bajo', 'medio', 'alto', 'bajo', 'medio', 'alto', 'bajo']
}, index=fechas)

print("DataFrame de ejemplo:")
print(df)

DataFrame de ejemplo:
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-02 -0.138264  0.542560  42   bajo
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-05 -0.234153  0.241962  80   bajo
2024-01-06 -0.234137 -1.913280  15  medio
2024-01-07  1.579213 -1.724918  62   alto
2024-01-08  0.767435 -0.562288  62   bajo


## Selección Básica con Corchetes `df[]`

**Para COLUMNAS:**
- **`df['columna']`** → Una columna (devuelve Serie)
- **`df[['col1', 'col2']]`** → Múltiples columnas (devuelve DataFrame)

**Para FILAS (solo con slicing):**
- **`df[0:3]`** → Posición numérica (0 a 2, no incluye 3)
- **`df['inicio':'fin']`** → Rango de índice (ambos incluidos)
- **`df[-3:]`** → Últimas 3 filas
- **`df[condicion_booleana]`** → Filtrado por condición

💡 **Limitación**: Los corchetes `[]` no permiten seleccionar filas Y columnas simultáneamente.

In [15]:
# Seleccionar una columna (devuelve Serie)
print("Seleccionar columna A:")
print(df['A'])
print(f"Tipo: {type(df['A'])}")

# Seleccionar múltiples columnas (devuelve DataFrame)
print("\nSeleccionar columnas A y C:")
print(df[['A', 'C']])
print(f"Tipo: {type(df[['A', 'C']])}")

Seleccionar columna A:
2024-01-01    0.496714
2024-01-02   -0.138264
2024-01-03    0.647689
2024-01-04    1.523030
2024-01-05   -0.234153
2024-01-06   -0.234137
2024-01-07    1.579213
2024-01-08    0.767435
Freq: D, Name: A, dtype: float64
Tipo: <class 'pandas.core.series.Series'>

Seleccionar columnas A y C:
                   A   C
2024-01-01  0.496714  59
2024-01-02 -0.138264  42
2024-01-03  0.647689  92
2024-01-04  1.523030  60
2024-01-05 -0.234153  80
2024-01-06 -0.234137  15
2024-01-07  1.579213  62
2024-01-08  0.767435  62
Tipo: <class 'pandas.core.frame.DataFrame'>


In [16]:
# Seleccionar filas por rango de índice
print("Primeras 3 filas:")
print(df[0:3])

print("\nFilas por rango de fechas:")
print(df['20240102':'20240104'])

print("\nÚltimas 3 filas:")
print(df[-3:])

Primeras 3 filas:
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-02 -0.138264  0.542560  42   bajo
2024-01-03  0.647689 -0.463418  92  medio

Filas por rango de fechas:
                   A         B   C      D
2024-01-02 -0.138264  0.542560  42   bajo
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto

Últimas 3 filas:
                   A         B   C      D
2024-01-06 -0.234137 -1.913280  15  medio
2024-01-07  1.579213 -1.724918  62   alto
2024-01-08  0.767435 -0.562288  62   bajo


## Selección por Etiquetas con `df.loc[]`

**Sintaxis básica**: `df.loc[filas, columnas]`

**Selección de FILAS:**
- **`df.loc['etiqueta']`** → Una fila específica (devuelve Serie)
- **`df.loc['inicio':'fin']`** → Rango de etiquetas (ambos incluidos)
- **`df.loc[['etiq1', 'etiq2']]`** → Filas específicas (devuelve DataFrame)
- **`df.loc[condicion_booleana]`** → Filtrado por condición

**Selección de FILAS Y COLUMNAS:**
- **`df.loc[:, 'columna']`** → Todas las filas, una columna
- **`df.loc[:, ['col1', 'col2']]`** → Todas las filas, columnas específicas
- **`df.loc['fila', 'columna']`** → Valor específico
- **`df.loc[condicion, ['col1', 'col2']]`** → Filtrado con columnas específicas

**Acceso rápido a valor único:**
- **`df.at['fila', 'columna']`** → Más rápido que `.loc[]` para un solo valor

In [17]:
# Seleccionar una fila específica
print("Fila del 2024-01-01:")
print(df.loc[fechas[0]])
print(f"Tipo: {type(df.loc[fechas[0]])}")

# Seleccionar filas y columnas específicas
print("\nFilas y columnas específicas:")
print(df.loc[fechas[0:3], ['A', 'B']])

# Seleccionar todas las filas, columnas específicas
print("\nTodas las filas, columnas A y C:")
print(df.loc[:, ['A', 'C']])

Fila del 2024-01-01:
A    0.496714
B   -0.469474
C          59
D        alto
Name: 2024-01-01 00:00:00, dtype: object
Tipo: <class 'pandas.core.series.Series'>

Filas y columnas específicas:
                   A         B
2024-01-01  0.496714 -0.469474
2024-01-02 -0.138264  0.542560
2024-01-03  0.647689 -0.463418

Todas las filas, columnas A y C:
                   A   C
2024-01-01  0.496714  59
2024-01-02 -0.138264  42
2024-01-03  0.647689  92
2024-01-04  1.523030  60
2024-01-05 -0.234153  80
2024-01-06 -0.234137  15
2024-01-07  1.579213  62
2024-01-08  0.767435  62


In [20]:
# Slicing con etiquetas (ambos extremos incluidos)
print("Rango de fechas y columnas:")
print(df.loc['20240102':'20240104', 'A':'C'])

# Seleccionar un valor específico
valor = df.loc[fechas[0], 'A']
print(f"\nValor específico: {valor}")

# Método alternativo más rápido para un valor
valor_rapido = df.at[fechas[0], 'A']
print(f"Valor con .at[]: {valor_rapido}")

Rango de fechas y columnas:
                   A         B   C
2024-01-02 -0.138264  0.542560  42
2024-01-03  0.647689 -0.463418  92
2024-01-04  1.523030 -0.465730  60

Valor específico: 0.4967141530112327
Valor con .at[]: 0.4967141530112327


## Selección por Posición con `df.iloc[]`

**Sintaxis básica**: `df.iloc[filas, columnas]` (siempre por posición numérica)

**Selección de FILAS:**
- **`df.iloc[0]`** → Primera fila (devuelve Serie)
- **`df.iloc[0:3]`** → Rango de posiciones (0 a 2, no incluye 3)
- **`df.iloc[[0, 2, 4]]`** → Filas específicas por posición
- **`df.iloc[-1]`** → Última fila

**Selección de FILAS Y COLUMNAS:**
- **`df.iloc[:, 0]`** → Todas las filas, primera columna
- **`df.iloc[:, 0:3]`** → Todas las filas, columnas 0 a 2
- **`df.iloc[0, 1]`** → Valor en posición específica
- **`df.iloc[[1, 3], [0, 2]]`** → Filas y columnas específicas

**Acceso rápido a valor único:**
- **`df.iat[fila, columna]`** → Más rápido que `.iloc[]` para un solo valor

💡 **Ventaja**: Siempre funciona con posiciones numéricas, independiente del tipo de índice.

In [21]:
# Seleccionar por posición de fila
print("Cuarta fila (índice 3):")
print(df.iloc[3])

# Seleccionar rango de filas y columnas
print("\nFilas 1-3, columnas 0-2:")
print(df.iloc[1:4, 0:3])

# Seleccionar filas y columnas específicas por posición
print("\nFilas 1,3,5 y columnas 0,2:")
print(df.iloc[[1, 3, 5], [0, 2]])

Cuarta fila (índice 3):
A    1.52303
B   -0.46573
C         60
D       alto
Name: 2024-01-04 00:00:00, dtype: object

Filas 1-3, columnas 0-2:
                   A         B   C
2024-01-02 -0.138264  0.542560  42
2024-01-03  0.647689 -0.463418  92
2024-01-04  1.523030 -0.465730  60

Filas 1,3,5 y columnas 0,2:
                   A   C
2024-01-02 -0.138264  42
2024-01-04  1.523030  60
2024-01-06 -0.234137  15


In [27]:
# Seleccionar todas las filas, columnas específicas
print("Todas las filas, columnas 1-3:")
print(df.iloc[:, 1:4])

# Seleccionar filas específicas, todas las columnas
print("\nFilas 2-4, todas las columnas:")
print(df.iloc[2:5, :])

# Valor específico por posición
valor_pos = df.iloc[1, 1]
print(f"\nValor en posición [1,1]: {valor_pos}")

# Método más rápido para un valor
valor_pos_rapido = df.iat[1, 1]
print(f"Valor con .iat[]: {valor_pos_rapido}")

Todas las filas, columnas 1-3:
                   B   C      D
2024-01-01 -0.469474  59   alto
2024-01-02  0.542560  42   bajo
2024-01-03 -0.463418  92  medio
2024-01-04 -0.465730  60   alto
2024-01-05  0.241962  80   bajo
2024-01-06 -1.913280  15  medio
2024-01-07 -1.724918  62   alto
2024-01-08 -0.562288  62   bajo

Filas 2-4, todas las columnas:
                   A         B   C      D
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-05 -0.234153  0.241962  80   bajo

Valor en posición [1,1]: 0.5425600435859647
Valor con .iat[]: 0.5425600435859647


## Filtrado con Condiciones Booleanas

In [28]:
# Filtro simple: valores de A mayores que 0
print("Filas donde A > 0:")
filtro_a = df['A'] > 0
print("Máscara booleana:")
print(filtro_a)
print("\nResultado del filtro:")
print(df[filtro_a])

Filas donde A > 0:
Máscara booleana:
2024-01-01     True
2024-01-02    False
2024-01-03     True
2024-01-04     True
2024-01-05    False
2024-01-06    False
2024-01-07     True
2024-01-08     True
Freq: D, Name: A, dtype: bool

Resultado del filtro:
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-07  1.579213 -1.724918  62   alto
2024-01-08  0.767435 -0.562288  62   bajo


In [29]:
# Múltiples condiciones con operadores lógicos
print("Filas donde A > 0 Y B < 1:")
filtro_multiple = (df['A'] > 0) & (df['B'] < 1)
print(df[filtro_multiple])

print("\nFilas donde A > 1 O C > 50:")
filtro_or = (df['A'] > 1) | (df['C'] > 50)
print(df[filtro_or])

print("\nFilas donde A NO es mayor que 0:")
filtro_not = ~(df['A'] > 0)
print(df[filtro_not])

Filas donde A > 0 Y B < 1:
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-07  1.579213 -1.724918  62   alto
2024-01-08  0.767435 -0.562288  62   bajo

Filas donde A > 1 O C > 50:
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-05 -0.234153  0.241962  80   bajo
2024-01-07  1.579213 -1.724918  62   alto
2024-01-08  0.767435 -0.562288  62   bajo

Filas donde A NO es mayor que 0:
                   A         B   C      D
2024-01-02 -0.138264  0.542560  42   bajo
2024-01-05 -0.234153  0.241962  80   bajo
2024-01-06 -0.234137 -1.913280  15  medio


In [30]:
# Filtro con valores específicos usando .isin()
print("Filas donde D es 'alto' o 'medio':")
filtro_isin = df['D'].isin(['alto', 'medio'])
print(df[filtro_isin])

# Filtro excluyendo valores
print("\nFilas donde D NO es 'bajo':")
filtro_not_isin = ~df['D'].isin(['bajo'])
print(df[filtro_not_isin])

Filas donde D es 'alto' o 'medio':
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-06 -0.234137 -1.913280  15  medio
2024-01-07  1.579213 -1.724918  62   alto

Filas donde D NO es 'bajo':
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-06 -0.234137 -1.913280  15  medio
2024-01-07  1.579213 -1.724918  62   alto


## Filtrado Avanzado

In [33]:
# Filtrar y seleccionar columnas específicas
print("Filas donde C > 30, solo columnas A y D:")
resultado = df.loc[df['C'] > 30, ['A', 'D']]
print(resultado)

# Filtro con query() - más legible para condiciones complejas
print("\nUsando query() - A > 0 and C <= 60:")
resultado_query = df.query('A > 0 and C <= 60')
print(resultado_query)

print("\nUsando query() con variables:")
umbral_a = 0.5
umbral_c = 40
resultado_query_var = df.query('A > @umbral_a or C > @umbral_c')
print(resultado_query_var)

Filas donde C > 30, solo columnas A y D:
                   A      D
2024-01-01  0.496714   alto
2024-01-02 -0.138264   bajo
2024-01-03  0.647689  medio
2024-01-04  1.523030   alto
2024-01-05 -0.234153   bajo
2024-01-07  1.579213   alto
2024-01-08  0.767435   bajo

Usando query() - A > 0 and C <= 60:
                   A         B   C     D
2024-01-01  0.496714 -0.469474  59  alto
2024-01-04  1.523030 -0.465730  60  alto

Usando query() con variables:
                   A         B   C      D
2024-01-01  0.496714 -0.469474  59   alto
2024-01-02 -0.138264  0.542560  42   bajo
2024-01-03  0.647689 -0.463418  92  medio
2024-01-04  1.523030 -0.465730  60   alto
2024-01-05 -0.234153  0.241962  80   bajo
2024-01-07  1.579213 -1.724918  62   alto
2024-01-08  0.767435 -0.562288  62   bajo


## Filtrado con Valores Nulos

In [34]:
# Crear DataFrame con valores nulos para ejemplos
df_con_nulos = df.copy()
df_con_nulos.loc[fechas[1], 'A'] = np.nan
df_con_nulos.loc[fechas[3], 'B'] = np.nan
df_con_nulos.loc[fechas[5], 'C'] = np.nan

print("DataFrame con valores nulos:")
print(df_con_nulos)

print("\nFilas donde A no es nulo:")
print(df_con_nulos[df_con_nulos['A'].notna()])

print("\nFilas donde hay algún valor nulo:")
print(df_con_nulos[df_con_nulos.isnull().any(axis=1)])

print("\nFilas completamente sin nulos:")
print(df_con_nulos[df_con_nulos.notnull().all(axis=1)])

DataFrame con valores nulos:
                   A         B     C      D
2024-01-01  0.496714 -0.469474  59.0   alto
2024-01-02       NaN  0.542560  42.0   bajo
2024-01-03  0.647689 -0.463418  92.0  medio
2024-01-04  1.523030       NaN  60.0   alto
2024-01-05 -0.234153  0.241962  80.0   bajo
2024-01-06 -0.234137 -1.913280   NaN  medio
2024-01-07  1.579213 -1.724918  62.0   alto
2024-01-08  0.767435 -0.562288  62.0   bajo

Filas donde A no es nulo:
                   A         B     C      D
2024-01-01  0.496714 -0.469474  59.0   alto
2024-01-03  0.647689 -0.463418  92.0  medio
2024-01-04  1.523030       NaN  60.0   alto
2024-01-05 -0.234153  0.241962  80.0   bajo
2024-01-06 -0.234137 -1.913280   NaN  medio
2024-01-07  1.579213 -1.724918  62.0   alto
2024-01-08  0.767435 -0.562288  62.0   bajo

Filas donde hay algún valor nulo:
                   A        B     C      D
2024-01-02       NaN  0.54256  42.0   bajo
2024-01-04  1.523030      NaN  60.0   alto
2024-01-06 -0.234137 -1.91328   