# Selección y Filtrado de Datos

Este notebook cubre todas las formas de seleccionar y filtrar datos en pandas.

In [None]:
import numpy as np
import pandas as pd

# Crear DataFrame de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=8)
df = pd.DataFrame({
    'A': np.random.randn(8),
    'B': np.random.randn(8),
    'C': np.random.randint(1, 100, 8),
    'D': ['alto', 'bajo', 'medio', 'alto', 'bajo', 'medio', 'alto', 'bajo']
}, index=fechas)

print("DataFrame de ejemplo:")
print(df)

## Selección Básica con Corchetes []

In [None]:
# Seleccionar una columna (devuelve Serie)
print("Seleccionar columna A:")
print(df['A'])
print(f"Tipo: {type(df['A'])}")

# Seleccionar múltiples columnas (devuelve DataFrame)
print("\nSeleccionar columnas A y C:")
print(df[['A', 'C']])
print(f"Tipo: {type(df[['A', 'C']])}")

In [None]:
# Seleccionar filas por rango de índice
print("Primeras 3 filas:")
print(df[0:3])

print("\nFilas por rango de fechas:")
print(df['20240102':'20240104'])

print("\nÚltimas 3 filas:")
print(df[-3:])

## Selección por Etiquetas con .loc[]

In [None]:
# Seleccionar una fila específica
print("Fila del 2024-01-01:")
print(df.loc[fechas[0]])
print(f"Tipo: {type(df.loc[fechas[0]])}")

# Seleccionar filas y columnas específicas
print("\nFilas y columnas específicas:")
print(df.loc[fechas[0:3], ['A', 'B']])

# Seleccionar todas las filas, columnas específicas
print("\nTodas las filas, columnas A y C:")
print(df.loc[:, ['A', 'C']])

In [None]:
# Slicing con etiquetas (ambos extremos incluidos)
print("Rango de fechas y columnas:")
print(df.loc['20240102':'20240104', 'A':'C'])

# Seleccionar un valor específico
valor = df.loc[fechas[0], 'A']
print(f"\nValor específico: {valor}")

# Método alternativo más rápido para un valor
valor_rapido = df.at[fechas[0], 'A']
print(f"Valor con .at[]: {valor_rapido}")

## Selección por Posición con .iloc[]

In [None]:
# Seleccionar por posición de fila
print("Cuarta fila (índice 3):")
print(df.iloc[3])

# Seleccionar rango de filas y columnas
print("\nFilas 1-3, columnas 0-2:")
print(df.iloc[1:4, 0:3])

# Seleccionar filas y columnas específicas por posición
print("\nFilas 1,3,5 y columnas 0,2:")
print(df.iloc[[1, 3, 5], [0, 2]])

In [None]:
# Seleccionar todas las filas, columnas específicas
print("Todas las filas, columnas 1-3:")
print(df.iloc[:, 1:4])

# Seleccionar filas específicas, todas las columnas
print("\nFilas 2-4, todas las columnas:")
print(df.iloc[2:5, :])

# Valor específico por posición
valor_pos = df.iloc[1, 1]
print(f"\nValor en posición [1,1]: {valor_pos}")

# Método más rápido para un valor
valor_pos_rapido = df.iat[1, 1]
print(f"Valor con .iat[]: {valor_pos_rapido}")

## Filtrado con Condiciones Booleanas

In [None]:
# Filtro simple: valores de A mayores que 0
print("Filas donde A > 0:")
filtro_a = df['A'] > 0
print("Máscara booleana:")
print(filtro_a)
print("\nResultado del filtro:")
print(df[filtro_a])

In [None]:
# Múltiples condiciones con operadores lógicos
print("Filas donde A > 0 Y B < 1:")
filtro_multiple = (df['A'] > 0) & (df['B'] < 1)
print(df[filtro_multiple])

print("\nFilas donde A > 1 O C > 50:")
filtro_or = (df['A'] > 1) | (df['C'] > 50)
print(df[filtro_or])

print("\nFilas donde A NO es mayor que 0:")
filtro_not = ~(df['A'] > 0)
print(df[filtro_not])

In [None]:
# Filtro con valores específicos usando .isin()
print("Filas donde D es 'alto' o 'medio':")
filtro_isin = df['D'].isin(['alto', 'medio'])
print(df[filtro_isin])

# Filtro excluyendo valores
print("\nFilas donde D NO es 'bajo':")
filtro_not_isin = ~df['D'].isin(['bajo'])
print(df[filtro_not_isin])

## Filtrado Avanzado

In [None]:
# Filtrar y seleccionar columnas específicas
print("Filas donde C > 30, solo columnas A y D:")
resultado = df.loc[df['C'] > 30, ['A', 'D']]
print(resultado)

# Filtro con query() - más legible para condiciones complejas
print("\nUsando query() - A > 0 and C < 50:")
resultado_query = df.query('A > 0 and C < 50')
print(resultado_query)

print("\nUsando query() con variables:")
umbral_a = 0.5
umbral_c = 40
resultado_query_var = df.query('A > @umbral_a or C > @umbral_c')
print(resultado_query_var)

## Filtrado con Valores Nulos

In [None]:
# Crear DataFrame con valores nulos para ejemplos
df_con_nulos = df.copy()
df_con_nulos.loc[fechas[1], 'A'] = np.nan
df_con_nulos.loc[fechas[3], 'B'] = np.nan
df_con_nulos.loc[fechas[5], 'C'] = np.nan

print("DataFrame con valores nulos:")
print(df_con_nulos)

print("\nFilas donde A no es nulo:")
print(df_con_nulos[df_con_nulos['A'].notna()])

print("\nFilas donde hay algún valor nulo:")
print(df_con_nulos[df_con_nulos.isnull().any(axis=1)])

print("\nFilas completamente sin nulos:")
print(df_con_nulos[df_con_nulos.notnull().all(axis=1)])