In [21]:
import pandas as pd

# Ejemplo 0: Creación de los datos

In [22]:
# Dataset de Juguete: Empleados
data = {
    'nombre': ['Ana', 'Luis', 'Carlos', 'Sara', 'Marta', 'Pedro'],
    'departamento': ['Ventas', 'IT', 'Ventas', 'HR', 'IT', 'Ventas'],
    'salario': [5000, 8000, 4500, 6000, 8200, 4800],
    'años_exp': [2, 5, 1, 4, 6, 2],
    'activo': [True, True, False, True, True, False]
}

df_data = pd.DataFrame(data)

# Ejemplo 1: La Legibilidad (Readability)

Teoría: Matt Harrison dice que el código se lee más veces de las que se escribe. .query() elimina la repetición del nombre del DataFrame (df_ventas), haciendo que el código parezca una frase en inglés.

  *  Objetivo: Filtrar empleados de 'Ventas'.

  *  Estilo Tradicional (Ruidoso): df[df['departamento'] == 'Ventas']

  *  Estilo Effective Pandas:

In [23]:
# Se lee: "Query donde el departamento sea igual a ventas"
ventas=df_data.query('departamento== "Ventas"')
print(ventas)

   nombre departamento  salario  años_exp  activo
0     Ana       Ventas     5000         2    True
2  Carlos       Ventas     4500         1   False
5   Pedro       Ventas     4800         2   False


# Ejemplo 2: Evitar Errores de Sintaxis
Lógica Compleja sin Paréntesis

Teoría: En Pandas tradicional, si tienes múltiples condiciones, estás obligado a usar paréntesis () alrededor de cada una y operadores bitwise (&, |). Esto genera errores frecuentes. .query() usa palabras (and, or) y maneja la precedencia automáticamente.

 *   Objetivo: Empleados de 'IT' que ganen más de 8000.

 *   Estilo Tradicional: df_data[(df_data['departamento'] == 'IT') & (df_data['salario'] > 8000)]

 *   Estilo Effective Pandas:

In [24]:
#Limpio, sin paréntesis extra
seniors_it=df_data.query('departamento=="IT" and salario > 8000')
print(seniors_it)

  nombre departamento  salario  años_exp  activo
4  Marta           IT     8200         6    True


# Ejemplo 3: El Puente con Python (Variable Externa @)

Teoría: Effective Pandas promueve no "hardcodear" (escribir valores fijos) dentro de las funciones. Usar @ permite inyectar variables del entorno de Python dentro de la consulta de Pandas de forma segura y clara.

*   Objetivo: Filtrar salarios basados en un presupuesto dinámico definido fuera.



In [25]:
# Variable de configuración (Python Puro)
presupuesto_minimo = 5000
dept_excluido="HR"

#Aplicación con Query
# Se lee: "Salario mayor al presupuesto y departamento no sea el excluido"
resultado=df_data.query('salario >= @presupuesto_minimo and departamento != @dept_excluido')
print(resultado)

  nombre departamento  salario  años_exp  activo
0    Ana       Ventas     5000         2    True
1   Luis           IT     8000         5    True
4  Marta           IT     8200         6    True


# Ejemplo 4: El "Method Chaining" (La Joya de Effective Pandas)

Teoría: Este es el punto más fuerte del libro. Harrison aboga por encadenar métodos para evitar crear variables intermedias inútiles (df2, df_filtro, df_final). El método .query() es vital aquí porque permite filtrar "al vuelo" sin romper la cadena.

    Objetivo:

    *    Tomar el DataFrame.

    *    Filtrar solo los empleados activos (activo == True).

    *    Filtrar los que tienen más de 2 años de experiencia.

    *    Ordenar por salario.

In [26]:
reporte_final = (df_data
                 .query('activo==True')    # Paso 1: Filtra activos
                 .query('años_exp > 2')    # Paso 2: Filtra experiencia
                 .sort_values('salario', ascending=False)   # Paso 2: Filtra experiencia
                 )

print(reporte_final)

  nombre departamento  salario  años_exp  activo
4  Marta           IT     8200         6    True
1   Luis           IT     8000         5    True
3   Sara           HR     6000         4    True


¿Por qué esto es "Effective Pandas"? Si intentaras hacer esto con el método tradicional (df[...]), tendrías que haber parado la cadena para reasignar la variable o usar funciones lambda complejas (.loc[lambda x: x['activo']]). Con .query(), el flujo fluye de arriba hacia abajo sin interrupciones.