<a href="https://colab.research.google.com/github/Fercaspe/Data-UY/blob/main/ML_filtros_dataframes_querys.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Uso de `df.query()` para Filtrar Filas y Columnas en Pandas

El método `df.query()` permite filtrar filas y columnas de un **DataFrame de Pandas** utilizando expresiones lógicas de manera más compacta y legible.

En este notebook, aprenderemos a usar `df.query()` para filtrar datos con **condiciones lógicas** y **manejo de valores nulos (`NaN`)**.

## **1. Creación de un DataFrame de Ejemplo**


In [None]:

import pandas as pd
import numpy as np

# Crear un DataFrame con datos ficticios
df = pd.DataFrame({
    "Nombre": ["Ana", "Juan", "Luis", "Marta", "Pedro", "Sofia"],
    "Edad": [25, 30, 35, 40, 22, np.nan],
    "Salario": [50000, 54000, 58000, np.nan, 51000, 49000],
    "Departamento": ["Ventas", "IT", "IT", "RRHH", "Ventas", "IT"],
    "Años_Experiencia": [3, 7, 10, 5, np.nan, 6]
})

# Mostrar el DataFrame
df


Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
0,Ana,25.0,50000.0,Ventas,3.0
1,Juan,30.0,54000.0,IT,7.0
2,Luis,35.0,58000.0,IT,10.0
3,Marta,40.0,,RRHH,5.0
4,Pedro,22.0,51000.0,Ventas,
5,Sofia,,49000.0,IT,6.0



## **2. Filtrar Filas Usando Condiciones Lógicas**

### **2.1 Filtrar por Igualdad (`==`)**
```python
df.query("Departamento == 'IT'")
```

### **2.2 Filtrar por Diferencia (`!=`)**
```python
df.query("Departamento != 'IT'")
```

### **2.3 Filtrar por Mayor (`>`) y Menor (`<`)**
```python
df.query("Edad > 30")
df.query("Salario < 55000")
```

### **Ejemplo en Python**


In [None]:

# Filtrar empleados del departamento IT
df.query("Departamento == 'IT'")


Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
1,Juan,30.0,54000.0,IT,7.0
2,Luis,35.0,58000.0,IT,10.0
5,Sofia,,49000.0,IT,6.0



## **3. Filtrar con Múltiples Condiciones**

Podemos combinar condiciones usando **operadores lógicos**:

- **AND (`&`)** → Ambas condiciones deben cumplirse.
- **OR (`|`)** → Basta con que una condición sea verdadera.

### **3.1 Filtrar empleados de IT con salario mayor a 50000**
```python
df.query("Departamento == 'IT' & Salario > 50000")
```

### **3.2 Filtrar empleados de Ventas o RRHH**
```python
df.query("Departamento == 'Ventas' | Departamento == 'RRHH'")
```

### **Ejemplo en Python**


In [None]:

# Filtrar empleados del departamento IT con salario mayor a 50000
df.query("Departamento == 'IT' & Salario > 50000")


Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
1,Juan,30.0,54000.0,IT,7.0
2,Luis,35.0,58000.0,IT,10.0



## **4. Manejo de Valores Nulos (`NaN`) con `query()`**

En `df.query()`, podemos filtrar filas que **tengan o no tengan valores nulos** en ciertas columnas.

### **4.1 Filtrar filas donde una columna NO tiene `NaN`**
```python
df.query("Salario.notnull()")
```

### **4.2 Filtrar filas donde una columna SÍ tiene `NaN`**
```python
df.query("Edad.isnull()")
```

### **Ejemplo en Python**


In [None]:

# Filtrar empleados que tienen salario NO nulo
df.query("Salario.notnull()")


Unnamed: 0,Nombre,Edad,Salario,Departamento,Años_Experiencia
0,Ana,25.0,50000.0,Ventas,3.0
1,Juan,30.0,54000.0,IT,7.0
2,Luis,35.0,58000.0,IT,10.0
4,Pedro,22.0,51000.0,Ventas,
5,Sofia,,49000.0,IT,6.0



## **5. Filtrar y Seleccionar Columnas Específicas**

Podemos combinar `df.query()` con `filter` o `loc` para extraer ciertas columnas después de aplicar un filtro.

### **5.1 Filtrar y seleccionar solo las columnas "Nombre" y "Salario"**
```python
df.query("Edad > 30")[["Nombre", "Salario"]]
```

### **5.2 Filtrar y seleccionar columnas que contienen "Salario" en el nombre**
```python
df.filter(like="Salario", axis=1)
```

### **Ejemplo en Python**


In [None]:

# Filtrar empleados mayores de 30 años y mostrar solo Nombre y Salario
df.query("Edad > 30")[["Nombre", "Salario"]]


Unnamed: 0,Nombre,Salario
2,Luis,58000.0
3,Marta,
