# **Filtrado de Datos en DataFrames de Pandas**

## **1. Introducción a los Filtros en Pandas**

Los filtros en Pandas son una herramienta útil para seleccionar un subconjunto de filas o columnas en un DataFrame que cumplan ciertas condiciones. Con los filtros, podemos hacer una selección basada en valores específicos de una columna o en una combinación de valores de varias columnas.

Para aplicar un filtro en Pandas, podemos utilizar la notación de corchetes y especificar una expresión booleana para seleccionar las filas que cumplan con la condición. Por ejemplo, para seleccionar todas las filas de un DataFrame donde el valor en la columna "edad" es mayor que 30, podemos usar la siguiente sintaxis:

```
df_filtrado = df[df["edad"] > 30]
```

También podemos combinar múltiples condiciones utilizando los operadores lógicos & (AND) y | (OR). Por ejemplo, para seleccionar todas las filas donde el valor en la columna "edad" es mayor que 30 y el valor en la columna "género" es "Femenino", podemos usar la siguiente sintaxis:

```
df_filtrado = df[(df["edad"] > 30) & (df["género"] == "Femenino")]
```

Una vez que hemos aplicado el filtro, podemos trabajar con el DataFrame resultante como lo haríamos con cualquier otro DataFrame.

Los filtros en Pandas son una herramienta poderosa y versátil que nos permite seleccionar y trabajar con subconjuntos específicos de nuestros datos. Con un poco de práctica, podemos utilizarlos eficazmente para explorar, limpiar y transformar nuestros conjuntos de datos.

## **2. Ejercicios Básicos de Filtrado**

In [1]:
import pandas as pd

datos = {'producto': ['manzanas', 'bananas', 'manzanas', 'manzanas', 'naranjas', 'bananas', 'bananas', 'naranjas'],
         'cantidad': [5, 3, 6, 1, 8, 2, 4, 7],
         'precio_unitario': [2.5, 1.2, 2.5, 2.5, 1.5, 1.2, 1.2, 1.5]}
df = pd.DataFrame(datos)


Filtrar las filas donde la cantidad de productos vendidos es mayor que 5.

In [3]:
filtro = df['cantidad'] > 5
df_filtrado = df[filtro]
df_filtrado


Unnamed: 0,producto,cantidad,precio_unitario
2,manzanas,6,2.5
4,naranjas,8,1.5
7,naranjas,7,1.5


Filtrar las filas donde el precio unitario del producto es menor que 2.

In [4]:
filtro = df['precio_unitario'] < 2
df_filtrado = df[filtro]
df_filtrado

Unnamed: 0,producto,cantidad,precio_unitario
1,bananas,3,1.2
4,naranjas,8,1.5
5,bananas,2,1.2
6,bananas,4,1.2
7,naranjas,7,1.5


Filtrar las filas donde el producto es 'manzanas'.

In [5]:
filtro = df['producto'] == 'manzanas'
df_filtrado = df[filtro]
df_filtrado

Unnamed: 0,producto,cantidad,precio_unitario
0,manzanas,5,2.5
2,manzanas,6,2.5
3,manzanas,1,2.5


Filtrar las filas donde la cantidad de productos vendidos es mayor que 3 y el precio unitario es menor que 2.

In [6]:
filtro = (df['cantidad'] > 3) & (df['precio_unitario'] < 2)
df_filtrado = df[filtro]
df_filtrado

Unnamed: 0,producto,cantidad,precio_unitario
4,naranjas,8,1.5
6,bananas,4,1.2
7,naranjas,7,1.5


Filtrar las filas donde el producto es 'bananas' o 'naranjas'.

In [7]:
filtro = df['producto'].isin(['bananas', 'naranjas'])
df_filtrado = df[filtro]
df_filtrado

Unnamed: 0,producto,cantidad,precio_unitario
1,bananas,3,1.2
4,naranjas,8,1.5
5,bananas,2,1.2
6,bananas,4,1.2
7,naranjas,7,1.5


## **3. Ejercicios Avanzados con Condiciones Booleanas**

In [8]:
import pandas as pd

data = {'producto': ['A', 'B', 'C', 'D', 'E'],
        'precio': [100, 200, 150, 180, 120],
        'cantidad': [10, 5, 15, 8, 12],
        'fecha': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05']}

ventas = pd.DataFrame(data)


Seleccionar todas las filas donde el precio sea mayor a 150:

In [9]:
ventas[ventas['precio'] > 150]


Unnamed: 0,producto,precio,cantidad,fecha
1,B,200,5,2022-01-02
3,D,180,8,2022-01-04


Seleccionar todas las filas donde el precio sea mayor a 150 y la cantidad sea menor a 10:

In [10]:
ventas[(ventas['precio'] > 150) & (ventas['cantidad'] < 10)]


Unnamed: 0,producto,precio,cantidad,fecha
1,B,200,5,2022-01-02
3,D,180,8,2022-01-04


Seleccionar todas las filas donde el producto sea "A" o "B":

In [11]:
ventas[(ventas['producto'] == 'A') | (ventas['producto'] == 'B')]


Unnamed: 0,producto,precio,cantidad,fecha
0,A,100,10,2022-01-01
1,B,200,5,2022-01-02


Seleccionar todas las filas donde la fecha sea anterior a "2022-01-04":

In [12]:
ventas[ventas['fecha'] < '2022-01-04']


Unnamed: 0,producto,precio,cantidad,fecha
0,A,100,10,2022-01-01
1,B,200,5,2022-01-02
2,C,150,15,2022-01-03


Seleccionar todas las filas donde la cantidad sea mayor a 10 y el precio sea menor o igual a 150:

In [13]:
ventas[(ventas['cantidad'] > 10) & (ventas['precio'] <= 150)]


Unnamed: 0,producto,precio,cantidad,fecha
2,C,150,15,2022-01-03
4,E,120,12,2022-01-05
