<a href="https://colab.research.google.com/github/fralfaro/python_eda/blob/main/docs/pandas/024_filtros.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Filtrar Datos

Para filtrar datos en Pandas, se utiliza el método `loc()` o `iloc()`, dependiendo de si queremos filtrar por etiquetas de índice o por posición. Para efectos prácticos, utilizaremos solo `loc()`.

Supongamos que tenemos un DataFrame llamado `df` con las columnas "Nombre", "Edad" y "Género", y queremos filtrar los datos para obtener solo las filas donde la edad sea **mayor o igual a 18**.

Para hacer esto utilizando el método `loc()`, podemos utilizar la siguiente línea de código:



In [1]:
import pandas as pd
data = {'Nombre': ['Juan', 'Ana', 'Pedro', 'Maria'],
        'Edad': [15, 17, 35, None],
        'Género': ['Masculino', 'Femenino', 'Masculino', '-']}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Género
0,Juan,15.0,Masculino
1,Ana,17.0,Femenino
2,Pedro,35.0,Masculino
3,Maria,,-


In [2]:
# mayor o igual a 18.
df.loc[df['Edad'] >= 18]

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino


Para entender mejor los filtros de pandas, separemos el problema. Lo primero será definir la condición:

In [3]:
# crear condicion
valor_objetivo = 18 
condicion = (df['Edad'] >= valor_objetivo)

Obsersevemos que la variable `condicion` corresponde un panda series con objetos Booleanos.

In [4]:
# ver objetos de la variable condicion
condicion

0    False
1    False
2     True
3    False
Name: Edad, dtype: bool

Ahora, al aplicar la varible `condicion` al pandas dataframe, esto retornará el dataframe objetivo en donde los ínidices de la condición son verdaderas (`True`).

In [5]:
df[condicion]

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino


## Tipos de Filtros

### Filtrar por valor

podemos utilizar los operadores de comparación, como `==`, `>`, `<`, `>=` y `<=`, para filtrar datos por valor. Por ejemplo, si queremos filtrar solo las filas donde la columna "Edad" es mayor o igual a 18, podemos utilizar la siguiente línea de código:

In [6]:
# mayor o igual a 18
df[df['Edad'] >= 18]

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino


Veamos más ejemplos:

In [7]:
# edad entre 0 y 18 
df.loc[df['Edad'].between(0,18)]

Unnamed: 0,Nombre,Edad,Género
0,Juan,15.0,Masculino
1,Ana,17.0,Femenino


In [8]:
# nombre igual a Pedro
df.loc[df['Nombre']=='Pedro']

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino


### Filtrar por múltiples valores

podemos utilizar el operador `isin()` para filtrar datos por múltiples valores. Por ejemplo, si queremos filtrar solo las filas donde la columna "Género" es "Masculino" o "Femenino", podemos utilizar la siguiente línea de código:

In [9]:
# columna "Género" es "Masculino" o "Femenino"
df[df['Género'].isin(['Masculino', 'Femenino'])]

Unnamed: 0,Nombre,Edad,Género
0,Juan,15.0,Masculino
1,Ana,17.0,Femenino
2,Pedro,35.0,Masculino


### Filtrar por patrón de texto

podemos utilizar el método `str.contains()` para filtrar datos por un patrón de texto en una columna. Por ejemplo, si queremos filtrar solo las filas donde la columna "Nombre" contiene la palabra "Juan", podemos utilizar la siguiente línea de código:

In [10]:
# columna "Nombre" contiene la palabra "Juan"
df[df['Nombre'].str.contains('Juan')]

Unnamed: 0,Nombre,Edad,Género
0,Juan,15.0,Masculino


### Filtrar por nulos

podemos utilizar el método `isnull()` para filtrar datos por valores nulos en una columna. Por ejemplo, si queremos filtrar solo las filas donde la columna "Edad" tiene un valor nulo, podemos utilizar la siguiente línea de código:

In [11]:
df[df['Edad'].isnull()]

Unnamed: 0,Nombre,Edad,Género
3,Maria,,-


al mismo tiempo, podemos filtrar por los datos que NO son nulos con `notnull()`

In [12]:
df[df['Edad'].notnull()]

Unnamed: 0,Nombre,Edad,Género
0,Juan,15.0,Masculino
1,Ana,17.0,Femenino
2,Pedro,35.0,Masculino


### Filtrar por varias condiciones

podemos utilizar operadores lógicos como `&` (and) y `|` (or) para combinar varias condiciones de filtrado. Por ejemplo, si queremos filtrar solo las filas donde la columna "Edad" es mayor o igual a 18 y la columna "Género" es "Masculino", podemos utilizar la siguiente línea de código:

In [13]:
df[(df['Edad'] >= 18) & (df['Género'] == 'Masculino')]

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino


**Observación**: Una alternativa para filtrar datos es utilizar la notación **lambda**, la cual resulta más práctica sobre todo cuando el nombre del dataframe es largo. 

Veamos unos ejemplos:

In [14]:
data = {'Nombre': ['Juan', 'Ana', 'Pedro', 'Maria'],
        'Edad': [15, 17, 35, None],
        'Género': ['Masculino', 'Femenino', 'Masculino', '-']}

df_nombre_muy_largo = pd.DataFrame(data)
df_nombre_muy_largo

Unnamed: 0,Nombre,Edad,Género
0,Juan,15.0,Masculino
1,Ana,17.0,Femenino
2,Pedro,35.0,Masculino
3,Maria,,-


In [15]:
# caso normal
df_nombre_muy_largo.loc[(df_nombre_muy_largo['Edad'] >= 18) & (df_nombre_muy_largo['Género'] == 'Masculino')]

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino


In [16]:
# caso lambda 
df_nombre_muy_largo.loc[lambda x: (x['Edad'] >= 18) & (x['Género'] == 'Masculino')]

Unnamed: 0,Nombre,Edad,Género
2,Pedro,35.0,Masculino
