# Filtrado por condiciones en pandas

In [6]:
import pandas as pd

In [54]:
data = {'nombre': ['Juan', 'Ana', 'Pedro', 'Maria', 'Luis'],
        'edad': [25, 30, 45, 32, 28],
        'ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Madrid', None]}
df = pd.DataFrame(data)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,Ana,30,Barcelona
2,Pedro,45,Sevilla
3,Maria,32,Madrid
4,Luis,28,


## Filtros booleanos

Para aplicar un filtro booleano a un DataFrame, simplemente pasamos la matriz booleana a la notación de corchetes de pandas. Por ejemplo, para seleccionar todas las filas donde la edad es mayor que 30, hacemos lo siguiente:

In [12]:
df['edad'] > 30

0    False
1    False
2     True
3     True
4    False
Name: edad, dtype: bool

In [14]:
df[df['edad'] > 30]

Unnamed: 0,nombre,edad,ciudad
2,Pedro,45,Sevilla
3,Maria,32,Madrid


In [15]:
filtro_edad = df['edad'] > 30
df[filtro_edad]

Unnamed: 0,nombre,edad,ciudad
2,Pedro,45,Sevilla
3,Maria,32,Madrid


## Filtros basados en valores únicos

In [21]:
ciudades = df["ciudad"].unique().tolist()
for ciudad in ciudades:
    print(ciudad)

Madrid
Barcelona
Sevilla


Para filtrar por valores únicos, podemos utilizar el método isin() junto con la notación de corchetes de pandas. Por ejemplo, para seleccionar todas las filas donde la ciudad es 'Madrid' o 'Barcelona', hacemos lo siguiente:

In [22]:
filtro_ciudad = df['ciudad'].isin(['Madrid', 'Barcelona'])
df[filtro_ciudad]

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,Ana,30,Barcelona
3,Maria,32,Madrid
4,Luis,28,Barcelona


## Filtros basados en patrones de texto

Para aplicar un filtro basado en un patrón de texto, podemos utilizar el método str.contains() junto con la notación de corchetes de pandas. Por ejemplo, para seleccionar todas las filas donde el nombre contiene la letra 'a', hacemos lo siguiente:

In [47]:
filtro_nombre = df['nombre'].str.casefold().str.contains('an')
df[filtro_nombre]

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,Ana,30,Barcelona


## Filtros combinados

Para combinar filtros, utilizamos operadores lógicos como & (and) y | (or). Por ejemplo, para seleccionar todas las filas donde la edad es mayor que 30 y la ciudad es 'Madrid', hacemos lo siguiente:

In [63]:
filtro_edad = df['edad'] > 30
#filtro_ciudad = df['ciudad'] == 'Madrid'
filtro_ciudad = df['ciudad'].isin(['Madrid'])
df[filtro_edad & filtro_ciudad]

Unnamed: 0,nombre,edad,ciudad
3,Maria,32,Madrid


In [None]:
"hola"
'hola'
'Me dicen el "guapo" '

In [65]:
df.query("edad > 30 and ciudad == 'Madrid'")

Unnamed: 0,nombre,edad,ciudad
3,Maria,32,Madrid


## Valores nulos

In [60]:
nulos = df["ciudad"].notnull()
df[nulos]

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,Ana,30,Barcelona
2,Pedro,45,Sevilla
3,Maria,32,Madrid


## Ejemplo

In [73]:
df = pd.read_csv("db/NetFlix.csv")
df["country"] = df["country"].fillna("")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7787 entries, 0 to 7786
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       7787 non-null   object
 1   type          7787 non-null   object
 2   title         7787 non-null   object
 3   director      5398 non-null   object
 4   cast          7069 non-null   object
 5   country       7787 non-null   object
 6   date_added    7777 non-null   object
 7   release_year  7787 non-null   int64 
 8   rating        7780 non-null   object
 9   duration      7787 non-null   int64 
 10  genres        7787 non-null   object
 11  description   7787 non-null   object
dtypes: int64(2), object(10)
memory usage: 730.2+ KB


In [77]:
df.head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,genres,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,14-Aug-20,2020,TV-MA,4,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s10,Movie,1920,Vikram Bhatt,"Rajneesh Duggal, Adah Sharma, Indraneil Sengup...",India,15-Dec-17,2008,TV-MA,143,"Horror Movies, International Movies, Thrillers",An architect and his wife move into a castle t...
2,s100,Movie,3 Heroines,Iman Brotoseno,"Reza Rahadian, Bunga Citra Lestari, Tara Basro...",Indonesia,05-Jan-19,2016,TV-PG,124,"Dramas, International Movies, Sports Movies",Three Indonesian women break records by becomi...
3,s1000,Movie,Blue Mountain State: The Rise of Thadland,Lev L. Spiro,"Alan Ritchson, Darin Brooks, James Cade, Rob R...",United States,01-Mar-16,2016,R,90,Comedies,New NFL star Thad buys his old teammates' belo...
4,s1001,TV Show,Blue Planet II,,David Attenborough,United Kingdom,03-Dec-18,2017,TV-G,1,"British TV Shows, Docuseries, Science & Nature TV",This sequel to the award-winning nature series...


In [75]:
locaciones = df["country"].unique().tolist()
paises = []
for locacion in locaciones:
    if "," not in locacion:
        paises.append(locacion)
    else:
        paises_locacion = locacion.replace(',','')
        paises_locacion.split(' ')
        paises.extend(paises_locacion)
#print(paises)

In [81]:
EEUU = df["country"].str.contains("Guatemala")
df[EEUU]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,genres,description
1720,s2547,Movie,Guatemala: Heart of the Mayan World,"Luis Ara, Ignacio Jaunsolo",Christian Morales,"Uruguay, Guatemala",30-Nov-19,2019,TV-G,67,"Documentaries, International Movies","From Sierra de las Minas to Esquipulas, explor..."
4998,s5498,Movie,"Septiembre, un llanto en silencio",Kenneth Müller,"Saúl Lisazo, Mario Zaragoza, Juan Pablo Olysla...",Guatemala,10-Mar-18,2017,TV-MA,69,"Dramas, Independent Movies, International Movies","After a terrorist attack in Guatemala, a baby ..."


In [None]:
EEUU = df["country"].str.contains("United States")

df[EEUU]