# Filtrando por condiciones

*Filtrar condiciones puede ser muy útil para llevar datos específicos a  un ETL ó un algoritmo de ML*


Funciona por lógica booleana y retorna los valores que están en `True`. Es muy util porque en operaciones queremos filtrar ó separar datos

Para este tema se seguirá usando un dataset con datos de libros

### Mostrar datos que sean mayores a cierto valor
`mayor_2016 = df_books['Year'] > 2016`: filtrar las filas que tengan un año mayor a 2016
  * recordar que esto devuelve una lógica booleana 
    * para aplicar la condicion en el df y ver las filas, la invodamos : `df_books[mayor_2016]`


### Mostrar datos que sean iguales a cierto valor
 `genero_ficcion =  df_books['Genero'] == "Fiction"` : muestra un series con valores booleanos, siendo `True` para valores booleanos

### Filtrando por varias condiciones
`df_books[mayor_2016 & genero_ficcion]` : filtrar las filas que tengan ambas condiciones al mismo tiempo
 * concatenamos las condiciones con el operador `&`

### Filtrando por negación 
`df_books[mayor_2016 &~ genero_ficcion]`: filtrar filas que tengan un año mayor a 2016 pero que NO sean Ficción
 * para negar una condición usamos el operador `~`




In [1]:
import pandas as pd

In [4]:
path = "../data/bestsellers_with_categories.csv"
names = ['Nombre', 'Autor', 'Aprobacion', 'Reviews', 'Precio', 'Año', 'Genero']

data = pd.read_csv(path, sep= ",", header = 0, names = names)
df_books = pd.DataFrame(data, columns = names)
df_books.head(3)

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction


In [68]:
# número de filas totales
df_books.shape[0]

550

In [62]:
#filtrar filas que tengan un "año > 2016"
mayor_2016 = df_books["Año"] > 2016 # recordar que esto devuelve un booleano
#df_books[mayor_2016]# para ver las filas aplicamos esta condición al df

# filtrar filas que tengan un "Genero = Fiction"
gen_fiction = df_books["Genero"]  == "Fiction"

mayor_2016.head()

0    False
1    False
2     True
3     True
4     True
Name: Año, dtype: bool

In [69]:
# invocar condición y ver el número de filas que la cumplen

df_books[gen_fiction] # invocamos condición 
sum_gen_fiction = gen_fiction.sum() # sumamos todas las filas

print(f'número de filas con genero "Fiction": {sum_gen_fiction}')

número de filas con genero "Fiction": 240


In [42]:
# filtrar filas que cumplan ambas condiciones
df_books[mayor_2016 & gen_fiction]

Unnamed: 0,Nombre,Autor,Aprobacion,Reviews,Precio,Año,Genero
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
7,A Gentleman in Moscow: A Novel,Amor Towles,4.7,19699,15,2017,Fiction
10,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2017,Fiction
13,A Wrinkle in Time (Time Quintet),Madeleine L'Engle,4.5,5153,5,2018,Fiction
40,"Brown Bear, Brown Bear, What Do You See?",Bill Martin Jr.,4.9,14344,5,2017,Fiction
...,...,...,...,...,...,...,...
509,To Kill a Mockingbird,Harper Lee,4.8,26234,7,2019,Fiction
529,What Should Danny Do? (The Power to Choose Ser...,Adir Levy,4.8,8170,13,2019,Fiction
534,Where the Crawdads Sing,Delia Owens,4.8,87841,15,2019,Fiction
544,Wonder,R. J. Palacio,4.8,21625,9,2017,Fiction


In [59]:
# filas con año mayor a 2016 pero NO "Fiction"
mayor_2016_No_fiction = df_books[mayor_2016 &~gen_fiction]#["Año"].count()
mayor_2016_No_fiction["Año"].count() # número de filas que cumplen la condición

85

In [54]:
# número de columnas con ambas condiciones
(mayor_2016 & gen_fiction).sum()

# otra forma de hacerlo
fiction_mayor_2016 = df_books[mayor_2016 & gen_fiction]["Genero"].count()
fiction_mayor_2016

65

550