## Ejemplo 5: Filtros

### 1. Objetivos:
    - Aprender cómo funcionan los filtros
    - Aplicar varios filtros para verlos en acción
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv(
    '../Datasets/new_york_times_bestsellers-dirty.csv',
    index_col=0)
df.head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Digamos que queremos todos los registros donde el nombre del autor empiece con 'R'. Primero, usamos `operadores de comparación` (o en este caso, el método `str.startswith(-patrón-)`) para obtener nuestro filtro:

In [12]:
df["author"].str.startswith("R").unique()

array([False,  True])

Lo que obtenemos de regreso es una `Serie` con la misma longitud que la `Serie` original. Se aplicó el método o la comparación a cada elemento de la `Serie` original. Estos métodos o comparaciones regresan `True` o `False` dependiendo de cada valor. La `Serie` resultante acumula los `Trues` y `Falses` que obtengamos de la comparación o de la aplicación del método.

Después, al pasar este filtro al `operador de indexación` del `DataFrame`, todas las filas a las que les corresponda un `True` se mantienen, mientras que las filas a las que les corresponde un `False` se dejan fuera del subconjunto resultante:

`dataframe[ -serie índice para filtrado- ]`

In [14]:
# crea tu filtro aquí
df[ df["author"].str.startswith("R") ].head()

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
79,http://www.amazon.com/Chasing-Darkness-Elvis-N...,Robert Crais,Descr: he Los Angeles private eye Elvis Cole r...,Simon & Schuster,CHASING DARKNESS,5b4aa4ead3089013507db209,2008-07-05 00:00:00,1216512000000,7,0,1,25.95
94,http://www.amazon.com/Chasing-Darkness-Elvis-N...,Robert Crais,Descr: Is the Los Angeles private eye Elvis Co...,Simon & Schuster,CHASING DARKNESS,5b4aa4ead3089013507db221,2008-07-12 00:00:00,1217116800000,11,7,2,25.95
110,http://www.amazon.com/Killer-View-Fleming-Ridl...,Ridley Pearson,"Descr: A sheriff in Sun Valley, Idaho, investi...",Putnam,KILLER VIEW,5b4aa4ead3089013507db239,2008-07-19 00:00:00,1217721600000,15,0,1,24.95
143,http://www.amazon.com/Foreign-Body-Robin-Cook/...,Robin Cook,Descr: A medical student investigates a rising...,Putnam,FOREIGN BODY,5b4aa4ead3089013507db26f,2008-08-09 00:00:00,1219536000000,9,0,1,25.95
158,http://www.amazon.com/Foreign-Body-Robin-Cook/...,Robin Cook,Descr: A medical student investigates a rising...,Putnam,FOREIGN BODY,5b4aa4ead3089013507db287,2008-08-16 00:00:00,1220140800000,No Rank,9,2,25.95


Podemos también guardar nuestras condiciones en variables y después utilizarlos, por ejemplo, encuentra todas las producciones cuyo precio es mayor a 20:

In [17]:
mayor_a_20 = df["price.numberDouble"] > 20

In [18]:
df[mayor_a_20].head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
0,http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Descr: Aliens have taken control of the minds ...,"Little, Brown",THE HOST,5b4aa4ead3089013507db18c,2008-05-24 00:00:00,1212883200000,2,1,3,25.99
1,http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,Descr: A woman's happy marriage is shaken when...,St. Martin's,LOVE THE ONE YOU'RE WITH,5b4aa4ead3089013507db18d,2008-05-24 00:00:00,1212883200000,3,2,2,24.95
2,http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,Descr: A Massachusetts state investigator and ...,Putnam,THE FRONT,5b4aa4ead3089013507db18e,2008-05-24 00:00:00,1212883200000,4,0,1,22.95


Podemos incluso aplicar dos o más filtros utilizando `operadores lógicos`. En este caso, nuestro operador `and` se representa con un `&` y el operador `or` se representa con `|`.

Así que podemos obtener todas las producciones con rango 1 y que además cuyo precio sea mayor a 20:

In [23]:
df.dtypes

amazon_product_url              object
author                          object
description                     object
publisher                       object
title                           object
oid                             object
bestsellers_date.numberLong     object
published_date.numberLong        int64
rank.numberInt                  object
rank_last_week.numberInt         int64
weeks_on_list.numberInt          int64
price.numberDouble             float64
dtype: object

In [26]:
rank_numero_uno = df["rank.numberInt"] == "1"
rank_numero_uno.unique()

array([False,  True])

In [27]:
df[mayor_a_20 & rank_numero_uno].head(3)

Unnamed: 0,amazon_product_url,author,description,publisher,title,oid,bestsellers_date.numberLong,published_date.numberLong,rank.numberInt,rank_last_week.numberInt,weeks_on_list.numberInt,price.numberDouble
51,http://www.amazon.com/Fearless-Fourteen-Janet-...,Janet Evanovich,Descr: Stephanie Plum and her boyfriend Joe Mo...,St. Martin’s,FEARLESS FOURTEEN,5b4aa4ead3089013507db1db,2008-06-21 00:00:00,1215302400000,1,0,1,27.95
63,http://www.amazon.com/Fearless-Fourteen-Janet-...,Janet Evanovich,Descr: Stephanie Plum and her boyfriend Joe Mo...,St. Martin’s,FEARLESS FOURTEEN,5b4aa4ead3089013507db1ef,2008-06-28 00:00:00,1215907200000,1,1,2,27.95
85,http://www.amazon.com/Tribute-Nora-Roberts/dp/...,Nora Roberts,Descr: A former child star returns to Virginia...,Putnam,TRIBUTE,5b4aa4ead3089013507db217,2008-07-12 00:00:00,1217116800000,1,0,1,26.95


---
---

## Reto 5: Filtros

### 1. Objetivos:
    - Practicar el uso de filtros para la obtención de subconjuntos de datos
    
---
    
### 2. Desarrollo:

#### a) Filtrando por fechas, booleanos y valores numéricos

Vamos a trabajar con el mismo dataset que guardaste del Reto anterior. Este Reto consiste en los siguiente:

Usando filtros, crea 3 subconjuntos de datos:

1. Un subconjunto llamado `df_hazardous` que contenga sólo los records que correspondan a los objetos donde `is_potentially_hazardous_asteroid` sea `True` (o `1`).
2. Un subconjunto llamado `df_greater_than_1000` que contenga sólo los records donde el `estimated_diameter.meters.estimated_diameter_max` sea mayor a 1000 metros.
3. Un subconjunto llamado `df_february` que contenga sólo los records que pertenezcan exactamente al mes de Febrero de 1995. Recuerda que los datos en la columna `epoch_date_close_approach` están en milisegundos.


In [None]:
import pandas as pd

In [None]:
df_reto_5 = pd.read_csv("../Ejemplo-04/objetos_cercanos_4.csv", index_col=0)
df_reto_5.head(3)

In [None]:
# tu código aquí