## Ejemplo 5: Filtros

### 1. Objetivos:
    - Aprender cómo funcionan los filtros
    - Aplicar varios filtros para verlos en acción
 
### 2. Desarrollo:

In [None]:
import pandas as pd

Creamos nuestro DataFrame a partir del archivo de datos CSV:

In [None]:
df = pd.read_csv('../../Datasets/new_york_times_bestsellers-dirty.csv', index_col=0)

df.head(3)

Ahora, queremos todos los registros donde el nombre del autor empiece con 'R', entonces usamos la función `str.startswith(-patrón-)` a la columna `author` de la forma:

`df[-columna-].str.startswith(-patrón-)`

In [None]:
...

Lo que obtenemos de regreso es una `Serie` con la misma longitud que la columna original y la función `startswith()` se aplicó comparando cada elemento regresando un valor booleano.

Después, al pasar este filtro al `operador de indexación` del `DataFrame`, todas las filas a las que les corresponda un `True` se mantienen, mientras que las filas a las que les corresponde un `False` se dejan fuera del subconjunto resultante:

`dataframe[ -serie índice para filtrado- ]`

In [None]:
...

Podemos también guardar nuestras condiciones en variables y después utilizarlos, por ejemplo, encuentra todas las producciones cuyo precio es mayor a 20:

In [None]:
mayor_a_20 = ...

In [None]:
df[mayor_a_20].head(3)

Podemos incluso aplicar dos o más filtros utilizando `operadores lógicos`. En este caso, nuestro operador `and` se representa con un `&` y el operador `or` se representa con `|`.

Así que podemos obtener todas las producciones con rango 1 y que además cuyo precio sea mayor a 20:

In [None]:
rank_numero_uno = ...

In [None]:
df[mayor_a_20 & rank_numero_uno].head(3)

---
---

## Reto 5: Filtros

### 1. Objetivos:
    - Practicar el uso de filtros para la obtención de subconjuntos de datos
    
### 2. Desarrollo:

#### a) Filtrando por fechas, booleanos y valores numéricos

Vamos a trabajar con el mismo dataset que guardaste del Reto anterior. Este Reto consiste en los siguiente:

Usando filtros, crea 3 subconjuntos de datos:

1. Un subconjunto llamado `df_hazardous` que contenga sólo los records que correspondan a los objetos donde `is_potentially_hazardous_asteroid` sea `True` (o `1`).
2. Un subconjunto llamado `df_greater_than_1000` que contenga sólo los records donde el `estimated_diameter.meters.estimated_diameter_max` sea mayor a 1000 metros.
3. Un subconjunto llamado `df_february` que contenga sólo los records que pertenezcan exactamente al mes de Febrero de 1995. Recuerda que los datos en la columna `epoch_date_close_approach` están en milisegundos.


In [None]:
df_reto_5 = pd.read_csv("../Ejemplo-04/objetos_cercanos_4.csv", index_col=0)
df_reto_5.head(3)

In [None]:
df_hazardous = ...

In [None]:
df_bigger_than_1000 = ...

In [None]:
df_february = ...

In [None]:
def checar_subconjuntos(df_february, df_hazardous, df_bigger_than_1000):
    
    import pandas as pd
    import base64

    datos = b'CmFzc2VydCAoZGZfaGF6YXJkb3VzWydpc19wb3RlbnRpYWxseV9oYXphcmRvdXNfYXN0ZXJvaWQnXSA9PSAwKS5zdW0oKSA9PSAwLCAnQWxndW5vcyByZWNvcmRzIGVuIGBkZl9oYXphcmRvdXNgIHBlcnRlbmVjZW4gYSBvYmpldG9zIGRvbmRlIGlzX3BvdGVudGlhbGx5X2hhemFyZG91c19hc3Rlcm9pZCBlcyBgRmFsc2VgJwphc3NlcnQgKGRmX2hhemFyZG91c1snaXNfcG90ZW50aWFsbHlfaGF6YXJkb3VzX2FzdGVyb2lkJ10gPT0gMSkuc3VtKCkgPiAwLCAnTm8gaGF5IG5pbmd1biByZWNvcmQgZW4gYGRmX2hhemFyZG91c2AgZG9uZGUgaXNfcG90ZW50aWFsbHlfaGF6YXJkb3VzX2FzdGVyb2lkIHNlYSBgVHJ1ZWAnCgphc3NlcnQgKGRmX2JpZ2dlcl90aGFuXzEwMDBbJ2VzdGltYXRlZF9kaWFtZXRlci5tZXRlcnMuZXN0aW1hdGVkX2RpYW1ldGVyX21heCddIDw9IDEwMDApLnN1bSgpID09IDAsICdBbGd1bm9zIHJlY29yZHMgZW4gYGRmX2JpZ2dlcl90aGFuXzEwMDBgIHBlcnRlbmVjZW4gYSBvYmpldG9zIGNvbiBkacOhbWV0cm8gbWVub3IgYSAxMDAwIG1ldHJvcycKYXNzZXJ0IChkZl9iaWdnZXJfdGhhbl8xMDAwWydlc3RpbWF0ZWRfZGlhbWV0ZXIubWV0ZXJzLmVzdGltYXRlZF9kaWFtZXRlcl9tYXgnXSA+IDEwMDApLnN1bSgpID4gMCwgJ05vIGhheSBuaW5nw7puIHJlY29yZCBlbiBgZGZfYmlnZ2VyX3RoYW5fMTAwMGAgcXVlIHBlcnRlbmV6Y2EgYSBvYmpldG9zIGNvbiBkacOhbWV0cm8gbWF5b3IgYSAxMDAwIG1ldHJvcycKCmZlYnJ1YXJ5ID0gcGQudG9fZGF0ZXRpbWUoJzE5OTUtMDItMDEnLCBmb3JtYXQ9JyVZLSVtLSVkJykudGltZXN0YW1wKCkgKiAxMDAwCm1hcmNoID0gcGQudG9fZGF0ZXRpbWUoJzE5OTUtMDMtMDEnLCBmb3JtYXQ9JyVZLSVtLSVkJykudGltZXN0YW1wKCkgKiAxMDAwIAoKYXNzZXJ0IChkZl9mZWJydWFyeVsnZXBvY2hfZGF0ZV9jbG9zZV9hcHByb2FjaCddIDwgZmVicnVhcnkpLnN1bSgpID09IDAsICdBbGd1bm9zIHJlY29yZHMgZGUgYGRmX2ZlYnJ1YXJ5YCBwZXJ0ZW5lY2VuIGEgbWVzZXMgYW50ZXJpb3JlcyBhIEZlYnJlcm8gZGUgMTk5NScKYXNzZXJ0IChkZl9mZWJydWFyeVsnZXBvY2hfZGF0ZV9jbG9zZV9hcHByb2FjaCddID49IG1hcmNoKS5zdW0oKSA9PSAwLCAnQWxndW5vcyByZWNvcmRzIGRlIGBkZl9mZWJydWFyeWAgcGVydGVuZWNlbiBhIG1lc2VzIHBvc3RlcmlvcmVzIGEgRmVicmVybyBkZSAxOTk1Jwo='
    eval(compile(base64.b64decode(datos), "", "exec"), globals())
    
    print('Todos tus subconjuntos son correctos. ¡Gran trabajo!')
    
checar_subconjuntos(df_february, df_hazardous, df_bigger_than_1000)