## Ejemplo 5: Filtros

### 1. Objetivos:
    - Aprender cómo funcionan los filtros
    - Aplicar varios filtros para verlos en acción
 
### 2. Desarrollo:

In [None]:
import pandas as pd

Creamos nuestro DataFrame a partir del archivo de datos CSV:

In [None]:
df = pd.read_csv('../../Datasets/new_york_times_bestsellers-dirty.csv', index_col=0)

df.head(3)

Ahora, queremos todos los registros donde el nombre del autor empiece con 'R', entonces usamos la función `str.startswith(-patrón-)` a la columna `author` de la forma:

`df[-columna-].str.startswith(-patrón-)`

In [None]:
...

Lo que obtenemos de regreso es una `Serie` con la misma longitud que la columna original y la función `startswith()` se aplicó comparando cada elemento regresando un valor booleano.

Después, al pasar este filtro al `operador de indexación` del `DataFrame`, todas las filas a las que les corresponda un `True` se mantienen, mientras que las filas a las que les corresponde un `False` se dejan fuera del subconjunto resultante:

`dataframe[ -serie índice para filtrado- ]`

In [None]:
...

Podemos también guardar nuestras condiciones en variables y después utilizarlos, por ejemplo, encuentra todas las producciones cuyo precio es mayor a 20:

In [None]:
mayor_a_20 = ...

In [None]:
df[mayor_a_20].head(3)

Podemos incluso aplicar dos o más filtros utilizando `operadores lógicos`. En este caso, nuestro operador `and` se representa con un `&` y el operador `or` se representa con `|`.

Así que podemos obtener todas las producciones con rango 1 y que además cuyo precio sea mayor a 20:

In [None]:
rank_numero_uno = ...

In [None]:
df[mayor_a_20 & rank_numero_uno].head(3)

---
---

## Reto 5: Filtros

### 1. Objetivos:
    - Practicar el uso de filtros para la obtención de subconjuntos de datos
    
### 2. Desarrollo:

#### a) Filtrando por fechas, booleanos y valores numéricos

Vamos a trabajar con el mismo dataset que guardaste del Reto anterior. Este Reto consiste en los siguiente:

Usando filtros, crea 3 subconjuntos de datos:

1. Un subconjunto llamado `df_hazardous` que contenga sólo los records que correspondan a los objetos donde `is_potentially_hazardous_asteroid` sea `True` (o `1`).
2. Un subconjunto llamado `df_greater_than_1000` que contenga sólo los records donde el `estimated_diameter.meters.estimated_diameter_max` sea mayor a 1000 metros.
3. Un subconjunto llamado `df_february` que contenga sólo los records que pertenezcan exactamente al mes de Febrero de 1995. Recuerda que los datos en la columna `epoch_date_close_approach` están en milisegundos.


In [2]:
import pandas as pd

df_reto_5 = pd.read_csv("near_earth_objects-jan_feb_1995-reto_4.csv", index_col=0)
df_reto_5.head(3)

Unnamed: 0,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name,relative_velocity.kilometers_per_minute,proportion_of_max_diameter_to_earth
0,0,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20),968.571811,8.5e-05
1,1,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM),741.062629,1.7e-05
2,0,46.190746,103.285648,1995-01-07,1995-01-07 21:25:00,Earth,22.478615,80923.015021,Near Earth asteroid orbits similar to that of ...,3837644,(2019 AY3),1348.716917,8e-06


In [4]:
df_hazardous = df_reto_5[ df_reto_5["is_potentially_hazardous_asteroid"] == 1   ]
df_hazardous.head()

Unnamed: 0,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name,relative_velocity.kilometers_per_minute,proportion_of_max_diameter_to_earth
1,1,96.506147,215.794305,1995-01-07,1995-01-07 15:09:00,Earth,12.351044,44463.757734,Near Earth asteroid orbits which cross the Ear...,3153509,(2003 HM),741.062629,1.7e-05
6,1,231.502122,517.654482,1995-01-08,1995-01-08 09:13:00,Earth,7.590711,27326.560174,Near Earth asteroid orbits similar to that of ...,2446862,446862 (2001 VB76),455.44267,4.1e-05
15,1,133.215567,297.879063,1995-01-03,1995-01-03 01:31:00,Earth,14.235092,51246.330073,Near Earth asteroid orbits which cross the Ear...,3766463,(2017 AY13),854.105501,2.3e-05
16,1,278.326768,622.357573,1995-01-03,1995-01-03 08:00:00,Earth,5.248637,18895.092087,Near Earth asteroid orbits which cross the Ear...,3342323,(2006 SF6),314.918201,4.9e-05
17,1,146.067964,326.617897,1995-01-03,1995-01-03 03:33:00,Earth,5.201917,18726.902889,Near Earth asteroid orbits which cross the Ear...,2452807,452807 (2006 KV89),312.115048,2.6e-05


In [5]:
df_hazardous.shape

(58, 13)

In [8]:
df_bigger_than_1000 = \
    df_reto_5[df_reto_5["estimated_diameter.meters.estimated_diameter_max"] > 1000]
df_bigger_than_1000.head()

Unnamed: 0,is_potentially_hazardous_asteroid,estimated_diameter.meters.estimated_diameter_min,estimated_diameter.meters.estimated_diameter_max,close_approach_date,epoch_date_close_approach,orbiting_body,relative_velocity.kilometers_per_second,relative_velocity.kilometers_per_hour,orbit_class_description,id,name,relative_velocity.kilometers_per_minute,proportion_of_max_diameter_to_earth
0,0,483.676488,1081.533507,1995-01-07,1995-01-07 08:33:00,Earth,16.142864,58114.308667,Near Earth asteroid orbits similar to that of ...,2154652,154652 (2004 EP20),968.571811,8.5e-05
5,0,802.703167,1794.898848,1995-01-08,1995-01-08 10:54:00,Earth,32.160753,115778.710301,Near Earth asteroid orbits which cross the Ear...,3824107,(2018 JB3),1929.645172,0.000141
8,0,483.676488,1081.533507,1995-01-05,1995-01-05 22:31:00,Earth,21.605199,77778.715682,Near Earth asteroid orbits similar to that of ...,3645123,(2013 NX23),1296.311928,8.5e-05
13,0,1272.198785,2844.722965,1995-01-06,1995-01-06 04:47:00,Earth,9.604877,34577.556386,Near Earth asteroid orbits similar to that of ...,2137062,137062 (1998 WM),576.292606,0.000223
23,0,506.471459,1132.504611,1995-01-04,1995-01-04 12:16:00,Earth,10.155092,36558.329695,Near Earth asteroid orbits which cross the Ear...,2138947,138947 (2001 BA40),609.305495,8.9e-05


In [9]:
df_reto_5.dtypes

is_potentially_hazardous_asteroid                     int64
estimated_diameter.meters.estimated_diameter_min    float64
estimated_diameter.meters.estimated_diameter_max    float64
close_approach_date                                  object
epoch_date_close_approach                            object
orbiting_body                                        object
relative_velocity.kilometers_per_second             float64
relative_velocity.kilometers_per_hour               float64
orbit_class_description                              object
id                                                    int64
name                                                 object
relative_velocity.kilometers_per_minute             float64
proportion_of_max_diameter_to_earth                 float64
dtype: object

In [18]:
def es_febrero(fecha):
    fecha = pd.to_datetime(fecha)
    return fecha.month == 2
    

In [15]:
df_reto_5["epoch_date_close_approach"].map(es_febrero)

0      False
1      False
2      False
3      False
4      False
       ...  
296     True
297     True
298     True
299     True
300     True
Name: epoch_date_close_approach, Length: 301, dtype: bool

In [20]:
df_february = df_reto_5[ df_reto_5["epoch_date_close_approach"].map(es_febrero) ]
df_february[ ["estimated_diameter.meters.estimated_diameter_min"] ]

Unnamed: 0,estimated_diameter.meters.estimated_diameter_min
156,44.111820
157,60.891262
158,253.837029
159,461.907460
160,305.179233
...,...
296,483.676488
297,441.118200
298,441.118200
299,160.160338


In [17]:
def checar_subconjuntos(df_february, df_hazardous, df_bigger_than_1000):
    
    import pandas as pd
    import base64

    datos = b'CmFzc2VydCAoZGZfaGF6YXJkb3VzWydpc19wb3RlbnRpYWxseV9oYXphcmRvdXNfYXN0ZXJvaWQnXSA9PSAwKS5zdW0oKSA9PSAwLCAnQWxndW5vcyByZWNvcmRzIGVuIGBkZl9oYXphcmRvdXNgIHBlcnRlbmVjZW4gYSBvYmpldG9zIGRvbmRlIGlzX3BvdGVudGlhbGx5X2hhemFyZG91c19hc3Rlcm9pZCBlcyBgRmFsc2VgJwphc3NlcnQgKGRmX2hhemFyZG91c1snaXNfcG90ZW50aWFsbHlfaGF6YXJkb3VzX2FzdGVyb2lkJ10gPT0gMSkuc3VtKCkgPiAwLCAnTm8gaGF5IG5pbmd1biByZWNvcmQgZW4gYGRmX2hhemFyZG91c2AgZG9uZGUgaXNfcG90ZW50aWFsbHlfaGF6YXJkb3VzX2FzdGVyb2lkIHNlYSBgVHJ1ZWAnCgphc3NlcnQgKGRmX2JpZ2dlcl90aGFuXzEwMDBbJ2VzdGltYXRlZF9kaWFtZXRlci5tZXRlcnMuZXN0aW1hdGVkX2RpYW1ldGVyX21heCddIDw9IDEwMDApLnN1bSgpID09IDAsICdBbGd1bm9zIHJlY29yZHMgZW4gYGRmX2JpZ2dlcl90aGFuXzEwMDBgIHBlcnRlbmVjZW4gYSBvYmpldG9zIGNvbiBkacOhbWV0cm8gbWVub3IgYSAxMDAwIG1ldHJvcycKYXNzZXJ0IChkZl9iaWdnZXJfdGhhbl8xMDAwWydlc3RpbWF0ZWRfZGlhbWV0ZXIubWV0ZXJzLmVzdGltYXRlZF9kaWFtZXRlcl9tYXgnXSA+IDEwMDApLnN1bSgpID4gMCwgJ05vIGhheSBuaW5nw7puIHJlY29yZCBlbiBgZGZfYmlnZ2VyX3RoYW5fMTAwMGAgcXVlIHBlcnRlbmV6Y2EgYSBvYmpldG9zIGNvbiBkacOhbWV0cm8gbWF5b3IgYSAxMDAwIG1ldHJvcycKCmZlYnJ1YXJ5ID0gcGQudG9fZGF0ZXRpbWUoJzE5OTUtMDItMDEnLCBmb3JtYXQ9JyVZLSVtLSVkJykudGltZXN0YW1wKCkgKiAxMDAwCm1hcmNoID0gcGQudG9fZGF0ZXRpbWUoJzE5OTUtMDMtMDEnLCBmb3JtYXQ9JyVZLSVtLSVkJykudGltZXN0YW1wKCkgKiAxMDAwIAoKYXNzZXJ0IChkZl9mZWJydWFyeVsnZXBvY2hfZGF0ZV9jbG9zZV9hcHByb2FjaCddIDwgZmVicnVhcnkpLnN1bSgpID09IDAsICdBbGd1bm9zIHJlY29yZHMgZGUgYGRmX2ZlYnJ1YXJ5YCBwZXJ0ZW5lY2VuIGEgbWVzZXMgYW50ZXJpb3JlcyBhIEZlYnJlcm8gZGUgMTk5NScKYXNzZXJ0IChkZl9mZWJydWFyeVsnZXBvY2hfZGF0ZV9jbG9zZV9hcHByb2FjaCddID49IG1hcmNoKS5zdW0oKSA9PSAwLCAnQWxndW5vcyByZWNvcmRzIGRlIGBkZl9mZWJydWFyeWAgcGVydGVuZWNlbiBhIG1lc2VzIHBvc3RlcmlvcmVzIGEgRmVicmVybyBkZSAxOTk1Jwo='
    eval(compile(base64.b64decode(datos), "", "exec"), globals())
    
    print('Todos tus subconjuntos son correctos. ¡Gran trabajo!')
    
checar_subconjuntos(df_february, df_hazardous, df_bigger_than_1000)

TypeError: '<' not supported between instances of 'str' and 'float'