# Filtrado y Selección

En esta sesión vamos a tratar el tema del filtrado de forma que podamos obtener el conjunto de filas y columnas de un dataframe que cumplan una serie de condiciones. En la siguiente sesión, usaremos esto para hacer modificaciones selectivas en nuestro dataframe, lo que nos será muy útil en el futuro para tratar datos.

## Filtrado de Filas

Como en casi todos los notebooks de esta unidad, jugaremos con el dataset de aviones. Ejecuta la siguiente celda:

In [7]:
import numpy as np
import pandas as pd

df_aviones = pd.read_csv("C:/Users/david/Repo_Prueba/DS_Online_Febr25_Exercises/02_Programacion_y_Herramientas_Avanzadas/Sprint_04/Unidad_02/Practica_Obligatoria/data/dataset_viajes.csv")
df_aviones

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
0,Air_PaGi_10737,Airnar,París,Ginebra,411.0,Boeing 737,,51.0
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0
2,Tab_GiLo_11380,TabarAir,Ginebra,Los Angeles,9103.0,Airbus A380,,626.0
3,Mol_PaCi_10737,MoldaviAir,París,Cincinnati,6370.0,Boeing 737,17027.01,503.0
4,Tab_CiRo_10747,TabarAir,Cincinnati,Roma,7480.0,Boeing 747,86115.744,518.0
...,...,...,...,...,...,...,...,...
995,Pam_LoNu_10747,PamPangea,Londres,Nueva York,5566.0,Boeing 747,62300238,391.0
996,Mol_MeLo_10747,MoldaviAir,Melbourne,Londres,16900.0,Boeing 747,194854.5664,1326.0
997,Mol_BaPa_10747,MoldaviAir,Bali,París,11980.0,Boeing 747,128983.868,818.0
998,Air_CaCi_10747,Airnar,Cádiz,Cincinnati,6624.0,Boeing 747,72024.0768,461.0


In [8]:
## Mirar el numero de vuelos para recordar algunos metodos de sesiones anteriores

In [9]:
df_aviones["Aircompany"].value_counts()

Aircompany
TabarAir      229
MoldaviAir    226
PamPangea     192
Airnar        180
FlyQ          173
Name: count, dtype: int64

In [12]:
## Filtrar/seleccionar solo las filas de dichos vuelos

resultado = df_aviones.loc[df_aviones["Aircompany"]=="FlyQ"]

In [13]:
resultado

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0
33,Fly_RoNu_11320,FlyQ,Roma,Nueva York,6877.0,Airbus A320,18131.238008,618.0
36,Fly_GiCi_10737,FlyQ,Ginebra,Cincinnati,6969.0,Boeing 737,,
40,Fly_GiRo_10737,FlyQ,Ginebra,Roma,698.0,Boeing 737,1763.9856,73.0
41,Fly_BaGi_10737,FlyQ,Bali,Ginebra,12383.0,Boeing 737,31607.26077600001,
...,...,...,...,...,...,...,...,...
943,Fly_CiNu_10737,FlyQ,Cincinnati,Nueva York,911.0,Boeing 737,2280.1419,89.0
945,Fly_BaBa_11380,FlyQ,Barcelona,Bali,13058.0,Airbus A380,166407.809152,1070.0
962,Fly_NuRo_11380,FlyQ,Nueva York,Roma,6877.0,Airbus A380,87447.93200000002,478.0
974,Fly_NuGi_11380,FlyQ,Nueva York,Ginebra,6206.0,Airbus A380,75328.428,433.0


Si queremos mantener, por lo que fuera, la estructura completa con el resto de vuelos con un valor especial o nulo usamos where

In [16]:
### Usando where, sin cambiar valor

df_aviones.where(df_aviones["Aircompany"]=="FlyQ")

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
0,,,,,,,,
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0
2,,,,,,,,
3,,,,,,,,
4,,,,,,,,
...,...,...,...,...,...,...,...,...
995,,,,,,,,
996,,,,,,,,
997,,,,,,,,
998,,,,,,,,


In [17]:
# Usando where, cambiando valor

df_aviones.where(df_aviones["Aircompany"]=="FlyQ","no usar")

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
0,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
1,Fly_BaRo_10737,FlyQ,Bali,Roma,12738.0,Boeing 737,33479.13254400001,1167.0
2,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
3,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
4,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
...,...,...,...,...,...,...,...,...
995,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
996,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
997,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
998,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar


Podemos hacer consultasmucho más complejas y asignandolas a variables intermedias

In [21]:
#Quedarme con los vuelos de los A380 de más de 1000km con destino Melbourne

vuelos_A380 = df_aviones["avion"]=="Airbus A380"
mayor_10km= df_aviones["Distancia"]>10000
a_Melbourne = df_aviones["Destino"] == "Melbourne"
condicion = vuelos_A380 & mayor_10km & a_Melbourne
df_aviones.loc[condicion]

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
7,Pam_PaMe_11380,PamPangea,París,Melbourne,16925.0,Airbus A380,217722.6584,1328.0
267,Mol_PaMe_11380,MoldaviAir,París,Melbourne,16925.0,Airbus A380,207548.7024,
329,Mol_CiMe_11380,MoldaviAir,Cincinnati,Melbourne,15262.0,Airbus A380,199999.596992,1217.0
519,Mol_CaMe_11380,MoldaviAir,Cádiz,Melbourne,20029.0,Airbus A380,248020.549088,1535.0
523,Pam_GiMe_11380,PamPangea,Ginebra,Melbourne,16674.0,Airbus A380,216498.417408,1311.0
714,Pam_LoMe_11380,PamPangea,Londres,Melbourne,16900.0,Airbus A380,213337.488,1326.0
744,Pam_LoMe_11380,PamPangea,Londres,Melbourne,16900.0,Airbus A380,203178.56,1326.0
829,Pam_NuMe_11380,PamPangea,Nueva York,Melbourne,16082.0,Airbus A380,,1272.0
925,Pam_PaMe_11380,PamPangea,París,Melbourne,16925.0,Airbus A380,,1328.0


In [22]:
### Seleccionemos vuelos PamPangea con destino a Ginebra o salida en Nueva York

Y de igual manera, puedo usar where para conservar la estructura

In [27]:
company = df_aviones["Aircompany"] == "PamPangea"
destino = df_aviones ["Destino"] == "Ginebra"
de_NY = df_aviones ["Origen"] == "Nueva York"
condicion = company & (destino | de_NY)
df_aviones.loc[condicion]

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
8,Pam_NuBa_10737,PamPangea,Nueva York,Bali,16589.0,Boeing 737,45277.61846400001,1459.0
39,Pam_MeGi_11380,PamPangea,Melbourne,Ginebra,16674.0,Airbus A380,,
46,Pam_NuMe_10747,PamPangea,Nueva York,Melbourne,16082.0,Boeing 747,183640.229344,1272.0
47,Pam_NuPa_11380,PamPangea,Nueva York,París,5835.0,Airbus A380,72174.282,409.0
53,Pam_PaGi_11380,PamPangea,París,Ginebra,411.0,Airbus A380,5083.7412,47.0
57,Pam_NuBa_10747,PamPangea,Nueva York,Bali,16589.0,Boeing 747,191268781184.0,1305.0
62,Pam_NuMe_10747,PamPangea,Nueva York,Melbourne,16082.0,Boeing 747,180074399648.0,1272.0
106,Pam_BaGi_10737,PamPangea,Bali,Ginebra,12383.0,Boeing 737,32859.03348000001,1140.0
110,Pam_NuLo_11380,PamPangea,Nueva York,Londres,,Airbus A380,68203.53760000001,391.0
116,Pam_NuLo_10737,PamPangea,Nueva York,Londres,5566.0,Boeing 737,13660.6338,


De igual manera puedo usar where para conservar la estructura

In [30]:
df_aviones.where(condicion,"no usar").tail(20)

Unnamed: 0,Id_vuelo,Aircompany,Origen,Destino,Distancia,avion,consumo_kg,duracion
980,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
981,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
982,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
983,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
984,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
985,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
986,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
987,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
988,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar
989,no usar,no usar,no usar,no usar,no usar,no usar,no usar,no usar


### Filtrado a todo el DataFraame

In [32]:
df_test = pd.DataFrame(np.random.randint(0,10,(4,3)),columns=["Protones","Neutrones","Quarks"])
df_test

Unnamed: 0,Protones,Neutrones,Quarks
0,1,2,2
1,6,7,8
2,4,1,2
3,0,2,3


In [33]:
df_test[df_test<6]

Unnamed: 0,Protones,Neutrones,Quarks
0,1.0,2.0,2.0
1,,,
2,4.0,1.0,2.0
3,0.0,2.0,3.0


In [34]:
df_test.where(df_test < 6,"no usar")

Unnamed: 0,Protones,Neutrones,Quarks
0,1,2,2
1,no usar,no usar,no usar
2,4,1,2
3,0,2,3
