![imagenes](logo.png)

# Filtrado de filas

La función ``filter()`` aquí funciona de manera muy similar a la opción "Filtro" en **Excel**: le permite especificar criterios sobre los valores de una variable en su conjunto de datos y luego filtra solo las filas que coinciden con esos criterios.

![imagenes](im005.png)

Comenzamos centrándonos únicamente en los vuelos de la ciudad de Nueva York a Portland, Oregón. La columna ``dest`` del dataframe ``flights`` contiene el código del aeropuerto de destino de cada vuelo. En el caso de Portland, Oregón es "PDX".

Ejecuta lo siguiente y observa los resultados en el visor de hojas de cálculo de **RStudio** para asegurarse de que solo se elijan aquí los vuelos que se dirigen a Portland:

In [None]:
library(tidyverse)
library(nycflights13)

In [None]:
portland_flights <- flights %>% 
  filter(dest == "PDX"))
#View(portland_flights)

Tenga en cuenta el orden del código. Primero, tomamos el dataframe ``flights`` y luego con ``filter()`` filtramos los vuelos para que se incluyan aquellos en los que el destino ``dest`` es igual a ``"PDX"``. Probamos la igualdad usando el doble signo igual ``==`` y no un solo signo igual ``=``. En otras palabras, ``filter(dest = "PDX")`` generará un error. Esta es una convención en muchos lenguajes de programación. Si eres nuevo en la codificación, probablemente te olvides de usar el doble signo igual ``==`` unas cuantas veces antes de que te acostumbres.

Puede usar otros operadores además del operador ``==`` que prueba la igualdad:

* ``>`` corresponde a "mayor que"
* ``<`` corresponde a "menor que"
* ``>=`` corresponde a "mayor o igual que" ($\ge$)
* ``<=`` corresponde a "menor que o igual que" ($\le$) 
* ``!=`` corresponde a "distinto de". El símbolo ``!`` se usa en muchos lenguajes de programación para indicar "no".

Además, puedes combinar múltiples criterios utilizando operadores que hacen comparaciones:

* ``|`` corresponde a "o"
* ``&`` corresponde a "y"

Para ver algunos de estos comandos en acción, filtremos vuelos para todas las filas que partieron de JFK y se dirigían a Burlington, Vermont ("BTV") o Seattle, Washington ("SEA") y partieron en los meses de octubre, noviembre o Diciembre.

In [None]:
flights %>%
   filter(origin == "JFK" & (dest == "BTV" | dest == "SEA") & month >= 10)

In [None]:
btv_sea_flights_fall <- flights %>%
   filter((origin == "JFK") & (dest == "BTV" | dest == "SEA") & (month >= 10))
#View(btv_sea_flights_fall)

Ten en cuenta que aunque coloquialmente se podría decir "todos los vuelos que salen de Burlington, Vermont **y** Seattle, Washington", en términos de operaciones informáticas en realidad queremos decir "todos los vuelos que salen de Burlington, Vermont **o** Seattle, Washington". 

Para una fila dada en los datos, el destino puede ser "BTV", o "SEA", o cualquier otra cosa, pero no tanto "BTV" como "SEA" al mismo tiempo. Además, toma en cuenta el uso cuidadoso de paréntesis alrededor de ``dest == "BTV" | dest == "SEA"``.

A menudo podemos omitir el uso de ``&`` y simplemente separar nuestras condiciones con una coma. El código anterior devolverá la misma salida que el siguiente código:

In [None]:
btv_sea_flights_fall <- flights %>% 
  filter(origin == "JFK", (dest == "BTV" | dest == "SEA"), month >= 10)
#View(btv_sea_flights_fall)

Presentemos otro ejemplo que usa el operadr ``!`` para seleccionar filas que no coinciden con un criterio. 

Como se mencionó anteriormente, el ``!`` puede leerse como "no". Aquí estamos filtrando filas correspondientes a vuelos que no fueron a Burlington, Vermont o Seattle, Washington.

In [None]:
flights %>% 
  filter(!(dest == "BTV" | dest == "SEA"))

Nuevamente, observa el uso cuidadoso de paréntesis alrededor de ``dest == "BTV" | dest == "SEA"``.

Ahora digamos que tenemos una mayor cantidad de aeropuertos que queremos filtrar, digamos "SEA", "SFO", "PDX", "BTV" y "BDL". Podríamos seguir usando el operador ``|`` :

In [None]:
flights %>% 
  filter(dest == "SEA" | dest == "SFO" | dest == "PDX" | dest == "BTV" | dest == "BDL")

Pero a medida que incluimos progresivamente más aeropuertos, será difícil escribir esto. Un enfoque un poco más corto utiliza el operador ``%in%`` junto con la función ``c()``. 

In [None]:
flights %>% 
  filter(dest %in% c("SEA", "SFO", "PDX", "BTV", "BDL"))

Lo que hace este código es filtrar vuelos para todos los vuelos donde el destino está en el vector de aeropuertos ``c("BTV", "SEA", "PDX", "SFO", "BDL")``. Ambas resultados de los dos códigos anteriores son iguales, pero como puedes ver, la última requiere mucha menos energía para codificar. El operador ``%in%`` es útil para buscar coincidencias comúnmente en un vector/variable en comparación con otro.

Como nota final, recomendamos que ``filter()`` esté a menudo entre las primeras funciones que considere aplicar a sus datos. Esto limpia su conjunto de datos a solo aquellas filas que le interesan o, dicho de otra manera, reduce el alcance de su dataframe a solo las observaciones que le interesan.

---
---

**Ejercicios.**

**3.3.1.** ¿Cuál es otra forma de usar el operador "no" para filtrar solo las filas que no van a Burlington, VT ni a Seattle, WA en el dataframe ``flights``?

---
---