![TheBridge_Pandas.png](attachment:TheBridge_Pandas.png)

##  Filtrado y Selección

En esta sesión vamos a tratar el tema del filtrado de forma que podamos obtener el conjunto de filas y de filas y columnas de un dataframe que cumplan una serie de condiciones y en la siguiente usaremos esto para poder hacer modificaciones selectivas en nuestro dataframe que nos vendrá muy bien en el futuro para tratar datos.

### Filtrado de Filas

Como en casi todos los notebooks de esta unidad, jugaremos con el dataset de aviones. Ejecuta la siguiente celda:

In [None]:
import numpy as np
import pandas as pd

df_aviones = pd.read_csv("./data/dataset_inicial_aviones.csv", index_col = "Id_vuelo")

Y comencemos a filtrar y seleccionar, en concreto seleccionemos todos los viajes de la compañía con menor número de vuelos.

In [None]:
# Primero miramos el número de vuelos para recordar algunos métodos de sesiones anteriores


In [None]:
# Y ahora filtramos/seleccionamos solo las filas de esos vuelos


Nos ha devuelto un `DataFrame` con solo los viajes de esa compañía.

Si hubieramos querido mantener, por lo que fuera, la estructura completa con el resto de vuelos pero con un valor especial (o nulo), usaríamos where

In [None]:
# Usando Where, sin cambiar valor


In [None]:
# Usando Where, cambiando valor


Evidentemente podemos hacer consultas mucho más complejas y podemos ir asignandolas a variables intermedias.

In [None]:
# Quiero quedarme con los vuelos de los A380 de más de 10000 km de distancia con destino a Melbourne


Fijate que en este caso y así será para condiciones en lo que se compara son `Series` se usa `&` en vez de `and` y `|` en vez de `or`

In [None]:
# Seleccionemos vuelos de PamPangea con destino Ginebra o salida en Nueva York


Y de igual manera, puedo usar `where` para conservar toda la estructura

### Filtrado de todo el dataframe

A veces puede ser conveniente aplicar una mascara o filtro a todo el `DataFrame`, en ese caso se aplica directamente sin el loc

Es similar a aplicar where, solo que este permite enmascar (al permitir cambiar valores):

Y podríamos ya no usar esos valores.


Y ahora algo más útil de forma directa, el consumo por kilometro:


Podríamos haber usado los atributos:

Pero quizá nos ha quedado un nombre de columna largo o creemos que algún nombre podría estar mejor expresado de otra forma... ¿Cómo cambiamos los nombres de las columnas?

O lo reasigno o bien utilizo el argumento `inplace` que es un argumento que existe en muchos métodos de los `DataFrame`.

### Operaciones Sencillas

Veamos para terminar algunas operaciones sencillas de agregación que te sonarán porque se comparten casi en su totalidad con numpy. Para ello iremos contestando a una serie de preguntas [Que es otra forma de explorar los datos]

In [None]:
# Cual es la mayor distancia recorrida


In [None]:
# Cual es el menor consumo


In [None]:
# Cuanta distancia se han recorrido en los 1200 vuelos


In [None]:
# Cual es la media recorrida por estos viajes


In [None]:
# Y el consumo medio


Bueno, como medidas agregadas están bien, pero si quiero algo más de detalle y sin entrar en como quedarnos con solo las filas que cumplan una condición también podemos hacer lo siguiente

In [None]:
# Cual es el viaje con menor consumo


In [None]:
# Cual es el avion con el mayor consumo medio


In [None]:
# Pero si solo queremos ver el uno...


[Ya vamos viendo cierto potencial, pero vemos que nos falta algo que nos permita ser más precisos, o hacer preguntas más complicadas, nos faltan los filtros. Los veremos en la siguiente sesión, mientras...]

Por si quieres practicas, las siguientes agregaciones vienen con el paquete de Pandas:

| Agregación              | Descripción                     |
|--------------------------|---------------------------------|
| ``count()``              | Número total de elementos          |
| ``first()``, ``last()``  | Primer y último elemento             |
| ``mean()``, ``median()`` | Media y mediana                 |
| ``min()``, ``max()``     | Mínimo y máximo             |
| ``std()``, ``var()``     | Desviación estándar y varianza |
| ``mad()``                | Desviación media absoluta         |
| ``prod()``               | Producto de todos los elementos            |
| ``sum()``                | Suma de todos los elementos               |

Todos están presentes como objetos de ``Dataframe`` y ``Series``.

Una vez tenemos un DataFrame, tenemos varias formas de explorarlo y ver su contenido. Veamos su aspecto general

In [None]:
df_aviones.head()

In [None]:
df_aviones.head()
df_aviones.head(20)
df_aviones.tail()
df_aviones.tail(20)

### Descripción inicial

Lo primero en general es qué columnas tiene: [e intentar ver ya si puedo entender a qué se refiere cada una, pero eso lo veremos con más detalle en el siguiente sprint]

In [None]:
df_aviones.columns

Una descripción general matemática de los valores numéricos: 

In [None]:
df_aviones.describe()

Si quiero ver los tipos de cada columna

In [None]:
df_aviones.dtypes

Los tipos en Pandas se heredan parcialmente de numpy, por eso tienes int64, float64, pero además ves que los tipos string (y aquellas columnas que tengan tipos mezclados) se denominan object y que luego al tratar cada valor ya interpretará su tipo.

Ahora una descripción más completa, dentro de su generalidad, con el método info:

In [None]:
df_aviones.info()

### Rascando los valores de las columnas

Pero si ahora quiero entrar en más detalle, ¿cómo puedo hacer una primera observación de los valores de una columna?

In [None]:
df_aviones["avion"].unique()

Pero igual quiero saber cómo están distribuidos

In [None]:
df_aviones["avion"].value_counts()

Fijate en que estos métodos, unique y value_counts son realmente métodos de series (porque al escoger la columna primero estamos escogiendo una serie de pandas) y por tanto se pueden aplicar a cualquier serie


In [None]:
serie = pd.Series(np.random.randint(0,4,40))
serie

In [None]:
serie.unique()

In [None]:
serie.value_counts()

[Y hasta aquí la primera pildora, juega con el resto de columnas y explora a tu gusto el dataframe antes de pasar a la siguiente sesión en la que empezaremos de verdad a manipularlos]