### Más sobre selección y filtrado

Ya habíamos visto las formas básicas de seleccionar elementos en una Serie. Con los DataFrames también podemos seleccionar por posición, o mediante las etiquetas, o usando máscaras. La diferencia está en que un DataFrame tiene (al menos) dos ejes o dimensiones, por lo que hay algún cambio en la forma de seleccionar y filtrar.

Podemos seleccionar una columna por su nombre, utilizando los corchetes `[]` o la notación con punto (como si accediéramos a un atributo del DataFrame).

In [None]:
df_meteo = DataFrame({
                 'imes' : np.arange(1, 13),
                 'temp_c' : [7.2, 7.3, 12.1, 15.7, 20.3, 24.8, 
                             28.2, 25.6, 20.8, 16.8, 12.3, 7.8],
                 'lluvia_mm' : [21, 22, 19, 39, 44, 26, 
                                17, 17, 30, 36, 30, 21],
                 'humedad' : [75, 67, 59, 57, 54, 49, 
                              47, 51, 57, 67, 73, 76]
                }, 
                columns = ['imes','temp_c','lluvia_mm','humedad'],
                index = ["Ene","Feb","Mar","Abr","May","Jun",
                         "Jul","Ago","Sep","Oct","Nov","Dic"])

# Podemos acceder a una columna con su nombre entre corchetes
df_meteo["lluvia_mm"]

Ene    21
Feb    22
Mar    19
Abr    39
May    44
Jun    26
Jul    17
Ago    17
Sep    30
Oct    36
Nov    30
Dic    21
Name: lluvia_mm, dtype: int64

In [None]:
# También podemos acceder a una columna como si fuera un atributo,
# usando la notación con punto
df_meteo.temp_c

Ene     7.2
Feb     7.3
Mar    12.1
Abr    15.7
May    20.3
Jun    24.8
Jul    28.2
Ago    25.6
Sep    20.8
Oct    16.8
Nov    12.3
Dic     7.8
Name: temp_c, dtype: float64

No obstante, aunque el acceso a una columna del DataFrame como si fuera un atributo puede resultar un atajo muy cómodo, hay que tener cuidado. Si el nombre de una columna coincide con el nombre de alguno de los atributos o métodos propios de la clase DataFrame, será esto a lo que estaremos accediendo, no a la columna. 

In [None]:
# Un DataFrame de ejemplo con fórmulas para el área
# de distintas figuras geométricas
df_geom = DataFrame({
            'shape' : ["triangle","square","circle"],
            'area' : ["b*h/2", "a*a", "PI*r*r"]
})

# Accedemos a la columna "shape" con corchetes
df_geom["shape"]

0    triangle
1      square
2      circle
Name: shape, dtype: object

In [None]:
# Así accedemos a un atributo propio de la clase DataFrame
# que nos dice el número de filas y columnas que tiene
# (su "forma")
df_geom.shape

(3, 2)

Como ves, el atajo para acceder a una columna como un atributo no siempre va a funcionar. Te recomendamos que utilices los corchetes como opción preferente. Y en especial, cuando tengas que asignar valores a una columna, habrás de utilizar siempre la notación con corchetes.

Además, utilizando los corchetes podemos dar una lista de nombres de columnas para elegir varias a la vez.

In [None]:
df_meteo[["imes","temp_c"]]

Unnamed: 0,imes,temp_c
Ene,1,7.2
Feb,2,7.3
Mar,3,12.1
Abr,4,15.7
May,5,20.3
Jun,6,24.8
Jul,7,28.2
Ago,8,25.6
Sep,9,20.8
Oct,10,16.8


Pero los corchetes también tienen otra funcionalidad. Si lo que indicamos entre corchetes es un rango o _rebanada_ utilizando el operador '`:`' (como hacemos con las listas normales), ¡entonces no seleccionamos columnas, sino filas!

In [None]:
# Indicamos un rango o "rebanada" de índices
df_meteo[0:4]

Unnamed: 0,imes,temp_c,lluvia_mm,humedad
Ene,1,7.2,21,75
Feb,2,7.3,22,67
Mar,3,12.1,19,59
Abr,4,15.7,39,57


In [None]:
# También podemos usar "rebanadas" de etiquetas
# si el índice del DataFrame está etiquetado
df_meteo["Ene":"Mar"]       # Seleccionar filas de enero a marzo

Unnamed: 0,imes,temp_c,lluvia_mm,humedad
Ene,1,7.2,21,75
Feb,2,7.3,22,67
Mar,3,12.1,19,59


Lo mismo ocurre si entre corchetes escribimos una expresión o máscara booleana. La máscara resultante se aplicará a las filas.

In [None]:
# Seleccionar las filas (meses) 
# en las que la temperatura supere los 20ºC
df_meteo[df_meteo.temp_c > 20.0]

Unnamed: 0,imes,temp_c,lluvia_mm,humedad
May,5,20.3,44,54
Jun,6,24.8,26,49
Jul,7,28.2,17,47
Ago,8,25.6,17,51
Sep,9,20.8,30,57


> **Importante** Si usas un nombre (o una lista de nombres) entre corchetes, seleccionas columnas. Si indicas un rango o _rebanada_ usando '`:`', o una máscara booleana, seleccionas filas.

Si te parece algo confuso, no te preocupes. ¡Realmente lo es!. Este comportamiento está heredado de las primeras versiones de la librería. La idea era primar los usos más típicos de selección de columnas o filas con una sintaxis más abreviada y cómoda. En cuanto te habitúes, verás como te resulta útil en muchas ocasiones.

No obstante, para evitar ambigüedades, existen dos mecanismos adicionales para seleccionar filas y columnas: `df.loc` y `df.iloc`.

| Método de Acceso           | Descripción             |
|:--------------------------:|:-----------------------:|
| `df.loc[filas, columnas]`  | Selección por etiquetas |
| `df.iloc[filas, columnas]` | Selección por posición (índices enteros) |

Con `df.loc` podemos seleccionar filas y columnas indicando sus nombres o etiquetas. 

In [None]:
# Acceso mediante etiquetas con df.loc

# Podemos seleccionar un elemento concreto ([fila, columna]) ...
df_meteo.loc["May", "lluvia_mm"]           

44

In [None]:
# ... seleccionar una fila entera
df_meteo.loc["May", ]

imes          5.0
temp_c       20.3
lluvia_mm    44.0
humedad      54.0
Name: May, dtype: float64

In [None]:
# ... seleccionar una columna entera
df_meteo.loc[:, "humedad"]

Ene    75
Feb    67
Mar    59
Abr    57
May    54
Jun    49
Jul    47
Ago    51
Sep    57
Oct    67
Nov    73
Dic    76
Name: humedad, dtype: int64

In [None]:
# o un subconjunto de filas y columnas
df_meteo.loc["Feb":"Abr", ["lluvia_mm","humedad"]]

Unnamed: 0,lluvia_mm,humedad
Feb,22,67
Mar,19,59
Abr,39,57


Mientras que `df.iloc` está pensado para seleccionar indicando la posición (como en una lista o un array de NumPy).

In [None]:
# Acceso mediante índices de posición con df.iloc

# Podemos seleccionar un elemento concreto ([fila, columna]) ...
df_meteo.iloc[6, 2]            

17

In [None]:
# ... seleccionar una fila entera
df_meteo.iloc[6, ]

imes          7.0
temp_c       28.2
lluvia_mm    17.0
humedad      47.0
Name: Jul, dtype: float64

In [None]:
# ... seleccionar una columna entera
df_meteo.iloc[:, 1]

Ene     7.2
Feb     7.3
Mar    12.1
Abr    15.7
May    20.3
Jun    24.8
Jul    28.2
Ago    25.6
Sep    20.8
Oct    16.8
Nov    12.3
Dic     7.8
Name: temp_c, dtype: float64

In [None]:
# o un subconjunto de filas y columnas
df_meteo.iloc[0:3, 1:3]

Unnamed: 0,temp_c,lluvia_mm
Ene,7.2,21
Feb,7.3,22
Mar,12.1,19


> **Atención** Fíjate en que, a diferencia de lo que ocurre con las _rebanadas_ de índices numéricos, cuando seleccionamos un rango o _rebanada_ con etiquetas también se incluye el elemento del límite superior del rango.

Tanto con `df.loc` como con `df.iloc` podemos utilizar también máscaras booleanas para seleccionar tanto filas como columnas si queremos.

Naturalmente, podemos utilizar estos selectores para asignar valores a elementos del DataFrame.

In [None]:
# Aumentar en 1ºC la temperatura de los meses de Junio a Agosto
df_meteo.loc["Jun":"Ago", "temp_c"] = df_meteo.loc["Jun":"Ago", "temp_c"] + 1
print(df_meteo)

     imes  temp_c  lluvia_mm  humedad
Ene     1     7.2         21       75
Feb     2     7.3         22       67
Mar     3    12.1         19       59
Abr     4    15.7         39       57
May     5    20.3         44       54
Jun     6    25.8         26       49
Jul     7    29.2         17       47
Ago     8    26.6         17       51
Sep     9    20.8         30       57
Oct    10    16.8         36       67
Nov    11    12.3         30       73
Dic    12     7.8         21       76


También podemos añadir e inicializar una columna nueva de forma sencilla usando los corchetes.

In [None]:
# Añadir una columna, con un mismo valor para todas las filas
df_meteo["limite_temp_c"] = 50

# Añadir una columna, dando valores individuales a cada elemento
# mediante una lista o una expresión
# Ej. pasar la temperatura a grados Fahrenheit
df_meteo["temp_F"] = 1.8 * df_meteo["temp_c"] + 32

print(df_meteo)

     imes  temp_c  lluvia_mm  humedad  limite_temp_c  temp_F
Ene     1     7.2         21       75             50   44.96
Feb     2     7.3         22       67             50   45.14
Mar     3    12.1         19       59             50   53.78
Abr     4    15.7         39       57             50   60.26
May     5    20.3         44       54             50   68.54
Jun     6    25.8         26       49             50   78.44
Jul     7    29.2         17       47             50   84.56
Ago     8    26.6         17       51             50   79.88
Sep     9    20.8         30       57             50   69.44
Oct    10    16.8         36       67             50   62.24
Nov    11    12.3         30       73             50   54.14
Dic    12     7.8         21       76             50   46.04
