In [26]:
import pandas as pd

# Capitulo 4: Indexacion de booleanos en dataframes.

## Introduccion

Accediendo a las filas en un dataframe usando los objetos indexadores del Dataframe (dataframe Indexer objects) `.ix, .loc, .iloc` y como estos se diferencian entre si usando una mascara de booleanos.

## Ejemplos:

### Accediendo a Dataframes con un indice de booleanos.
Este será nuestro dataframe de ejemplo:

In [27]:
df = pd.DataFrame({
    'color': ['red', 'blue', 'red', 'blue']
    },
    index=[True,False,True,False])

df

Unnamed: 0,color
True,red
False,blue
True,red
False,blue


Accediendo con `.loc`

In [28]:
df.loc[True]

Unnamed: 0,color
True,red
True,red


Accediendo con `.iloc`

In [29]:
df.iloc[1]

color    blue
Name: False, dtype: object

> Nota importante: En versiones antiguas de pandas no distingue entre booleanos y enteros, en consecuencia `.iloc[True]` retornará lo mismo que `.iloc[1]`

Accediendo con `.ix`

> Nota importante: No existe el método `.ix` en la version de pandas `2.1.3` en adelante

```py
df.ix[True]
"""
    color
True    red
True    red
"""
df.ix[1]

#color  blue
```
Como puede ver `.ix` tiene dos comportamientos. Esta es muy mala practica en el código y en consecuencia esto podria ser evitado. Por favor use `.iloc` o `.loc` para ser mas explicito.

### Aplicando una mascara booleana a un dataframe.

Este será nuestro dataframe:

In [30]:
mask_df = pd.DataFrame({
    'color': ['red', 'blue', 'red', 'blue'],
    'name': ['rose', 'violet', 'tulip', 'harebell'],
    'size': ['big', 'big', 'small', 'small']
})
mask_df

Unnamed: 0,color,name,size
0,red,rose,big
1,blue,violet,big
2,red,tulip,small
3,blue,harebell,small


Usando la funcion mágica `__getitem__` o el accesor `[]`. Dejando este una lista de Booleanos del mismo tamaño del dataframe.

In [31]:
mask_df[[True, False, True, False]]

Unnamed: 0,color,name,size
0,red,rose,big
2,red,tulip,small


### Enmascarando datos basado en los valores de columna

Este será nuestro dataframe:

In [32]:
mask_df

Unnamed: 0,color,name,size
0,red,rose,big
1,blue,violet,big
2,red,tulip,small
3,blue,harebell,small


Accediendo a una simple columna desde un dataframe, nosotros podemos usar una comparación simple -- para comparar cada elemento en la columna para la variable entregada, produciendo una `.pd.Series` de verdadero y falso.

In [33]:
mask_df['size'] == 'small'

0    False
1    False
2     True
3     True
Name: size, dtype: bool

Esta `pd.Series` es una extension de un `np.array` el cual es una extension de una simple `list`, de este modo podremos manejar este para el `__getitem__` o el accesor `[]` como en el ejemplo de abajo.

In [34]:
small_size_mask = mask_df['size'] == 'small'
mask_df[small_size_mask]

Unnamed: 0,color,name,size
2,red,tulip,small
3,blue,harebell,small


### Enmascarando basado en valores de indice.

Este será nuestro dataframe de ejemplo:

In [35]:
mask_2_df = pd.DataFrame({
    'color':['red', 'blue', 'red', 'blue'],
    'size':['big', 'small', 'small', 'small']
}, index=['rose', 'violet', 'tulip', 'harebell'])
mask_2_df

Unnamed: 0,color,size
rose,red,big
violet,blue,small
tulip,red,small
harebell,blue,small


> Nota: Tuve que forzar a que los nombres fueran indices. Originalmente no se muestra como se construyó el dataframe

Nosotros podemos crear una mascara basada en los valores de indice, justo como en el valor de una columna.

In [36]:
rose_mask = mask_2_df.index == 'rose'
mask_2_df[rose_mask]

Unnamed: 0,color,size
rose,red,big


Pero hacer esto es *casi* lo mismo que:

Esta linea no funciona o hice algo mal
```py
df.loc['rose']
```

In [46]:
mask_2_df.loc['rose']

color    red
size     big
Name: rose, dtype: object

La diferencia importante viene siendo, cuando `.loc` solamente encuentra una fila en el indice que encaja, este retornará un `pd.Series`, si este encuentra mas filas que encajen, este retornará una `pd.DataFrame`. Esto hace que este metodo sea bastante inestable.

Este comortamiento puede ser controlado dejandole el `.loc` una lista de una unica entrada. Esto forzará a retornar un dataframe.

```py
df.loc[['rose']]
```

<a href='https://riptutorial.com/pandas/topic/9589/boolean-indexing-of-dataframes'>Lea acerca de indexacion booleana de dataframes en linea</a>

In [47]:
mask_2_df.loc[['rose']]

Unnamed: 0,color,size
rose,red,big
