# Filtrando y creando subconjuntos con Pandas

## Objetivos
- Ver lo básico de indexación
- Aprender a seleccionar filas y columnas como bien nos apetezca
- Saber cómo crear subconjuntos de los datos a través de algunas funciones
- Ser capaces de filtrar los datos según condiciones que nosotros demos

## Introducción
Dado que Pandas es una biblioteca de código abierto, tiene muchas contribuciones de desarrolladores. Como resultado, la sintaxis se ha vuelto muy expresiva y hay muchas formas de realizar tareas similares. Uno de estos ejemplos es con el subconjunto y el filtrado de DataFrames.

In [1]:
#Como siempre, importamos las bibliotecas necesarias y leemos los datos con los que vamos a trabajar
import numpy as np
import pandas as pd

animals = pd.read_csv('Data/animals.csv')

In [2]:
animals.head()

Unnamed: 0,brainwt,bodywt,animal
0,3.385,44.5,Arctic_fox
1,0.48,15.499,Owl_monkey
2,1.35,8.1,Beaver
3,464.983,423.012,Cow
4,36.328,119.498,Gray_wolf


## Indexación

Hay tres componentes en un DataFrame: el índice de fila, las columnas y los datos. El índice predeterminado es un número de fila que comienza en cero. Sin embargo, podemos definir el índice como cualquier secuencia que nos guste. Podemos acceder al índice en cualquier DataFrame y asignar una nueva secuencia de valores al índice con funciones como reindex(), set_index() y reset_index() que veremos en siguientes módulos.

In [3]:
animals.columns

Index(['brainwt', 'bodywt', 'animal'], dtype='object')

In [4]:
animals.shape

(62, 3)

In [5]:
animals.index

RangeIndex(start=0, stop=62, step=1)

In [6]:
animals.index.values

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61], dtype=int64)

## Selección de filas y columnas

### Selección de columnas

Podemos acceder a los valores de una columna utilizando corchetes:

In [7]:
#calling the bodywt column using square brackets:
animals['bodywt']

0       44.500
1       15.499
2        8.100
3      423.012
4      119.498
5      114.996
6       98.199
7        5.500
8       57.998
9        6.400
10       4.000
11       5.700
12       6.600
13       0.140
14       1.000
15      10.800
16      12.300
17       6.300
18    4603.170
19       0.300
20     419.012
21     654.977
22       3.500
23     114.996
24      25.600
25       5.000
26      17.500
27     680.005
28     406.019
29     324.992
        ...   
32    5711.860
33       3.900
34     179.003
35      56.003
36      17.000
37       1.000
38       0.400
39       0.250
40      12.500
41     489.997
42      12.100
43     175.002
44     156.993
45     440.011
46     179.504
47       2.400
48      80.996
49      21.000
50      39.201
51       1.900
52       1.200
53       3.000
54       0.330
55     180.008
56      25.001
57     169.000
58       2.600
59      11.400
60       2.500
61      50.400
Name: bodywt, Length: 62, dtype: float64

O entendiendo la columna como un atributo del Data Frame:

In [8]:
#calling the brainwt column as an attribute of the DataFrame:
animals.brainwt

0        3.385
1        0.480
2        1.350
3      464.983
4       36.328
5       27.660
6       14.831
7        1.040
8        4.190
9        0.425
10       0.101
11       0.920
12       1.000
13       0.005
14       0.060
15       3.500
16       2.000
17       1.700
18    2547.070
19       0.023
20     187.092
21     521.026
22       0.785
23      10.000
24       3.300
25       0.200
26       1.410
27     529.006
28     206.996
29      85.004
        ...   
32    6654.180
33       3.500
34       6.800
35      34.998
36       4.050
37       0.120
38       0.023
39       0.010
40       1.400
41     250.010
42       2.500
43      55.501
44     100.003
45      52.159
46      10.550
47       0.550
48      59.997
49       3.600
50       4.288
51       0.280
52       0.075
53       0.122
54       0.048
55     192.001
56       3.000
57     160.004
58       0.900
59       1.620
60       0.104
61       4.235
Name: brainwt, Length: 62, dtype: float64

### Selección de filas

Podemos seleccionar subconjuntos usando corchetes. También podemos indicar la fila inicial y la fila final y separarlas por dos puntos o dejar en blanco la fila de inicio o final.

In [12]:
animals['brainwt'][11:20]

11       0.920
12       1.000
13       0.005
14       0.060
15       3.500
16       2.000
17       1.700
18    2547.070
19       0.023
Name: brainwt, dtype: float64

In [6]:
animals[11:20]

Unnamed: 0,brainwt,bodywt,animal
11,0.92,5.7,Arctic
12,1.0,6.6,African_giant_pouched_rat
13,0.005,0.14,Lesser_short-tailed-shrew
14,0.06,1.0,Star-nosed_mole
15,3.5,10.8,Nine-banded_armadillo
16,2.0,12.3,Tree_hyrax
17,1.7,6.3,N._American
18,2547.07,4603.17,Asian_elephant
19,0.023,0.3,Big_brown_bat


En ese caso, la fila de inicio se completará de manera implícita para ser la primera fila y la finalización se completará de manera implícita hasta la última. 

In [8]:
animals[55:]

Unnamed: 0,brainwt,bodywt,animal
55,192.001,180.008,Pig
56,3.0,25.001,Echidna
57,160.004,169.0,Brazilian_tapir
58,0.9,2.6,Tenrec
59,1.62,11.4,Phalanger
60,0.104,2.5,Tree_shrew
61,4.235,50.4,Red_fox


El rango que especifiquemos no incluirá el límite superior.

In [7]:
animals[:10]

Unnamed: 0,brainwt,bodywt,animal
0,3.385,44.5,Arctic_fox
1,0.48,15.499,Owl_monkey
2,1.35,8.1,Beaver
3,464.983,423.012,Cow
4,36.328,119.498,Gray_wolf
5,27.66,114.996,Goat
6,14.831,98.199,Roe_deer
7,1.04,5.5,Guinea_pig
8,4.19,57.998,Vervet
9,0.425,6.4,Chinchilla


## Selección con funciones

Las dos funciones que nos van a ayudar en la selección de subconjuntos más avanzada son loc[] y iloc[], ¡ojo que van con corchetes!
- Con .loc podemos seleccionar utilizando el nombre de la columna/columnas

In [10]:
animals.loc[2:6, 'bodywt']

2      8.100
3    423.012
4    119.498
5    114.996
6     98.199
Name: bodywt, dtype: float64

In [3]:
animals.loc[1:4, ['bodywt', 'brainwt']]

Unnamed: 0,bodywt,brainwt
1,15.499,0.48
2,8.1,1.35
3,423.012,464.983
4,119.498,36.328


- .iloc está basada en la posición de la columna. Utilizamos el número de la posición

In [17]:
animals.iloc[5:10, [0,2]]

Unnamed: 0,brainwt,animal
5,27.66,Goat
6,14.831,Roe_deer
7,1.04,Guinea_pig
8,4.19,Vervet
9,0.425,Chinchilla


In [18]:
animals[5:10, [0,2]]

TypeError: '(slice(5, 10, None), [0, 2])' is an invalid key

In [6]:
animals.iloc[1,1]

15.499

Otras funciones útiles...

In [4]:
np.where(animals.bodywt == 1.00)

(array([14, 37], dtype=int64),)

In [13]:
animals.index

RangeIndex(start=0, stop=62, step=1)

In [15]:
pd.Index(animals.bodywt).get_loc(1.00)

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False,  True, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False,  True, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False])

In [7]:
pd.Index(animals.animal).get_loc('Pig')

55

## Filtrado
Hay ocasiones en las que queremos usar el filtrado para responder las preguntas que tenemos sobre el conjunto de datos. Por ejemplo, nos gustaría saber qué animales tienen un peso corporal de menos de 2 libras. Podemos filtrar nuestro marco de datos poniendo esta condición entre corchetes.

In [5]:
animals[animals['bodywt'] < 2]

Unnamed: 0,brainwt,bodywt,animal
13,0.005,0.14,Lesser_short-tailed-shrew
14,0.06,1.0,Star-nosed_mole
19,0.023,0.3,Big_brown_bat
37,0.12,1.0,Golden_hamster
38,0.023,0.4,Mouse
39,0.01,0.25,Little_brown_bat
51,0.28,1.9,Rat
52,0.075,1.2,E._American_mole
54,0.048,0.33,Musk_shrew


Nuestra condición booleana también puede depender de los datos en sí, en lugar de una comparación con un número fijo. Por ejemplo, podríamos sentir curiosidad por saber qué animales tienen cerebros particularmente pequeños en comparación con su cuerpo. Podríamos preguntar qué animales tienen un peso corporal 25 veces mayor o más que su peso cerebral

In [13]:
animals[animals.bodywt > 25 * animals.brainwt]

Unnamed: 0,brainwt,bodywt,animal
1,0.48,15.499,Owl_monkey
10,0.101,4.0,Ground_squirrel
13,0.005,0.14,Lesser_short-tailed-shrew
34,6.8,179.003,Rhesus_monkey


Podemos hacer selección y filtrado de una vez. Imaginemos que quiero filtrar por la condición de la celda anterior pero solo quiero que me devuelva el nombre de los animales.

In [14]:
animals[animals.bodywt > 25 * animals.brainwt]['animal']

1                    Owl_monkey
10              Ground_squirrel
13    Lesser_short-tailed-shrew
34                Rhesus_monkey
Name: animal, dtype: object