# Seleccionar elementos de un DataFrame

## Selecionar columnas

Para seleccionar columnas de un DataFrame se usa el operador [ ]. Leamos un archivo para verlo en un ejemplo concreto:

In [1]:
import numpy as np
import pandas as pd

dens = pd.read_csv("data/superficiedens2013.csv", sep=";", encoding="latin", index_col=1)
dens.head()

Unnamed: 0_level_0,Dte,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,,,,,
,BARCELONA,1.611.822,10.234,157.0,625.0
,,,,,
1. el Raval,1,48.800,110.0,444.0,983.0
2. el Barri Gòtic,1,16.267,84.0,193.0,477.0


La primera columna de la tabla corresponde a los barrios y es la columna índice, la segunda columna corresponde al distrito.

Veamos como hacer para seleccionar solo la columna de población (columna de índice 2):

In [3]:
dens[[2]].head()

Unnamed: 0_level_0,Superficie(ha)
Barris,Unnamed: 1_level_1
,
,10.234
,
1. el Raval,110.0
2. el Barri Gòtic,84.0


Observemos que la columna índice siempre aparece. Debemos usar la notación de índices de Python, es decir, la primera columna tiene índice 0, la seguna 1, y así sucesivamente. Si queremos guardar estos datos en otra variable solo tenemos que asignarlo como por ejemplo:

In [4]:
dens_1 = dens[[2]].copy()
dens_1.head()

Unnamed: 0_level_0,Superficie(ha)
Barris,Unnamed: 1_level_1
,
,10.234
,
1. el Raval,110.0
2. el Barri Gòtic,84.0


Si queremos seleccionar más de una columna tendremos que dar los índices de las columnas:

In [5]:
dens[[1,2,3]].head()

Unnamed: 0_level_0,Poblacio,Superficie(ha),Densitat(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
,,,
,1.611.822,10.234,157.0
,,,
1. el Raval,48.800,110.0,444.0
2. el Barri Gòtic,16.267,84.0,193.0


Podemos ver el contenido de una columna llamándola por su nombre. En este caso, si queremos ver la columna Poblacio, podemos hacer:

In [7]:
dens["Poblacio"].head()

Barris
NaN                        NaN
NaN                  1.611.822
NaN                        NaN
1. el Raval             48.800
2. el Barri Gòtic       16.267
Name: Poblacio, dtype: object

## Seleccionar filas y valores de un DataFrame usando el índice

El operador [] se usa en `Series` y arrays para seleccionar filas o elementos, pero en `DataFrame` se usa para seleccionar columnas, así que para seleccionar filas se debe usar un método alternativo.

La seleccion de filas se realiza en `DataFrame` usando los índices en las siguientes categorías de operaciones:

* Cortar (slicing) usando el operador [ ]
* Inspección por etiqueta o localización usando `.loc`, `.iloc` y `.ix`
* Inspección escalar usando etiquetas o localización usando `.at` y `iat`

Examinaremos estas técnicas a continuación.

### Slicing usando el operador [ ]

Si queremos seleccionar las filas entre los índices 6 y 10 podemos hacer:

In [8]:
dens[6:11]

Unnamed: 0_level_0,Dte,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"4. Sant Pere, Santa Caterina i la Ribera",1,22.769,111,204,705.0
5. el Fort Pienc,2,31.738,93,343,950.0
6. la Sagrada Família,2,51.806,103,502,1.006
7. la Dreta de l'Eixample,2,43.384,212,204,381.0
8. l'Antiga Esquerra de l'Eixample,2,41.773,123,338,624.0


Observar que el último elemento indicado en el slice no se toma.

### Seleccionar filas por índice : `.loc` y `.iloc`

Si queremos seleccionar por índice podemos usar `.loc` en el caso de que los índices sean etiquetas o `.iloc` en el caso de que sean números como en nuestro caso. Por ejemplo, si queremos seleccionar las filas con índices 4, 6 y 8 podemos poner:

In [9]:
dens.loc[["5. el Fort Pienc", "7. la Dreta de l'Eixample"]]

Unnamed: 0_level_0,Dte,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5. el Fort Pienc,2,31.738,93,343,950
7. la Dreta de l'Eixample,2,43.384,212,204,381


En el caso de usar las ubicaciones con el número de fila:

In [10]:
dens.iloc[[0,1,7]]

Unnamed: 0_level_0,Dte,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,,,,,
,BARCELONA,1.611.822,10.234,157.0,625.0
5. el Fort Pienc,2,31.738,93.0,343.0,950.0


Es posible encontrar la ubicación de la fila para una etiqueta dada, que luego puede ser usada para obtener la fila o filas:

In [15]:
i1 = dens.index.get_loc(u"6. la Sagrada Família")
i2 = dens.index.get_loc(u"7. la Dreta de l'Eixample")
i1,i2

(8, 9)

y obtenemos las filas:

In [16]:
dens.iloc[[i1,i2]]

Unnamed: 0_level_0,Dte,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
6. la Sagrada Família,2,51.806,103,502,1.006
7. la Dreta de l'Eixample,2,43.384,212,204,381.0


### Seleccionar filas por índices de etiquetas y/o ubicación: .ix[ ]