# Indexación y selección de datos

## Selección de datos en Series

Como vimos anteriormente, un objeto ``Series`` actúa en muchos aspectos como un array unidimensional de NumPy, y en muchos aspectos como un diccionario estándar de Python.
Si mantenemos en mente estas dos analogías superpuestas, nos ayudará a entender los patrones de indexación y selección de datos en estos arrays.

In [85]:
# FILTROS

### Series como diccionario

Al igual que un diccionario, el objeto ``Series`` proporciona una correspondencia entre una colección de claves y una colección de valores:

In [86]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [87]:
data['b']

np.float64(0.5)

También podemos utilizar expresiones y métodos de Python tipo diccionario para examinar las claves/índices y los valores:

In [88]:
'a' in data # ¿A está en data?

True

In [89]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [90]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Los objetos ``Series`` pueden incluso modificarse con una sintaxis similar a la de un diccionario.
Del mismo modo que se puede ampliar un diccionario asignando una nueva clave, se puede ampliar una ``Series`` asignando un nuevo valor de índice:

In [91]:
# Podemos renombrar datos y si no exixtex los añade 
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Esta fácil mutabilidad de los objetos es una característica conveniente: bajo el capó, Pandas está tomando decisiones sobre la disposición de la memoria y la copia de datos que pueda ser necesario realizar; el usuario generalmente no necesita preocuparse por estos temas.

### Series como array unidimensional

Una ``Series`` se basa en esta interfaz tipo diccionario y proporciona una selección de elementos tipo array a través de los mismos mecanismos básicos que los arrays de NumPy, es decir, *slicing*, *enmascaramiento* e *índice fancy*.
Algunos ejemplos son los siguientes:

In [92]:
# slicing por índice explícito de la a a la c las dos incluidas
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [93]:
# slicing por índice entero implícito
data[0:2]

a    0.25
b    0.50
dtype: float64

In [94]:
# Máscara booleana
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [95]:
# enmascaramiento (filtro de datos)
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [96]:
# indexación fancy (Te muestra lo que le pides)
data[['a', 'e']] # De data solo quiero la a y la e

a    0.25
e    1.25
dtype: float64

Entre ellos, el slicing puede ser la fuente de mayor confusión.
Fíjese en que cuando se trocea con un índice explícito (es decir, ``data['a':'c']``), el índice final se *incluye* en el slicing, mientras que cuando se trocea con un índice implícito (es decir, ``data[0:2]``), el índice final se *excluye*.

### Indexadores: loc e iloc

Estas convenciones de slicing e indexación pueden ser fuente de confusión.
Por ejemplo, si tu ``Series`` tiene un índice entero explícito, una operación de indexación como ``datos[1]`` utilizará los índices explícitos, mientras que una operación de corte como ``datos[1:3]`` utilizará el índice implícito estilo Python.

In [97]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [98]:
# índice explícito al indexar
data[1]

'a'

In [99]:
# índice implícito al hacer un slicing
data[1:3] # Esto te devuelve lo que le da la gana, para eso está el loc y el iloc

3    b
5    c
dtype: object

Debido a esta confusión potencial en el caso de índices enteros, Pandas proporciona algunos atributos *indexer* especiales que exponen explícitamente ciertos esquemas de indexación.
No se trata de métodos funcionales, sino de atributos que exponen una interfaz de slicing particular para los datos de la ``Series``.

En primer lugar, el atributo ``loc`` permite la indexación y el corte que siempre hace referencia al índice explícito:

In [100]:
# El indice explicito es el valor del índice
# Veo el nombre de la columna

In [101]:
data.loc[1]

'a'

In [102]:
data.loc[1:3] 

1    a
3    b
dtype: object

El atributo ``iloc`` permite la indexación y la segmentación que siempre hace referencia al índice implícito de estilo Python:

In [103]:
data.iloc[1] # Muestra el atributo del indice

'b'

In [104]:
data.iloc[1:3]

3    b
5    c
dtype: object

## Selección de datos en DataFrame

Recordemos que un ``DataFrame`` actúa en muchos aspectos como un array bidimensional o estructurado, y en otros como un diccionario de estructuras ``Series`` que comparten el mismo índice.
Estas analogías pueden ser útiles a la hora de explorar la selección de datos dentro de esta estructura.

### DataFrame como diccionario

La primera analogía que vamos a considerar es el ``DataFrame`` como diccionario de objetos ``Series`` relacionados.
Volvamos a nuestro ejemplo de las áreas y poblaciones de los estados:

In [105]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data
# El indece es el nombre del estado

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Se puede acceder a las ``Series`` individuales que componen las columnas del ``DataFrame`` mediante la indexación de tipo diccionario del nombre de la columna:

In [106]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

De forma equivalente, podemos utilizar el acceso de tipo atributo con nombres de columna que sean cadenas:

In [107]:
# Esto funciona pero es mejor hacer lo de arriba con ['...']
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Este acceso de columna de tipo atributo accede en realidad exactamente al mismo objeto que el acceso de tipo diccionario:

In [108]:
data.area is data['area']

True

Aunque se trata de una abreviatura útil, hay que tener en cuenta que no funciona en todos los casos.
Por ejemplo, si los nombres de las columnas no son cadenas, o si los nombres de las columnas entran en conflicto con métodos del ``DataFrame``, este acceso tipo atributo no es posible.
Por ejemplo, el ``DataFrame`` tiene un método ``pop()``, por lo que ``data.pop`` apuntará a éste en lugar de a la columna ``"pop"``:

In [109]:
data.pop is data['pop']

False

En particular, debe evitar la tentación de intentar asignar columnas mediante atributos (es decir, utilice ``datos['pop'] = z`` en lugar de ``datos.pop = z``).

Al igual que con los objetos ``Series`` comentados anteriormente, esta sintaxis de tipo diccionario también se puede utilizar para modificar el objeto, en este caso añadiendo una nueva columna:

In [110]:
# Calcular una densidad:
data['density'] = data['pop'] / data['area'] # Esto es una u-function de numpy (la serie población entre la serie area)
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [111]:
# Primero hay que igualar a cero
data['densidad'] = 0

### DataFrame como matriz bidimensional

Como se ha mencionado anteriormente, también podemos ver el ``DataFrame`` como una matriz bidimensional mejorada.
Podemos examinar la matriz de datos subyacente utilizando el atributo ``values``:

In [112]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01, 0.00000000e+00],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01, 0.00000000e+00],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02, 0.00000000e+00],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02, 0.00000000e+00],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01, 0.00000000e+00]])

Con esta imagen en mente, se pueden hacer muchas observaciones familiares sobre el propio ``DataFrame``.
Por ejemplo, podemos transponer el ``DataFrame`` completo para intercambiar filas y columnas:

In [113]:
# Data normal
data

Unnamed: 0,area,pop,density,densidad
California,423967,38332521,90.413926,0
Texas,695662,26448193,38.01874,0
New York,141297,19651127,139.076746,0
Florida,170312,19552860,114.806121,0
Illinois,149995,12882135,85.883763,0


In [114]:
# Data traspuesta
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376
densidad,0.0,0.0,0.0,0.0,0.0


Sin embargo, cuando se trata de indexar objetos ``DataFrame``, está claro que el estilo de indexación de diccionario de las columnas excluye nuestra capacidad de tratarlo simplemente como un array NumPy.
En particular, al pasar un único índice a un array se accede a una fila:

In [115]:
data.values[0] # Devuelve la primera fila

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01, 0.00000000e+00])

y pasando un único "índice" a un ``DataFrame`` se accede a una columna:

In [116]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Por lo tanto, para la indexación estilo array, necesitamos otra convención.
Aquí Pandas utiliza de nuevo los indexadores ``loc``e ``iloc`` mencionados anteriormente.
Usando el indexador ``iloc``, podemos indexar el array subyacente como si fuera un simple array NumPy (usando el índice implícito estilo Python), pero el índice ``DataFrame`` y las etiquetas de las columnas se mantienen en el resultado:

In [117]:
data.iloc[:3, :2] # El 3 no se ikncluye porque es iloc (quiero las primeras 3 filas y las primeras 2 columnas)

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


Del mismo modo, utilizando el indexador ``loc`` podemos indexar los datos subyacentes en un estilo similar a un array pero utilizando el índice explícito y los nombres de las columnas:

In [118]:
data.loc[:'Illinois', :'pop'] # Todas las filas hasta illinois y todas las columnas hasta pop

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Dentro de estos indexadores se puede utilizar cualquiera de los patrones de acceso a datos conocidos del estilo NumPy.
Por ejemplo, en el indexador ``loc`` podemos combinar enmascaramiento e indexación fancy como en lo siguiente:

In [119]:
data.loc[data.density > 100, ['pop', 'density']] # loc porque es explícita

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [120]:
# También se puede hacer asi:
data.loc[data.density > 100]['pop']

New York    19651127
Florida     19552860
Name: pop, dtype: int64

Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; esto se hace de la manera estándar a la que puede estar acostumbrado de trabajar con NumPy:

In [None]:
data.iloc[0, 2] = 90 # Fila 0 columna 2 que sea = a 90
data

### Convenciones de indexación adicionales

Hay un par de convenciones de indexación adicionales que pueden parecer contradictorias con lo expuesto anteriormente, pero que sin embargo pueden ser muy útiles en la práctica.
En primer lugar, mientras que *indexar* se refiere a columnas, *slicing* se refiere a filas:

In [None]:
data['Florida':'Illinois'] # Desde florida a illinois

Estos slicing también pueden referirse a filas por número en lugar de por índice:

In [None]:
data[1:3] 

Del mismo modo, las operaciones de enmascaramiento directo también se interpretan por filas en lugar de por columnas:

In [None]:
data[data.density > 100] # Muestra donde la densidad es mayor que 100

Estas dos convenciones son sintácticamente similares a las de un array de NumPy, y aunque no se ajusten exactamente al molde de las convenciones de Pandas, son bastante útiles en la práctica.

<!--NAVIGATION-->
< [Introducción a Objectos Pandas](1-Objetos_Pandas.ipynb) | [Operar con datos en Pandas](3-Operaciones_en_Pandas.ipynb) >