# Indexación y selección de datos 

La semana pasada vimos cómo manejar arrays de NumPy, lo cual incluía indexación (``arr[2, 1]``), slicing (``arr[:, 1:5]``), masking (e.g., ``arr[arr > 0]``), y combinaciones de ambos (``arr[:, [1, 5]]``).

Ahora veremos su equivalente en los objetos de Pandas ``Series`` y ``DataFrames``, que será muy parecido a lo visto para los arrays de NumPy aunque con algún que otro cambio.

Al igual que hemos hecho en el notebook anterior, comenzaremos por el caso unidimensional, los ``Series``, y seguiremos con el caso bidimensional, los ``DataFrames``.

## Selección de datos en Series


Tal como hemos visto, los ``Series`` funcionan a veces como un arrau de 1 dimensión, y otras como un diccionario estándar de Python.

Con estas dos ideas en mente, podremos entender mejor el concepto de ``Series`` y cómo funciona el indexado y la selección de datos en estos arrays.

### Series como diccionario

Como un diccionario, los objetos ``Series`` ofrecen una serie de claves (los índices) a un conjunto de valores:

In [50]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [51]:
data['b']

0.5

También existe esa dualidad con los diccionarios en muchas situaciones, como examinar si un índice está en un dataframe, que será del mismo modo que lo hacíamos para ver si una clave estaba en un diccionario:

In [52]:
'a' in data

True

In [53]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [54]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Los objetos ``Series`` también pueden ser modificados como si de un diccionario se tratase, pues podemos especificar un nuevo valor para un nuevo índice (o sobreescribir uno ya existente), así como creábamos nuevos valores para nuevas claves:

In [55]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [56]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### Series como array unidimensional

Los ``Series`` nos ofrecen una interfaz parecida a los diccionarios con una selección de datos similar a la de los arrays, donde utilizamos mecanismos como slices, masking...

Veamos unos ejemplos:

In [57]:
# slicing por nombre de índice
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [58]:
# slicing por posición
data[0:2]

a    0.25
b    0.50
dtype: float64

In [59]:
# Operaciones elemento a elemento:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [60]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [61]:
data[[True,False,False,True,True]]

a    0.25
d    1.00
e    1.25
dtype: float64

In [62]:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [63]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [64]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

Entre estos, el slicing puede ser la fuente de mayor confusión, ya que hay que tener en cuenta que al cortar con un índice explícito (es decir, `` data ['a': 'c'] ``), el índice final se incluye en el índice, mientras que cuando se divide con un índice implícito (es decir, `` data [0: 2] ``), el índice final se excluye del segmento.

### Indexers: loc e iloc

Como hemos comentado anteriormente, estas convenciones de indexación y slicing pueden ser una fuente de confusión.

Por ejemplo, si una ``Serie`` tiene un índice entero explícito, una operación de indexación como ``data[1]`` usará índices explícitos, mientras que una operación de slicing como ``datos[1: 3]`` utilizará el índice implícito de estilo Python.

In [65]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [66]:
# Índice explícito con indexación
data[1]

'a'

In [67]:
# Índice implícito con slicing
data[1:3]

3    b
5    c
dtype: object

Debido a esto, Pandas ofrece unos atributos especiales de indexación para evitar esta confusión, exponiendo de manera explícita ciertos esquemas de indexación.

Estos no son métodos funcionales, sino atributos que exponen una interfaz de slicing particular a los datos en el objeto ``Series``. 

A continuación, veremos como el atributo ``loc`` permite indexar y hacer slicing mediante el uso del índice explícito (siempre):

In [68]:
data

1    a
3    b
5    c
dtype: object

In [69]:
data.loc[1]

'a'

In [70]:
data.loc[1:3]

1    a
3    b
dtype: object

Por otra parte, tenemos el atributo ``iloc``, que permite indexar y hacer slicing siempre referenciando a posiciones implícitas, tal como se hace en otros elementos de Python, como los arrays:

In [71]:
data.iloc[1]

'b'

In [72]:
data.iloc[1:3]

3    b
5    c
dtype: object

### Ejercicios

1. Crea un Series con 100 números aleatorios entre 0 y 10
2. ¿Qué número es el vigésimo?
3. Imprime por pantalla los números entre las posiciones 24 y 32
4. Imprime por pantalla los números desde el 50º al 70º que estén en posiciones pares
5. ¿Cuál es la media de los números entre las posiciones 30 y 60?
6. ¿Cuántos números hay mayores o iguales que 3? ¿Y con valor entre 5 y 7 (ambos inclusive)?
7. Calcula los números menores que 10 o mayores que 90 en un nuevo Series. Imprime por pantalla, en sentido contrario, aquellos con posiciones pares:

## Selección de datos en DataFrames

Como hemos visto, un ``DataFrame`` actúa en algunos casos como una matriz bidimensional (o estructurada), y en otras, como un diccionario de ``Series`` que comparten el mismo índice.

Será bueno tener esta analogía en la cabeza para entender mejor la selección de datos de los DataFrames:

### DataFrames como diccionarios

La primera de nuestras analogías consideraba que un ``DataFrame`` es un diccionario de ``Series``.

Probemos esta teoría con algunos ejemplos:

In [82]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Se puede acceder a cada uno de los ``Series`` que componen las columnas del ``DataFrame`` mediante la indexación del nombre de la columna como si de un diccionario se tratase:

In [83]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Del mismo modo, podemos usar el acceso mediante atributo con el nombre de la columna, siempre y cuando sea string:

In [84]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Este acceso a la columna mediante atributo, lo que hace es acceder exactamente al mismo objeto que en el caso del diccionario:

In [85]:
data.area is data['area']

True

Aunque esta es una abreviatura útil, hay que tener en cuenta sus limitaciones, ya que no funciona si los nombres de las columnas no son cadenas, o si los nombres de las columnas entran en conflicto con los métodos del ``DataFrame``. En estos casos, el acceso mediante atributo no será posible.

Por ejemplo, los ``DataFrame`` tienen un método ``pop ()`` (como el visto en las listas), por lo que ``data.pop`` apuntará a este método en lugar de a la columna ``pop``, por mucho que tengamos una columna así. Prevalecerán siempre los atributos/métodos definidos por defecto:

In [86]:
data.pop is data['pop']

False

En particular, se debe evitar la tentación de hacer la asignación de columnas a través de un atributo (es decir, debemos usar ``data ['pop'] = z`` en lugar de ``data.pop = z``).

Al igual que con los objetos ``Serie``, esta sintaxis de estilo diccionario también se puede usar para modificar el objeto, en este caso agregando una nueva columna:

In [87]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### DataFrames como arrays bidimensionales

Como hemos mencionado anteriormente, también podemos interpretar los ``DataFrames`` como arrays bidimensionales mejorados.

Podemos examinar los valores en bruto del array de datos mediante el atributo ``values``:

In [88]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

Con esta imagen en mente, se pueden hacer muchas observaciones similares a las que tenemos para las matrices en el propio ``DataFrame``.

Por ejemplo, podemos transponer el ``DataFrame`` completo para intercambiar filas y columnas:

In [89]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [90]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Sin embargo, cuando se trata de indexar ``DataFrames``, está claro que la indexación de columnas como si fueran diccionarios, excluye nuestra capacidad para tratarlos simplemente como una matriz de NumPy.

En particular, pasar un único índice a una matriz accede a una fila:

In [91]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

y pasar un solo índice a un ``DataFrame`` accede a una columna:

In [92]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Por lo tanto, para la indexación de estilo de matriz, necesitamos otra convención, como la vista para ``Series``.

En este caso, Pandas usa nuevamente los indexadores ``loc`` e ``iloc`` mencionados anteriormente. Mediante el indexador ``iloc``, podemos indexar la matriz subyacente como si fuera una matriz NumPy simple (usando el índice implícito al estilo Python), pero el índice del ``DataFrame`` y las etiquetas de las columnas se mantienen en el resultado:

In [93]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


De manera similar, usando el indexador ``loc`` podemos indexar los datos subyacentes en un estilo de matriz, pero usando el índice explícito y los nombres de columna:

In [94]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Cualquiera de las formas de acceso a datos que utiliza NumPy se puede utilizar dentro de estos indexadores.

Por ejemplo, en el indexador ``loc`` se puede combinar enmascaramiento e indexación como se muestra a continuación:

In [96]:
data.loc[data.density > 100,['pop','area']]

Unnamed: 0,pop,area
New York,19651127,141297
Florida,19552860,170312


In [97]:
data.density > 100

California    False
Texas         False
New York       True
Florida        True
Illinois      False
Name: density, dtype: bool

Cualquiera de estas convenciones también se pueden usar para seleccionar o modificar valores, lo que se consigue de la forma a la que estamos acostumbrados trabajando con NumPy:

In [98]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Si queremos desarrollar nuestra destreza con la manipulación de datos de Pandas, será bueno practicar cogiendo un ``DataFrame`` y explorando los tipos de indexación, slicing y enmascaramiento que permiten estos diversos enfoques de indexación.

### Otras convenciones de indexación

Hay un par de convenciones de indexación adicionales que pueden parecer contrarias a lo que acabamos de ver, pero que pueden resultar muy útiles en la práctica.

La primera es que, mientras que indexar se refiere a columnas, slicing se refiere a filas:

In [99]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Dichos sectores también pueden referirse a filas por número en lugar de por índice:

In [101]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


De manera similar, las operaciones de enmascaramiento directo también se interpretan por filas en lugar de por columnas:

In [102]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


Estas dos convenciones son sintácticamente similares a las de una matriz NumPy y, si bien es posible que no se ajusten con precisión a las convenciones de Pandas, son bastante útiles en la práctica.

### Cambiando ejes: índices de fila y nombres de columnas

Hemos visto cómo acceder a los elementos de un DataFrame, tanto por filas como por columnas, de diferentes formas. También hemos visto que al crear un Series o un DataFrame podemos establecer los índices y las etiquetas de las columnas, a no ser que vengan ya impuestos, en cuyo caso estaríamos filtrando sobre los índices ya impuestos.

Esto ocurre, principalmente, cuando creamos Series a partir de diccionarios, donde no podemos imponer explícitamente el índice de las filas:

In [107]:
dic = {'a': 1, 'b': 2, 'c': 19.1}
s = pd.Series(dic, index = ['a', 'b'])
s

a    1.0
b    2.0
dtype: float64

Como habíamos visto, al imponer explícitamente, el Series resultante tendrá los valores de diccionario filtrados por el índice que le digamos. En el caso de que le pongamos índice con elementos que no tiene en las claves del diccionario, rellenará con NaN:

In [108]:
s = pd.Series(dic, index = ['a', 'x', 'z'])
s

a    1.0
x    NaN
z    NaN
dtype: float64

En el caso de los DataFrame también ocurre esto, por ejemplo, al crearlo mediante un diccionario de Series, donde ocurrirá algo equivalente al establecer de manera explícita el índice:

In [111]:
# Nos creamos 2 series:
s1 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
s2 = pd.Series([5, 1, 1, 23], index = ['a', 'b', 'c', 'd'])

df = pd.DataFrame({'columna1': s1, 'supercolumna2': s2}, index = ['a', 'z'])
df

Unnamed: 0,columna1,supercolumna2
a,1.0,5.0
z,,


O las columnas:

In [113]:
df = pd.DataFrame({'columna1': s1, 'supercolumna2': s2}, columns = ['columna1', 'z'])
df

Unnamed: 0,columna1,z
a,1,
b,2,
c,3,
d,4,


Entonces... ¿cómo puedo hacer para renombrar las columnas o las filas?

Muy sencillo, podemos acceder a los atributos (del DataFrame o del Series) y cambiarlo a mano:

In [118]:
df = pd.DataFrame({'columna1': s1, 'supercolumna2': s2})
print("DataFrame original:")
print(df)

df.columns = ['col1_cambiada_de_nombre', 'megacolumna2']
print("\nDataFrame cambiando columnas:")
print(df)

df.index = [1, 2, 3, 49]
print("\nDataFrame cambiando columnas e índices:")
print(df)

DataFrame original:
   columna1  supercolumna2
a         1              5
b         2              1
c         3              1
d         4             23

DataFrame cambiando columnas:
   col1_cambiada_de_nombre  megacolumna2
a                        1             5
b                        2             1
c                        3             1
d                        4            23

DataFrame cambiando columnas e índices:
    col1_cambiada_de_nombre  megacolumna2
1                         1             5
2                         2             1
3                         3             1
49                        4            23


Sencillo, ¿verdad? Lo único que tendremos que tener en cuenta es el tamaño del eje que estemos renombrando:

In [120]:
df.columns = ['a', 'b', 'c']

ValueError: Length mismatch: Expected axis has 2 elements, new values have 3 elements

In [121]:
df.index = [1, 2]

ValueError: Length mismatch: Expected axis has 4 elements, new values have 2 elements

Al igual que con los DataFrames, también lo podemos aplicar a los Series (salvo las columnas, que no tiene):

In [130]:
s1 = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])

print(s1.index)

s1.index = ['w', 'x', 'y', 'z']
print(s1.index)
s1

Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['w', 'x', 'y', 'z'], dtype='object')


w    1
x    2
y    3
z    4
dtype: int64

### Ejercicios

1. Crea un Series con 100 números aleatorios (decimales o enteros, como tú quieras) entre 0 y 100, y otro con números también aleatorios entre 0 y 1
2. Crea otro Series del mismo tamaño con booleanos aleatorios
3. Crea un DataFrame con estas Series, cuyos nombres de columnas (por orden de creación) serán 'masa', 'densidad' y 'comestible'
3. Cambia el nombre de la columna 'comestible' por 'otra_columna'
4. Añade una nueva columna ('volumen') al DataFrame que sea la división de 'masa' entre 'densidad'
5. Calcula otra columna ('volasa') que sea la suma del volumen y la masa
6. Muestra por pantalla las filas pares de las columnas 'volumen' y 'masa'
7. Imprime por pantalla los registros comestibles que tengan un volumen superior a 50
8. Modifica todos los valores de la columna 'densidad' que sean menores que 0.5 para que no lo sean, sumándoles 0.5
9. Imprime por pantalla los valores de las masas que se correspondan con volúmenes superiores a 100