## Seleccion en series I

### Indexado, Seleccion y Slicing en Series

Hemos visto los métodos y herramientas para acceder, establecer y modificar valores en arrays de NumPy. Estos incluyen la indexación (por ejemplo, `arr[2, 1]`), el slicing (por ejemplo, `arr[:, 1:5]`), la máscara (por ejemplo, `arr[arr > 0]`) y además hemos visto combinaciones de los mismos.

Ahora veremos medios similares para acceder y modificar valores en los objetos Pandas Series y DataFrame. Si has utilizado los patrones de NumPy, los patrones correspondientes en Pandas te resultarán muy familiares, aunque hay algunas peculiaridades que debes tener en cuenta.

### Introducción

Como estudiamos en las sesiones dedicadas a **Series**, un objeto  
**Series actúa en muchos aspectos como un array unidimensional de NumPy, y en muchos aspectos como un diccionario estándar de Python.** Si tenemos en cuenta estas dos analogías superpuestas, nos ayudará a entender los patrones de indexación y selección de datos en estos objetos.

### Series como un diccionario

Recordemos que al igual que un diccionario, el objeto Series proporciona un mapeo de una colección de claves a una colección de valores 

In [2]:
import pandas as pd

In [4]:
data = pd.Series([1,2,4,5,6], index = ["a","b","d","c","e"])

In [5]:
data["c"]

np.int64(5)

Como ya habíamos adelantado en las sesiones sobre Series, podemos utilizar expresiones y métodos de Python tipo diccionario para examinar las claves/índices y los valores:

In [6]:
print("h" in data)
print("a" in data)

False
True


In [7]:
data.keys()

Index(['a', 'b', 'd', 'c', 'e'], dtype='object')

In [10]:
data.index

Index(['a', 'b', 'd', 'c', 'e'], dtype='object')

In [12]:
for indice, valor in data.items():
    print ("index:",indice,"valor:",valor)

index: a valor: 1
index: b valor: 2
index: d valor: 4
index: c valor: 5
index: e valor: 6


Los objetos Series pueden incluso modificarse con una sintaxis similar a la de un diccionario. Al igual que se puede ampliar un diccionario asignando una nueva clave, se puede ampliar una Serie asignando un nuevo valor de índice:

In [14]:
data["z"] = 23
data["m"] = 22

In [16]:
for indice, valor in data.items():
    print ("index:",indice,"valor:",valor)

index: a valor: 1
index: b valor: 2
index: d valor: 4
index: c valor: 5
index: e valor: 6
index: z valor: 23
index: m valor: 22


### Series como un array unidimensional

Una **Series** permite una interacción similar a un diccionario y proporciona además selección de elementos al estilo de un array de NumPy a través de los mismos mecanismos básicos que los arrays de NumPy – es decir, *cortes (slices), enmascaramiento (masking)* y *indexación sofisticada (fancy indexing)*. Ejemplos de estos son los siguientes, algunos ya vistos en sesiones anteriores:

In [19]:
### Corte o slicing por indice explicito (ya visto)
data["a":"d"]

a    1
b    2
d    4
dtype: int64

In [20]:
### Corte o slicing por indice implicito o posicional 
data[-3:]

e     6
z    23
m    22
dtype: int64

In [21]:
### masking o enmascaramiento
data[(data>3) & (data<8)]

d    4
c    5
e    6
dtype: int64

In [22]:
data

a     1
b     2
d     4
c     5
e     6
z    23
m    22
dtype: int64

In [23]:
condicion = [(data>3) & (data<8)]

In [24]:
condicion

[a    False
 b    False
 d     True
 c     True
 e     True
 z    False
 m    False
 dtype: bool]

In [32]:
### Fancy indexing

seleccion = ["a","m","d","z"]
print(data[seleccion])

a     1
m    22
d     4
z    23
dtype: int64


## Seleccion en series II

### Indexers: loc, iloc, ix (obsoleto o deprecated)

En esta sesión vamos a ver la forma correcta de decirle a nuestra Serie que valores queremos para evitarnos problemas. Usaremos `loc` e `iloc`.

A la hora de indexar valores en una serie puede haber confusiones si para los índices del Index de la serie hemos decidido usar enteros (o sea explícitamente hemos puesto índices con valores enteros).

Por ejemplo, si tu Serie tiene un índice entero explícito, una operación de indexación como **data[1]** **utilizará los índices explícitos, mientras que una operacion de slicing como data[1:3] utilizará el indice implicito o posicional**

In [35]:
data = pd.Series(["a","b","c"],index=[1,3,5]) 
data

1    a
3    b
5    c
dtype: object

In [36]:
###Indexado explicito
data[1]

'a'

In [37]:
###Indexado implicito
data[1:3]

3    b
5    c
dtype: object

Debido a esta potencial confusión en el caso de los índices enteros,  
Pandas proporciona algunos atributos *indexadores* especiales que  
exponen explícitamente ciertos esquemas de indexación. No se trata  
de métodos funcionales, sino de atributos que exponen una interfaz  
de slicing particular a los datos de la Serie.

En primer lugar, el **atributo loc permite la indexación y el slice**  
que siempre hace referencia al índice explícito:

In [39]:
data.loc[3]

'b'

In [41]:
data.iloc[1] ###Indice posicional

'b'

Un principio rector del código Python es que "lo explícito es mejor que lo implícito". La naturaleza explícita de `loc` e `iloc` los hace muy útiles para mantener un código limpio y legible; especialmente en el caso de los índices de enteros, **recomiendo usarlos tanto para hacer el código más fácil de leer y entender, como para prevenir errores sutiles debido a la convención de indexación/corte mixto**.

En definitiva, siempre que quieras acceder a un elemento en una serie (supongamos una serie llamada "ejemplo"):

- Si lo haces por una etiqueta o un valor del Index -> `ejemplo.loc[valor]`
- Si lo haces por la posición que ocupa el valor -> `ejemplo.iloc[posicion]`
- No lo hagas así para evitar problemas: `ejemplo[valor]` o `ejemplo[posicion]` y tampoco uses (te dará error) `ejemplo.ix[valor]`, `ejemplo.ix[posicion]`