## Selección de datos
### 1. Selección de datos en Series

In [1]:
import pandas as pd
import numpy as np

In [2]:
s = pd.Series([10,20,30,40])
s

0    10
1    20
2    30
3    40
dtype: int64

#### 1.1 Seleccionar valores haciendo referencia al índice

In [3]:
print(s[0]) # mostrará el primer elemento .
print(s[2]) # mostrará el tercer elemento.

10
30


#### 1.2 Seleccionar valores usando los índices creados en la serie

In [4]:
s = pd.Series([10,20,30,40], index = ['a','b','c','d'])
print(s["a"],s[0]) #las dos formas para seleccionar el primer elemento.


10 10


**Si los indices creados en la serie son números enteros, el índice implícito queda desactivado**
A continuación se muestra un ejemplo

In [6]:
s = pd.Series([10,20,30,40], index = [3,2,1,0])


In [7]:
s[0] #En este caso NO SE MUESTRA EL PRIMER ELEMENTO, sino el elemento cuyo índice es cero, que en este caso es el 40

40

#### 1.3 Uso de rangos
Si se utiliza notación de diccionario, podemos seleccionar rangos de valores. **Los rangos usan el índice explícito o implícito como puedes ver** El uso de rangos es similar al uso de rangos en matlab u octave.

**SI LOS INDICES SON NÚMEROS, NO PODEMOS ACCEDER A ELLOS, SINO QUE SE TOMAN LOS EXPLÍCITOS**

In [15]:
s = pd.Series([10,20,30,40], index = ['a','b','c','d'])
s[1:3]

b    20
c    30
dtype: int64

In [16]:
s["a":"c"]

a    10
b    20
c    30
dtype: int64

Como vemos en el siguiente ejemplo en el que los índices son numéricos, si colocamos un rango, el resultado no son las etiquetas sino los indices explícitos.

In [18]:
s = pd.Series([10,20,30,40], index = [3,2,1,0])
s[1:3]

2    20
1    30
dtype: int64

#### 1.4 Uso de listas
Podemos usar una lista de valores

In [20]:
s = pd.Series([10,20,30,40], index = ['a','b','c','d'])
s[[3,1]]

d    40
b    20
dtype: int64

In [21]:
type(s[[3,1]])

pandas.core.series.Series

#### 1.5 Uso del método get
Permite extraer un valor de forma segura

In [22]:
s.get(2)

30

#### 1.6 Uso del método loc
Este método permite seleccionar un grupo de elementos por etiquetas
** Uso con etiqueta simple **

In [23]:
s['a']

10

In [24]:
s.loc['a']

10

** uso con una lista de etiquetas **

In [25]:
s.loc[['d','a']]

d    40
a    10
dtype: int64

** uso con rangos **

In [26]:
s.loc['b':'d']

b    20
c    30
d    40
dtype: int64

#### 1.7 Uso del método iloc
Permite extraer datos de la serie a partir de los índices implícitos.
** Uso con un número entero **

In [27]:
s = pd.Series([10,20,30,40], index = ['a','b','c','d'])
s.iloc[1]

20

In [28]:
s.iloc[-1]

40

In [29]:
s.iloc[-3]

20

** Uso con lista o array de números **


In [30]:
s.iloc[[2,0]]

c    30
a    10
dtype: int64

In [31]:
s.iloc[[-2,0]]

c    30
a    10
dtype: int64

** Uso con un rango de números **
**Recuerda a:b a está incluido y b no.**

In [32]:
s.iloc[1:3]

b    20
c    30
dtype: int64

#### 1.8 Uso de arrays booleanos
Es una opción muy interesante para seleccionar de una serie.

In [41]:
s = pd.Series([5,2,-3,7,8,4])
s[[True,False,False,True,True, False]]

0    5
3    7
4    8
dtype: int64

Se puede utilizar una expresión para que sea más sencillo.
A continuación, lo que hacemos es generar una serie pandas de booleanos con el valor True en aquellos índices en los que se cumple la expresión. Para extraer el valor de los True hay que meter la expresión en la serie como se muestra más abajo.

In [46]:
print(type(s > 2))
s > 2

<class 'pandas.core.series.Series'>


0     True
1    False
2    False
3     True
4     True
5     True
dtype: bool

Se puede usar el resultado para extraer valores de la serie s

In [47]:
s[s>2]

0    5
3    7
4    8
5    4
dtype: int64

**El método iloc no acepta expresiones**. Sólo se pueden usar expresiones si el objeto que se trata es un array de numpy, como en este caso es una serie daría error.

Como vemos en el siguiente ejemplo, lo mejor es usar ***values***

In [48]:
s.iloc[(s>2).values]

0    5
3    7
4    8
5    4
dtype: int64

Pandas recomienda el método loc cuando trabajamos con selección basada en booleanos.

In [49]:
s.loc[s>2]

0    5
3    7
4    8
5    4
dtype: int64

#### 1.9 Selección Aleatoria
El método sample como hemos visto antes, sirve para extraer un número aleatoria de valores. Permite especificar:
* El número de elementos a extraer. (n)
* La fracción del número total de elementos a extraer. (frac)
Se oyede especificar:
* si la extracción se realiza con reemplaz o no (replace)
* Los pesos a aplicar a cada elemento para realizar extracción ponderada (weights).
* Semilla para el generador de números aleatorios (random_state)

In [50]:
s = pd.Series([10,20,30,40], index = ['a','b','c','d'])
s.sample(3, random_state=18) #Se extraen 3 elementos

d    40
b    20
a    10
dtype: int64

In [51]:
s.sample(frac=0.6, random_state=18) #Aqui indicamos que queremos extraer el 60% de los valores de la serie original

d    40
b    20
dtype: int64

Si no hay reemplazo, el número máximo de elementos que podemos extraer coincide con la longitud de la serie. Pero si la extracción la realizamos con reemplazo, podemos especificar cualquier número de elementos:

In [52]:
s.sample(10, random_state=18, replace=True)

c    30
d    40
a    10
b    20
c    30
b    20
c    30
c    30
c    30
a    10
dtype: int64

#### 2. Método pop
Extrae y elimina un elemento de una serie cuyo índice se indica como argumento.


In [53]:
s = pd.Series([1,2,3,4,5])
s.pop(1) #indica el índice

2

In [54]:
s #Como hemos hecho pop, ese elemento es eliminado.

0    1
2    3
3    4
4    5
dtype: int64

Si la serie tiene un índice explícito, entonces pop hace referencia a este.

In [55]:
s = pd.Series([1,2,3,4,5], index = ['a','b','c','d','e'])
s.pop('a')

1

In [56]:
s

b    2
c    3
d    4
e    5
dtype: int64

In [57]:
s.pop(2) #en este caso hemos obtenido error, porque la serie tiene índices explícitos por tanto es necesario hacer referencia ellos como en el caso anterior

KeyError: 2