# Selección de datos

___
>Un aspecto importante y que puede ser complejo es la extracción o selección de datos. Se dice complejo por el DataFrame que tiene en ambudancia de alternativas y excepciones para dicha tarea.

In [1]:
import pandas as pd 
import numpy as np

## Selección de datos en Series

Recordar que una Serie pandas consta de un array de datos y un array de etiquetas (llamado index). Si no se especifica el index al crear la serie, este se asigna de manera automatica.

In [2]:
s = pd.Series([10, 20, 30, 40])
s

0    10
1    20
2    30
3    40
dtype: int64

Se puede seleccionar valores haciendo **referencia por indice** asignado. Utilizando la misma notación ***corchetes*** (utilizada en diccionarios / ***square bracket notation***)

In [4]:
#Acceso a los elementos que se encuentran en la primera y tercera posición.
print(s[0])
print(s[2])

10
30


In [6]:
#Ahora repetimos lo anterior, asignado un index de forma explicita.
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

In [10]:
#Se puede seleccionar elementos usando el indice explicito o implicito
print(s["a"], s[0], sep=",")
print("\n********\n", s["d"], s[3], sep="," )

10,10

********
,40,40


**Nota** Se pueden utilizar indices negativos para referirnos a los elementos desde el final de la estructura. **Solo aplica esto si se asginaron etiquetas, es decir se especifico el argumento index**

In [11]:
print("Muestro el ultimo elemento de la serie: ", s[-1])

Muestro el ultimo elemento de la serie:  40


Si el index es un array de numero enteros, entonces el indice implicito queda desactivado, es decir **solo se Puede usar los indices del array y tampoco esta permitido el indice negativo**

In [12]:
s = pd.Series([10, 20, 30, 40], index = [4, 3, 1, 0])
s

4    10
3    20
1    30
0    40
dtype: int64

In [15]:
try:
    s[-1]
    
except: 
    print("Error")

Error


### Uso de rangos
___
Seguiendo con la notación tipo diccionario, es posible seleccionar rangos de valores. Podemos usar el un rango numerico, ***si y solo si se definio un `index` explicito**

In [2]:
s  = pd.Series([10, 20, 30, 40], index= ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

Al usar el rango se interpreta que se hace referencia al indice implicito, y se incluyen los valores desde el primer indice incluido y el ultimo no inclusive `[val_ini: val_fin-1]`

In [4]:
s[0:3] #Selecciono con rango desde la posicion inicial hasta el penultimo elemento.

a    10
b    20
c    30
dtype: int64

Si no se incluye algunos de los limites, se comparta al estilo Python, ejemplo, si omite **el primer valor del rango, se interpreta que desde principio**

In [13]:
s[:3]

a    10
b    20
c    30
dtype: int64

Por el contrario si **no incluye el ultimo valor, se consideran todos los elementos hasta el final**.

In [7]:
s[1:]

b    20
c    30
d    40
dtype: int64

**¿Que pasa si utilizo los indices explicitos?** el comportamiento cambia ligeramente

In [14]:
s["a":"c"]

a    10
b    20
c    30
dtype: int64

In [15]:
#Se puede omitir alguno de lo indices explicitos
print(s[:"c"])
print(s["b":])

a    10
b    20
c    30
dtype: int64
b    20
c    30
d    40
dtype: int64


### Uso de listas
___
**Se pueden usar listas (Listas de python)** para hacer referencia a valores de la serie. ***NO CONFUNDIR CON RANGOS***
Cuando se usan listas de valores:
* Lo que devuelve es una Serie.
* Devuelven valores de la serie, de acuerdo al orden que estan indicados en la lista.
* Si la serie tiene un **index explicito numerico**, los valores de la lista se interpretan como haciendo referencia al indice explicito.

In [17]:
#Ejmeplo de seleccion de valores en una serie, utilizando lista de valores
print("Comprobar que lo que retorna es una Serie: ", type(s[[3,1]]))
s[[3,1]]
#Observar que el orden es de acuerdo al indicado en la lista de valores

Comprobar que lo que retorna es una Serie:  <class 'pandas.core.series.Series'>


d    40
b    20
dtype: int64

### Metodo get
Al usar el método **`pandas.Series.get`** para extraer un valor de forma segura, dicho metodo recibe una clave (similar al indice) para obtener el valor:

In [18]:
s.get(2)

30

**Nota:**Si la clave indicada no existe, la función devuelve None por defecto (Se puede personalizar este valor)

In [23]:
resultado = s.get(7) #La clave no EXISTE
print(f"Valor es: {resultado}")

Valor es: None


### Uso del metodo loc en Series

El método `pandas.Series.loc` permite seleccionar un grupo de elementos por etiquetas.
* Uso de un etiqueta simple
* Uso con una lista de etiquetas
* Uso de rangos

In [2]:
s = pd.Series([10, 20, 30, 40], index= ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

**Uso con etiqueta simple**
>Con este tipo de argumento, se interpreta como una etiqueta del `index`, ***nunca*** como una posicion en dicho indice.
Por lo tanto si se pasa un numero entero que no pertenece al `index` y pueda representar una posición valida, **Marcara ERROR**

In [5]:
s.loc["b"]
#s.loc[0] #Error

20

**Uso con una lista de etiquetas**
> También podemos pasar al método una lista de etiquetas, en cuyo caso **se extraen los valores correspondientesa** dichas etiquetas y en el orden en el que se incluyen en la lista.

In [6]:
s.loc[["d", "a"]]

d    40
a    10
dtype: int64

**Uso rangos**
> Adicionalmente se puede pasar un rango al método, solo que este devuelve los valores que esten en los limites indicados. **Ambos incluidos**

In [7]:
s.loc["b":"d"]

b    20
c    30
d    40
dtype: int64

### Uso del metodo iloc en Series

El método `pandas.Series.iloc` permite extraer datos de la serie a partir de los indices implicitos que estos tienen asignados. Se puede ocupar como argumento:
* Un numero entero
* Usar una lista o array de numeros enteros
* Uso con un rango de números.


**Uso con numero entero**
>Esta es la opción mas simple, utilizar un simple numero entero como argumento (**el primer elemento de la serie recibe el indice cero**).
Considerar que **si el numero es negativo, este hara referencia al final de la serie**, siento el ultimo elemento ***-1***

In [9]:
s = pd.Series([10, 20, 30, 40], index= ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

In [11]:
print(s.iloc[1], s.iloc[0], s.iloc[3], sep="\n")

20
10
40


In [13]:
s.iloc[-4] #Hace referencia al ultimo elemento

10

**Uso con lista o array de numeros**
> Otra opción es pafar como argumento una lista o array de numero, en cuyo caso se **devuelven elementos que ocupan dichas posiciones en elr orden indicado de la lista o array**.

In [22]:
s.iloc[[2, 0]]

c    30
a    10
dtype: int64

In [24]:
#Tambien se pueden incluir lista con numeros negativos.
s.iloc[[-2,0]]

c    30
a    10
dtype: int64

**Uso con rango de números**

Una tercera opción es usar como argumento un rango de números, la sintaxis es `a:b`, donde **a es incluido y b (no inclusive)**. Aplica lo mismo de toda la vida, si se omite el primer valor del rango, se interprera como **desde el comienzo de la serie**, de forma analoga si se omite el segundo valor del rango.

In [25]:
s.iloc[1:3]

b    20
c    30
dtype: int64

In [26]:
s.iloc[:3]

a    10
b    20
c    30
dtype: int64

In [27]:
s.iloc[2:]

c    30
d    40
dtype: int64

In [28]:
s.iloc[1:-1]

b    20
c    30
dtype: int64

### Uso de arrarys booleanos

Tambien es posible seleccionar elementos de una serie, partiendo un array de valores booleanos.


In [2]:
s = pd.Series([5, 2, -3, 7, 8, 4])
s

0    5
1    2
2   -3
3    7
4    8
5    4
dtype: int64

La lista de booleanos usada, **debe ser igua a la longitud de la serie**, de lo contrario marcara error.

In [30]:
s[[True, False, False, True, True, False]]

0    5
3    7
4    8
dtype: int64

Dicha lista no tiene que ser definida de forma explicita, puede ser el resultado de una expresión que arroje valores booleanos

In [31]:
print(type(s > 2))
s > 2 #Retorna True donde cada valor de la Serie cumpla la condicion de que sea mayor a 2

<class 'pandas.core.series.Series'>


0     True
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [5]:
#Como la expresion anterior nos da una serie de valores booleanos, podemos usarla para extraer los elementos de la serie
#que cumplan dicha condicion
print(f"Serie:\n{s}")
s[s>2]

Serie:
0    5
1    2
2   -3
3    7
4    8
5    4
dtype: int64


0    5
3    7
4    8
5    4
dtype: int64

**Se puede utilizar con el metodo loc, se pueden usar arrays booleanos explictos como implicitos**

In [6]:
s.loc[[True, False, False, True, True, True]]


0    5
3    7
4    8
5    4
dtype: int64

In [7]:
s.loc[s > 2]

0    5
3    7
4    8
5    4
dtype: int64

Sin embargo con el metodo iloc, existe un problema **si se usan expresiones que generen una serie pandas (es decir array implicito)**

In [11]:
#s.iloc[s>2] #Genera ERROR
#Si usamos el atributo values para extraer los valores, esto nos genera un array NUMPY, con lo que podemos usar expresiones pandas
print(f"Tipo de dato: {type((s > 2).values)}")
print(f"Contenido del array: {(s > 2).values}")
#Aplicando el metodo iloc
s.iloc[(s > 2).values]

Tipo de dato: <class 'numpy.ndarray'>
Contenido del array: [ True False False  True  True  True]


0    5
3    7
4    8
5    4
dtype: int64

Usando **array explicto el metodo iloc** funciona normal

In [12]:
s.iloc[[True, False, False, True, True, True]]

0    5
3    7
4    8
5    4
dtype: int64

### Seleccion aleatoria
>Con el método `pandas.Series.sample` permite extraer elementos de una serie, dicho método tiene los parametros:
* **n** permite especificar el numero de elementos a extraer
* **frac** Se utiliza para indicar una fraccion del numero total de elementos a extraer.
* **replace** indica si la extracción se realiza con reemplazo o no.
* **weights** indica los pesos a aplicar a cada elemento para realizar una extracción aleatoria ponderada.
* **random_state** "semilla" para generador de numero aleatorios que asegure la reproducibilidad de la extracción.

In [2]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

Podemos extraer 3 elementos y aplicando un valor 18 como semilla del generador de numero aleatorios.

In [3]:
s.sample(3,random_state=18)

d    40
b    20
a    10
dtype: int64

En el siguiente ejemplo se ha extraido el ***60%*** de los valores de la serie original haciendo uso del parametro **frac**

In [4]:
s.sample(frac=0.6, random_state=18)

d    40
b    20
dtype: int64

La extracción con remplazo se puede escificar cualquier numero de elementos, aunque sea mayor a la longitud de la serie, si se omite, solo es posible extraer el numero de elementos que tiene la serie

In [5]:
s.sample(10, random_state=18, replace=True)

c    30
d    40
a    10
b    20
c    30
b    20
c    30
c    30
c    30
a    10
dtype: int64

### El método pop

> `pandas.Series.pop` ***extrae y elimina*** un elemento de una serie cuyo indice se indica como argumento

In [6]:
s = pd.Series([1, 2, 3, 4])
s.pop(1) #Extrae el elemento que esta en la posicion 1, en este caso el 2

2

In [8]:
s #Observar como los indices NO se recorren

0    1
2    3
3    4
dtype: int64

In [9]:
try:
    s.pop(18)
except:
    print("ERROR, NO EXISTE EL INDICE")

ERROR, NO EXISTE EL INDICE


**Si la serie tiene un indice explicito, el argumento de pop hara referencia a este indice**

In [10]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.pop("a")

10

NO AL IMPLICITO, ERROR

In [11]:
try:
    s.pop(0)
except:
    print("Error")

Error


## Selección de datos en DataFrames

### Aspectos generales

In [2]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoracion": [66, 54, 49, 66],
    "Limite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
    index=["Ene", "Feb","Mar", "Abr"]
)
ventas

Unnamed: 0,Entradas,Salidas,Valoracion,Limite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Se puede utilizar la sintaxis de diccionarios de Python, para acceder una columna.

In [3]:
print("El tipo de dato es:", type(ventas["Entradas"])) #Observar que al utilizar la sintaxis diccionario, se retorna una serie de pandas
ventas["Entradas"]

El tipo de dato es: <class 'pandas.core.series.Series'>


Ene    41
Feb    32
Mar    56
Abr    18
Name: Entradas, dtype: int64

Podemos **acceder** al valor del mes febrero, de la columna Entradas.

In [4]:
ventas["Entradas"]["Feb"]

32

Se puede **modificar una columna** de un DataFrame, asignando un array (o serie) de valores de la ***misma longitud***

In [21]:
ventas["Entradas"] = [33, 25, 40, 12]
ventas

Unnamed: 0,Entradas,Salidas,Valoracion,Limite,Cambio
Ene,33,17,66,No,1.43
Feb,25,54,54,Si,1.16
Mar,40,6,49,No,-0.67
Abr,12,78,66,No,0.77


Si se asigna un **unico valor escalar**, este se propaga por toda la columna.

In [None]:
ventas["Salidas"] = 1
ventasas

 Si se asigna una Serie a una columna de DataFrame, se considera que los indices se hacen coincidir, en caso que no se encuentren se asigna un valor NaN o se decarta.

In [24]:
#Observe como se añade una columna Perdidas, pero dicha serie tiene el indice Feb, que si se encuentra en el dataframe se 
#asigna NaN, mientras que el indice May se descarta
ventas["Perdidas"] = pd.Series([5, 4, 6, 8], index=["Ene", "Mar", "Abr","May"])
ventas

Unnamed: 0,Entradas,Salidas,Valoracion,Limite,Cambio,Perdidas
Ene,33,17,66,No,1.43,5.0
Feb,25,54,54,Si,1.16,
Mar,40,6,49,No,-0.67,4.0
Abr,12,78,66,No,0.77,6.0


Se pueden asignar valores que **proceden del mismo dataFrame**

In [25]:
ventas["Ganancias"] = (ventas["Entradas"] * 2) -(ventas["Valoracion"] / 30)
ventas

Unnamed: 0,Entradas,Salidas,Valoracion,Limite,Cambio,Perdidas,Ganancias
Ene,33,17,66,No,1.43,5.0,63.8
Feb,25,54,54,Si,1.16,,48.2
Mar,40,6,49,No,-0.67,4.0,78.366667
Abr,12,78,66,No,0.77,6.0,21.8


Tambien se puede acceder con la notación "Punto" Similar a SQL tabla.columna, aqui es dataframe.columna
**Nota**: Con esta notación no es posible crear nuevas columnas, ni eliminarlas, ademas es muy esctricta con el nombre de la columna.

In [26]:
ventas.Ganancias

Ene    63.800000
Feb    48.200000
Mar    78.366667
Abr    21.800000
Name: Ganancias, dtype: float64

### Uso de rangos

El uso de rangos entre corchetes realiza una selección de filas.

In [6]:
df = pd.DataFrame(np.arange(18).reshape([6,3]),
                 index= ["a", "b", "c", "d", "e", "f"],
                 columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


**Observe**: que se devuelven las filas entre el primer valor del rango (incluido) y el ultimo (sin incluir)

In [7]:
df[2:5]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14


**Pero** si se usan las etiquetas del **indice (columns)**, se incluyen tanto la fila primera del rango como la segunda

In [8]:
df["b":"d"]

Unnamed: 0,A,B,C
b,3,4,5
c,6,7,8
d,9,10,11


Por supuesto si se omite el primer o segundo valor del rango, se entiende que se quiere seleccionar desde la primera o hasta ultima fila correspondiente.

In [9]:
df[:3] #Todas las filas desde la primera hata la 3

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [11]:
df["c":] #Todas las filas, desde la etiqueta c hasta la f, la cual es la ultima etiqueta.

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [20]:
df[0:1]["A"] #Seleccionamos la primera fila, solo de la columna A

a    0
Name: A, dtype: int32

### Uso de listas
Si al realizar la selección, situamos entre corchetes una lista de etiquetas, estaremos seleccionando columnas en el orden en el que aparecen en la lista y con formato dataframe.

In [22]:
print(type(df[["C","A"]]))
df[["C","A"]] #Obser que los primeros corchetes son del dataframe, que indica que queremos seleccionar algo, mientras que los 2
#corchetes son de la lista de etiquetas

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,C,A
a,2,0
b,5,3
c,8,6
d,11,9
e,14,12
f,17,15


### Método get

> Se puede extraer una columna de manera **segura** usando el método `pandas.DataFrame.get`, devuelve ***None*** SI dicha columna no existe.

In [24]:
print(type(df.get("A")))
df.get("A") #Devuelve una Serie de Pandas.

<class 'pandas.core.series.Series'>


a     0
b     3
c     6
d     9
e    12
f    15
Name: A, dtype: int32

In [27]:
print(df.get("D")) #No EXISTE la columna D

None


### Método loc

Permite seleccionar un conjunto de filas y columnas por etiquetas. Este método acepta diferentes argumentos
* Etiqueta simple
* Lista de etiquetas
* Rangos

In [2]:
df = pd.DataFrame(np.arange(18).reshape([6,3]),
                 index= ["a", "b", "c", "d", "e", "f"],
                 columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


#### Uso con etiqueta simple
El resultado sera una **serie Pandas** con las **etiquetas de las columnas del dataframe original** como indice.
**Nota**: Devuelve error, cuando se especifique un numero como indice, aun cuando sea un indice valido.

In [3]:
df.loc["c"]
#df.loc[1] #devuelve error

A    6
B    7
C    8
Name: c, dtype: int32

####  Uso de una lista de etiquetas

si pasamos al método loc una lista con etiquetas, estaremos extrayendo las filas cuyas etiquetas se indican y el orden que estas aparezcan.

In [5]:
df.loc[["c", "a", "e"]]

Unnamed: 0,A,B,C
c,6,7,8
a,0,1,2
e,12,13,14


Sin embargo si se indica una **sola etiqueta en la lista, el resultado seguiera siendo un DataFrame**.

In [6]:
print(type(df.loc[["c"]]))
df.loc[["c"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C
c,6,7,8


#### Uso con rangos

Se pueden usar rango limitados por etiquetas, **recuerde** que al usar etiquetes se incluyen ambos valores del rango

In [7]:
df.loc["b":"d"]

Unnamed: 0,A,B,C
b,3,4,5
c,6,7,8
d,9,10,11


#### Extracción de filas y columnas (PONGAMOS A PRUEBA TODO!!)

In [9]:

df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


#### Extracción de un unico valor (Indicando que fila y columna, seperadas por una coma)

In [8]:
df.loc["a","C"] #Primero es la fila y columna

2

#### Todas las filas de una columna, usar el operador :

In [10]:

df.loc[:, "A"] 

a     0
b     3
c     6
d     9
e    12
f    15
Name: A, dtype: int32

In [11]:
df.loc["b"]

A    3
B    4
C    5
Name: b, dtype: int32

In [12]:
df.loc["b",:]

A    3
B    4
C    5
Name: b, dtype: int32

#### Se pueden combinar los metodos | Seleccion de la intersección de las filas e y c (En este orden) y la columna B

In [13]:
df.loc[["e", "c"], "B"]

e    13
c     7
Name: B, dtype: int32

### Método iloc

El método `pandas.DataFrame.iloc` permite realizar selecciones por posición

In [14]:
df = pd.DataFrame(np.random.randint(0,10,18).reshape([6,3]),
                 index= ["a", "b", "c", "d", "e", "f"],
                 columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,1,4,9
b,0,2,9
c,1,7,0
d,2,9,5
e,4,7,8
f,0,1,1


#### Uso de un numero entero
>El numero indicado **siempre sera tratado como posicion** y NO como etiqueta.

In [18]:
df.iloc[2] #Referencia a la tercera fila, se cuenta desde 0

A    1
B    7
C    0
Name: c, dtype: int32

**Si el numero es negativo** Hace referencia al final del dataframe.

In [16]:
df.iloc[-1] #Referencia a la ultima fila

A    0
B    1
C    1
Name: f, dtype: int32

#### Uso con lista o aaray de numeros
>Cuando se utiliza un array o lista de numeros, estamos extrayecdo las filas cuyos indices son elementos el mismo, y en el orden en el que aparecen en el.

In [19]:
df.iloc[[3,1]]

Unnamed: 0,A,B,C
d,2,9,5
b,0,2,9


In [21]:
#Se pueden incluir indices negativos
df.iloc[[1,-1]]

Unnamed: 0,A,B,C
b,0,2,9
f,0,1,1


#### Uso con un rango de números
> Recuerde utilizar la notación `valInicial:valorFinal`, donde ambos valores son numeros enteros a:b, tambien el ultimo valor no sera incluido.

**Extracción de las filas, cuyos indices son 2 y 4, donde 4 no se incluye**

In [22]:
df.iloc[2:4]

Unnamed: 0,A,B,C
c,1,7,0
d,2,9,5


**Nota**: Si omite el primer valor del rango, se interpretara como desde el primer indice hasta el segundo valor del rango.

In [23]:
df.iloc[:3]

Unnamed: 0,A,B,C
a,1,4,9
b,0,2,9
c,1,7,0


De forma **Analoga** si se omite el segundo valor del rango.

In [24]:
df.iloc[4:]

Unnamed: 0,A,B,C
e,4,7,8
f,0,1,1


In [28]:
df.iloc[2:-1]

Unnamed: 0,A,B,C
c,1,7,0
d,2,9,5
e,4,7,8


#### Extracción de filas y columnas
**Si se añade una coma** el segundo argumento estara haciendo referencia al indice de la columna.

In [29]:
df.iloc[3, 1]

9

In [31]:
df

Unnamed: 0,A,B,C
a,1,4,9
b,0,2,9
c,1,7,0
d,2,9,5
e,4,7,8
f,0,1,1


**Extracción de 2 filas de una determinada columna**

In [33]:
df.iloc[0:3,1]

a    4
b    2
c    7
Name: B, dtype: int32

In [35]:
df.iloc[[2],[1,2]] #Extraemos en forma de dataframe una fila de la columnas BC

Unnamed: 0,B,C
c,7,0


### Selección con índices y etiquetas simultáneamente

En ocasiones es necesario combinar o mezclar etiquetas e índices. Para ello estan los métodos que estan**asociados a los indices del dataframe (index, columns)**:
* `pandas.index.get_loc`: Devuelve el índice de la etiquete que se pase como parametro.
* `pandas.index.get_indexer`: Devuelve un array con los índices de la etiquetas que se pasen  en forma de lista como parametro.

In [2]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                 index= ["a", "b", "c", "d", "e", "f"],
                 columns= ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


**¿Como obtener los indices de las columnas?**

In [3]:
#Obtenemos el indices de la columna B
df.columns.get_loc("B")

1

In [4]:
#Obtenemos los indices de las columnas A Y C
df.columns.get_indexer(["A", "C"])

array([0, 2], dtype=int64)

**¿Que pasa si se ejecutan estos métodos en el indice de filas (index)?**

In [5]:
df.index.get_loc("d")

3

In [6]:
df.index.get_indexer(["c","e"])

array([2, 4], dtype=int64)

**Ahora si podemos combinar indices y etiquetas**

In [46]:
#Extraer el dato de la ocupa la fila c y columna de indice 2
df.iloc[df.index.get_loc("c"), 2]

8

In [51]:
#Todas las filas de la columnas B Y A en ese orden
df.iloc[:, df.columns.get_indexer(["B", "A"])]

Unnamed: 0,B,A
a,1,0
b,4,3
c,7,6
d,10,9
e,13,12
f,16,15


### Uso de listas de booleanos o expresiones booleanas

> En ocaciones resulta util seleccionar filas o columnas que cumplan cierta condiciones, para ellos es util, hacer unos de listas de valores booleanos.

In [7]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                 index= ["a", "b", "c", "d", "e", "f"],
                 columns= ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


**Por simplificación** normalmente se crea un mask, que no es mas que una lista de la misma longitud que el indice de filas, y cada valor booleano de la lista hara referencia a cada indice del dataframe

In [54]:
mask = [True, False, True, False, False, True]
df[mask]

Unnamed: 0,A,B,C
a,0,1,2
c,6,7,8
f,15,16,17


La selección anterior, devuelve aquellas filas para que el elemento correspondiente del vector `mask` tome el valor `True`

**La verdadera potencia** se aprecia cuando la mascara se genera a partir de los propios datos del dataframe, por ejemplo: Si se desea seleccionar las filas para que el valor de la **columna A mayor que 7**

In [8]:
df[df.A > 7]

Unnamed: 0,A,B,C
d,9,10,11
e,12,13,14
f,15,16,17


Combinación de seleccion booleana con los métodos loc, iloc o get

In [9]:
df.loc[df.B > 6]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


Sin embargo con el método iloc, es obligatorio extraer los valores del dataframe **resultante** de la comparación

In [12]:
print(type(df.B > 6))
df.iloc[(df.B > 6).values]

<class 'pandas.core.series.Series'>


Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


### Selección aleatoria