# <font color='blue'>**Librería Pandas**</font>

La librería **pandas** proporciona estructuras de datos y funciones de alto nivel que permiten trabajar con datos estructurados de manera muy cómoda. Estas estructuras y funciones son, normalmente, de las más usadas en análisis de datos.

<img src='https://drive.google.com/uc?export=view&id=1cc63iaYdq6YzJDdUWyWDFZ4YzeB2lBa2' width="300" align="center" style="margin-right: 20px">

Los principales objetos ofrecidos por pandas son el dataframe, estructura tabular bidimensional y la serie, ambas basadas en el array multidimensional de NumPy. Aun cuando NumPy ofrece una muy conveniente y eficiente estructura para el almacenamiento de datos, el ndarray, éste presenta importantes limitaciones cuando, durante un análisis, se hace necesaria más flexibilidad a la hora de aplicar etiquetas a nuestros datos, gestionar valores inexistentes, realizar agrupaciones por etiquetas, etc., limitaciones que son resueltas por las estructuras de más alto nivel ofrecidas por pandas.

La documentación oficial está disponible en el sitio web oficial de <a href="https://pandas.pydata.org/">pandas</a>.

Esta librería se importa habitualmente con el alias **pd**:

In [3]:
import pandas as pd

## <font color='blue'>**Estructuras de datos en pandas**</font>

## <font color='blue'>**Series**</font>

Las **series** son estructuras unidimensionales conteniendo un array de datos (de cualquier tipo soportado por NumPy) y un array de etiquetas que van asociadas a los datos, llamado índice (*index* en inglés):

In [24]:
ventas = pd.Series([15, 12, 21, 38], index = ["Ene", "Feb", "Mar", "Abr"])
ventas

Ene    15
Feb    12
Mar    21
Abr    38
dtype: int64

Los elementos de la serie pueden extraerse con el nombre de la serie y, entre corchetes, el índice (posición) del elemento o su etiqueta (si la tiene):

In [25]:
ventas[0]

15

In [26]:
ventas["Ene"]

15

Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas, etc.) siempre que sea posible aplicar la función *hash* sobre ellas.

**Nota: La función hash devuelve el valor hash del objeto cedido como parámetro -si tiene uno-. Los valores hash son enteros. Los valores numéricos que, al ser comparados, devuelven el valor True tienen el mismo valor hash asociado, incluso si son de distinto tipo.**

La relación entre una etiqueta y un valor se mantendrá salvo que lo modifiquemos explícitamente. Esto quiere decir que filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.

Los índices de las etiquetas son inmutables, es decir, aun cuando es posible asignar a una serie un nuevo conjunto de etiquetas a través del atributo *index*, intentar modificar un único valor del index va a devolver un error.

Al igual que ocurre con el array NumPy, una serie pandas solo puede contener datos de un mismo tipo. En la imagen anterior puede apreciarse el índice a la izquierda ("Ene", "Feb" y "Mar") y los datos a la derecha (15, 12 y 21). El tipo de la serie, accesible a través del atributo dtype, coincide con el tipo de los datos que contiene:

In [27]:
ventas.dtype

dtype('int64')

Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos index y values de la serie, respectivamente:

In [28]:
ventas.index

Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object')

In [None]:
ventas.values

La serie tiene un atributo **name**, atributo que también encontramos en el índice. Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:

In [None]:
ventas.name

In [None]:
ventas

In [None]:
ventas.index.name = "Meses"
ventas

El atributo **axes** da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [None]:
ventas.axes

El atributo **shape** nos devuelve el tamaño de la serie:

In [None]:
ventas.shape

El listado completo de los atributos de las series lo puedne encontrar en la documentación oficial de pandas,  pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**DataFrames**</font>

Los **dataframes** son estructuras tabulares de datos orientadas a columnas, con etiquetas tanto en filas como en columnas:

In [17]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
    index = ["Ene", "Feb", "Mar", "Abr"]
)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Para crear el dataframe anterior hemos usado el constructor **pd.DataFrame** y le hemos pasado un diccionario y una lista: las claves del diccionario serán los nombres de las columnas, sus valores, los valores de las columnas, y los valores de la lista se convertirán en las etiquetas de filas.

Una columna solo puede contener un tipo de datos, pero cada columna del dataframe puede contener un tipo de datos diferente. Podemos acceder a los tipos de las columnas con el atributo dtypes:

In [18]:
ventas.dtypes

Entradas        int64
Salidas         int64
Valoración      int64
Límite         object
Cambio        float64
dtype: object

Las etiquetas de filas y de columnas -los índices- son accesibles a través de los atributos **index** y **columns**, respectivamente:

In [19]:
ventas.index

Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object')

In [None]:
ventas.columns

La nomenclatura usada por pandas puede resultar un tanto confusa en lo que se refiere a los índices: tanto la estructura que contiene las etiquetas de filas como la que contiene las etiquetas de columnas son objetos de tipo *Index*, pero, como se ha comentado, el índice de filas se denomina también *index* (minúsculas), y el de columna, *columns*.

Además, el nombre de "indice" se aplica normalmente a la referencia de un dato en una estructura según su posición. Por ejemplo, en la lista $m = ["a", "b"]$, el índice del primer elemento es el número o valor que, añadido entre corchetes tras el nombre de la lista, nos permite acceder al elemento. Así, el índice del elemento "a" en la lista mencionada es 0, y el índice del elemento "b" es 1, lo que no es del todo coherente con el concepto de "índice" de una estructura pandas cuando lo especificamos explícitamente.

Para evitar esta confusión, a lo largo de esta documentación hablaremos normalmente de *"índices"* (en plural) para referirnos a estas dos estructuras (de filas y columnas), de *"índice"* (en singular) para referirnos al índice de etiquetas del eje vertical, y de *"índice de columnas"* y de *"índice de filas"* siempre que sea necesario remarcar a cuál estamos refiriéndonos.

El *eje 0* es el correspondiente al índice de filas (eje vertical) y el *eje 1* al índice de columnas (eje horizontal). Como puede verse en los ejemplos anteriores, ambos índices son de tipo *"objeto"* (ya se ha comentado que, concretamente, son objetos de tipo Index).

El atributo axes devuelve una lista con los ejes de la estructura (dos, al tratarse de una estructura bidimensional):

In [None]:
ventas.index.name = "Meses"
ventas.columns.name = "Métricas"
ventas

De forma semejante a como ocurría con las series, el atributo **values** de un dataframe nos permite acceder a los valores del dataframe, con formato array NumPy 2d:

In [None]:
ventas.values

Este array tendrá un tipo u otro en función de los tipos de las columnas del dataframe, acomodándose de forma que englobe a todos ellos.

Y un dataframe también tiene un atributo **shape** que nos informa de su dimensionalidad y del número de elementos en cada dimensión. Podemos ver en el siguiente ejemplo que el dataframe ventas tiene 4 filas y 5 columnas:

In [None]:
ventas.shape

Información adicional sobre los dataframes en la página de la documentación oficial de pandas, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.

## <font color='blue'>**Creación de series y dataframes**</font>

Hay dos constructores principales para la creación de series y dataframes: **pd.Series** y **pd.DataFrames**, respectivamente. Estos constructores permiten crear estas estructuras a partir de diferentes tipos de variables: diccionarios, listas, etc. También permiten personalizar las etiquetas de los índices, y filtrar y reordenar las etiquetas de columnas.

## <font color='blue'>**Creación de series**</font>

El constructor para la creación de una serie pandas es **pandas.Series**. Este constructor acepta tres parámetros principales:

* **data**: estructura de datos tipo array, iterable, diccionario o valor escalar que contendrá los valores a introducir en la serie.

* **index**: estructura tipo array con la misma longitud que los datos. Si este argumento no se añade al crear la serie, se agregará un índice por defecto formado por números enteros desde 0 hasta $n-1$, siendo $n$ el número de datos.

* **dtype**: tipo de datos para la serie. Si no se especifica, se inferirá a partir de los datos.

Los valores del índice, no tienen que ser necesariamente distintos aunque ciertas operaciones pueden generar un error si no soportan la posibilidad de tener índices duplicados.

### <font color='blue'>**Creación de una serie a partir de una lista o de un array NumPy**</font>

In [None]:
s = pd.Series([7, 5, 3])
s

Al no haberse especificado un índice, se asigna uno automáticamente con los valores 0, 1 y 2.

Si repetimos esta instrucción especificando un índice:

In [None]:
s = pd.Series([7, 5, 3], index = ["Ene", "Feb", "Mar"])
s

Vemos cómo el índice por defecto ha sido sustituido por el indicado. En este caso, la longitud del índice deberá coindicir con el número de elementos de la lista.

Los mismos comentarios podrían hacerse si, en lugar de una lista, hubiésemos partido de un array NumPy para crear la serie.

### <font color='blue'>**Creación de una serie a partir de un diccionario**</font>

Si partimos de un diccionario para crear la serie:


In [None]:
d = {"Ene":7, "Feb":5, "Mar":3}
s = pd.Series(d)
s

El constructor utiliza las claves como etiquetas del índice, y los valores del diccionario como valores de la serie.

Si incluimos el índice explícitamente en el constructor, los valores en la serie se tomarán en el orden en el que estén en el índice explícito. Además, si en éste hay valores que no pertenecen al conjunto de claves del diccionario, se añaden a la serie con un valor *NaN*:

In [None]:
d = {"Ene":7, "Feb":5, "Mar":3}
s = pd.Series(d, index = ["Abr", "Mar", "Feb", "Ene"])
s

En este ejemplo, hemos creado la serie especificando el índice que hemos formado dando la vuelta a las claves del diccionario ("Mar", "Feb" y "Ene") y hemos añadido a la lista de etiquetas el valor "Abr", que no pertenece al conjunto de claves del diccionario. Se ha añadido a la serie, pero se le ha asignado el valor *NaN*. Es precisamente la presencia de este valor lo que modifica el tipo de la serie a float.

### <font color='blue'>**Creación de una serie a partir de un escalar**</font>

Si los datos se reducen a un escalar (no a una lista con un único elemento, sino a un sencillo escalar como 7 o 15.4) será necesario añadir el índice explícitamente. El número de elementos de la serie coincidirá con el número de elementos del índice, y el escalar será asignado como valor a todos ellos.

In [None]:
s = pd.Series(7, index = ["Ene", "Feb", "Mar"])
s

## <font color='green'>**Ejercicio 1**</font>

Escribir un programa que pregunte al usuario por las ventas de un rango de años y muestre por pantalla una serie con los datos de las ventas indexada por los años, antes y después de aplicarles un descuento del 10%.

In [21]:
#Solución
import pandas as pd

inicial = 2000 
final = 2002
ventas = []

for i in range(inicial, final + 1):
    ventas.append(int(input(f'Ingrese ventas del año {i}:')))
    
antes = pd.Series(ventas, index = range(inicial, final + 1), name = 'Ventas')
despues = pd.Series(antes * 0.9, index = range(inicial, final + 1), name = 'Ventas con 10% de descuento')

print(antes)
print(despues)

wena = antes * 0.9

wena

Ingrese ventas del año 2000:243
Ingrese ventas del año 2001:234
Ingrese ventas del año 2002:324
2000    243
2001    234
2002    324
Name: Ventas, dtype: int64
2000    218.7
2001    210.6
2002    291.6
Name: Ventas con 10% de descuento, dtype: float64


2000    218.7
2001    210.6
2002    291.6
Name: Ventas, dtype: float64

#### <font color='green'>**Fin ejercicio 1**</font>

## <font color='blue'>**Creación de dataframes**</font>

El constructor de dataframes es **pandas.DataFrame**. Acepta cuatro parámetros principales:

* **data**: estructura de datos ndarray (array NumPy), diccionario u otro dataframe.

* **index**: índice a aplicar a las filas. Si no se especifica, se asignará uno por defecto formado por números enteros entre 0 y $n-1$, siendo $n$ el número de filas del dataframe.

* **columns**: etiquetas a aplicar a las columnas. Al igual que ocurre con el índice de filas, si no se añade se asignará uno automático formado por números enteros entre 0 y $n-1$, siendo $n$ el número de columnas.

* **dtype**: tipo a aplicar a los datos. Solo se permite uno. Si no se especifica, se infiere el tipo de cada columna a partir de los datos que contengan.

Los valores de los índices de filas y columnas no tienen por qué ser necesariamente distintos.

### <font color='blue'>**Creación de un dataframe a partir de un diccionario de listas**</font>

En este escenario partimos del siguiente diccionario de listas de valores:

In [None]:
elementos = {
    "Número atómico":[1, 6, 47, 88],
    "Masa atómica":[1.008, 12.011, 107.87, 226],
    "Familia":["No metal", "No metal", "Metal", "Metal"]
}
elementos

Y creamos el dataframe con él como primer argumento:

In [None]:
tabla_periodica = pd.DataFrame(elementos)
tabla_periodica

El dataframe se ha creado situando las claves del diccionario como etiquetas de columnas y las listas asociadas a cada clave como columnas del dataframe. Al no haber especificado un índice de filas, éste ha tomado valores por defecto (0, 1, 2 y 3).

A continuación repetimos la misma operación especificando las etiquetas tanto para filas como para columnas, utilizando los parámetros index y columns, respectivamente:

In [None]:
tabla_periodica = pd.DataFrame(elementos,
                               index = ["H", "C", "Ag", "Ra"],
                               columns = ["Familia", "Número atómico", "Masa atómica"]
                               )
tabla_periodica

Con el parámetro *columns* podemos especificar el orden en el que se mostrarán las columnas o incluso filtrar éstas (no incluyendo todas las etiquetas presentes en el diccionario como claves), pero no cambiar sus nombres. De hecho, si alguna de las etiquetas incluidas en dicho argumento no apareciese en el conjunto de claves del diccionario, se crearía una columna con dicho nombre pero con todos sus valores fijados a *NaN*.

Si, en lugar de listas de datos como valores del diccionario, hubiesen sido arrays NumPy o series, el procedimiento habría sido exactamente el mismo.

### <font color='blue'>**Creación de un dataframe a partir de un array NumPy**</font>

En el caso de partir de un array NumPy, si no se especifican las etiquetas de filas y columnas, se asignan las etiquetas por defecto:

In [29]:
import numpy as np
unidades_datos = np.array([[2, 5, 3, 2], 
                           [4, 6, 7, 2],
                           [3, 2, 4, 1]])
unidades_datos

array([[2, 5, 3, 2],
       [4, 6, 7, 2],
       [3, 2, 4, 1]])

In [30]:
unidades = pd.DataFrame(unidades_datos)
unidades

Unnamed: 0,0,1,2,3
0,2,5,3,2
1,4,6,7,2
2,3,2,4,1


Las filas del array NumPy siguen siendo interpretadas como filas del dataframe.

Si especificamos las etiquetas de filas y columnas, el resultado es diferente:

In [None]:
unidades = pd.DataFrame(unidades_datos,
                        index = [2015, 2016, 2017],
                        columns = ["Ag", "Au", "Cu", "Pt"])
unidades

### <font color='blue'>**Creación de un dataframe a partir de una lista de diccionarios**</font>

También podemos partir de un conjunto de diccionarios, cada uno definiendo el contenido de lo que será una fila del dataframe:

In [None]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Au":2, "Cu":4, "Pt":1}
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                        index = [2015, 2016, 2017])
unidades

Los diccionarios deberán compartir el mismo conjunto de claves que se interpretarán como etiquetas de columnas. Si las etiquetas no coinciden, se crearán todas las columnas pero se asignarán *NaN* a los valores desconocidos:

In [None]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Pb":2, "Cu":4, "Pt":1}
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                        index = [2015, 2016, 2017])
unidades

En este ejemplo, el año 2017 tiene una clave, *Pb*, que no existe en los otros dos diccionarios. Y este mismo año carece de la clave Au que sí se encuentra en los otros dos. Vemos cómo los datos no coincidentes se han rellenado con *NaN*.

### <font color='blue'>**Otros métodos**</font>

Además de poder partir de otras estructura además de las vistas (de un diccionario de tuplas, por ejemplo), hay dos constructores adicionales: **pandas.DataFrame.from_dict**, que crea un dataframe a partir de un diccionario de diccionarios o de secuencias tipo array, y **pandas.DataFrame.from_records**, que parte de una lista de tuplas o de arrays NumPy con un tipo estructurado.

## <font color='green'>**Ejercicio 2**</font>

Escribir programa que genere y muestre por pantalla un DataFrame con los datos de la tabla siguiente:

| Mes     | Ventas | Gastos |
| ------- | -----: | -----: |
| Enero   |  30500 |  22000 |
| Febrero |  35600 |  23400 |
| Marzo   |  28300 |  18100 |
| Abril   |  33900 |  20700 |
| Mayo    |  31450 |  25620 |
| Junio   |  33040 |  25500 |

In [20]:
#Solución
data = {'Mes':['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio'],
        'Ventas': [30500, 35600, 28300, 33900, 31450, 33040],
        'Gastos': [22000, 23400, 18100, 20700, 25620, 2550]}

ventas = pd.DataFrame(data)
ventas

Unnamed: 0,Mes,Ventas,Gastos
0,Enero,30500,22000
1,Febrero,35600,23400
2,Marzo,28300,18100
3,Abril,33900,20700
4,Mayo,31450,25620
5,Junio,33040,2550


## <font color='green'>**Fin ejercicio 2**</font>

## <font color='blue'>**Inspección de series y dataframes**</font>

Normalmente, una vez hemos cargado un bloque de datos en una serie o un dataframe, lo primero que haremos será inspeccionarlo para confirmar que los datos cargados son los esperados y que la lectura se ha realizado correctamente. Para esto tenemos los métodos **head**, **tail** y **sample**, con un comportamiento semejante en series y dataframes, que nos muestran un subconjunto de los datos cargados. Además, los métodos **describe** e **info** nos proporcionan información adicional sobre los datos.


El método **pandas.Series.head** para series y **pandas.DataFrame.head** para dataframes, devuelve los primeros elementos de la estructura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función.

In [None]:
entradas = pd.Series([11, 18, 12, 16, 9, 16, 22, 28, 31, 29, 30, 12],
                     index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])
entradas

In [None]:
salidas = pd.Series([9, 26, 18, 15, 6, 22, 19, 25, 34, 22, 21, 14],
                    index = ["ene", "feb", "mar", "abr", "may", "jun", "jul", "ago", "sep", "oct", "nov", "dic"])

In [None]:
almacen = pd.DataFrame({"entradas":entradas, "salidas":salidas})
almacen["neto"] = almacen.entradas - almacen.salidas
almacen

En este ejemplo estamos mostrando todos los elementos de la estructura pues son apenas 12. En un caso real podemos estar hablando de miles o de millones.

Ahora, para mostrar apenas los primeros elementos de la estructura, ejecutamos el **método head**:

In [None]:
entradas.head()

In [None]:
almacen.head()

Los métodos **pandas.Series.tail** (para series) y **pandas.DataFrame.tail** (para dataframes) son semejantes a los anteriores, pero muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren:

In [None]:
entradas.tail()

In [None]:
almacen.tail()

Es frecuente que los datos que hayamos leído estén ordenados según algún criterio, y que el bloque de datos mostrado por los métodos head o tail estén formados por datos muy parecidos. Y en ocasiones nos puede convenir ver datos aleatorios de nuestra estructura. Para esto podemos utilizar los métodos **pandas.Series.sample** para series y **pandas.DataFrame.sample** para dataframes. Al contrario que head o tail, el número de elementos devueltos por defecto es uno, por lo que, si deseamos extraer una muestra mayor, tendremos que indicarlo como primer argumento:

In [None]:
entradas.sample(5)

In [None]:
almacen.sample(5)

El método **describe** devuelve información estadística de los datos del dataframe o de la serie (de hecho, este método devuelve un dataframe). Esta información incluye el número de muestras, el valor medio, la desviación estándar, el valor mínimo, máximo, la mediana y los valores correspondientes a los percentiles 25% y 75%.

Siguiendo con el ejemplo visto en la sección anterior:

In [None]:
almacen.describe()

El método acepta el parámetro **percentiles** conteniendo una lista (o semejante) de los percentiles a mostrar. También acepta los parámetros **include** y **exclude** para especificar los tipos de las características a incluir o excluir del resultado.

El método **info** muestra un resumen de un dataframe, incluyendo información sobre el tipo de los índices de filas y columnas, los valores no nulos y la memoria usada:

In [None]:
almacen.info()

Solo los dataframes tienen implementado este método.

Un método de las series pandas extremadamente útil es **pandas.Series.value_counts**. Este método devuelve una estructura conteniendo los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente:

In [31]:
s = pd.Series([3, 1, 2, 1, 1, 4, 1, 2, np.nan])
s.value_counts()

1.0    4
2.0    2
4.0    1
3.0    1
dtype: int64

Como puede apreciarse, por defecto no se incluyen los valores nulos. Este comportamiento puede modificarse haciendo uso del parámetro **dropna**:

In [32]:
s.value_counts(dropna = False)

1.0    4
2.0    2
NaN    1
4.0    1
3.0    1
dtype: int64

En lugar de devolver los valores distintos y el número de ocurrencias, este método también puede agrupar los datos en "bins" y devolver una lista de bins (indicando sus márgenes) con el número de valores en cada uno de ellos. Por ejemplo, si quisiéramos agrupar los valores de la serie anterior en dos bins podríamos hacerlo de la siguiente forma:

In [37]:
s.value_counts(bins = 2)

(0.996, 2.5]    6
(2.5, 4.0]      2
dtype: int64

Vemos que se han creados los dos bins, el primero conteniendo los valores entre 0.996 y 2.5 (intervalo abierto por la izquierda y cerrado por la derecha), bin en el que hay 6 valores, y el segundo conteniendo los valores entre 2.5 y 4 (intervalo también abierto por la izquierda y cerrado por la derecha), bin en el que hay 2 valores.

## <font color='green'>**Ejercicio 3**</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de l@s alumn@s del grupo y devuelva una serie con la altura mínima, la máxima, media y la desviación estándar.


In [84]:
#Solución
def height_analysis(x):
    height_series = pd.Series(group)
    return height_series.describe()[['min','max','mean','std']]
    
height_analysis(group)


min     1.690000
max     1.810000
mean    1.738000
std     0.047645
dtype: float64

## <font color='green'>**Fin ejercicio 3**</font>

## <font color='blue'>**Selección de datos**</font>

Un aspecto relativamente complejo involucrado en el uso de las **series** y los **dataframes** -principalmente con esta última estructura- es la extracción o selección de datos. Esta relativa complejidad viene derivada principalmente de la abundancia de alternativas y de las excepciones a la norma que algunas de ellas aparentan ser.

## <font color='blue'>**Selección de datos en series**</font>

Una serie pandas consta de un array de datos y un array de etiquetas (el índice o index). Si al crear la serie no se ha especificado el índice, ya sabemos que se asignará uno implícito por defecto.

In [4]:
s = pd.Series([10, 20, 30, 40])
s

0    10
1    20
2    30
3    40
dtype: int64

Es posible seleccionar los valores haciendo referencia al índice asignado con la misma notación que en un diccionario (la llamada "notación corchetes" o "*square bracket notation*").

In [8]:
print(s[0])
print(s[2])


10
30


30

Usando esta sintaxis, si no se ha especificado un índice explícito, los índices negativos no están permitidos.

Si se asignan índices de forma explícita:

In [17]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

Es posible seleccionar los elementos usando el índice explícito o el implícito:

In [None]:
print(s["a"], s[0])

In [None]:
print(s["d"], s[3])

Con esta sintaxis, sí está permitido hacer uso de índices negativos para referirnos a los elementos desde el final de la estructura.

Si los índices asignados son números enteros (al igual que las etiquetas del índice implícito), el índice implícito queda desactivado.

In [None]:
s = pd.Series([10, 20, 30, 40], index = [3, 2, 1, 0])
s

In [None]:
s[0]

en cuyo caso no es posible usar índices negativos.

In [None]:
try:
  s[-1]
except:
  print("Error")


También es posible **seleccionar rangos de valores**. De esta forma, si usamos un rango numérico en una serie en la que hemos definido un índice explícito.



In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s[1:3]

Se puede observar que el rango se interpreta como haciendo referencia al índice implícito, y se incluyen los valores desde el primer índice incluido, hasta el último sin incluir.

Si no se incluye alguno de los límites, el comportamiento es el estándar en Python (si no se incluye el primer valor, se consideran todos los elementos desde el principio, y si no se incluye el último valor, se consideran todos los elementos hasta el final).

In [None]:
s[1:]

In [None]:
s[:3]

Para incluir los valores desde el primer índice hasta el último índice, ambos incluidos, se procede de la siguiente manera.

In [None]:
s[:"c"]

In [None]:
s["b":]

Una posible fuente de confusión viene derivada del hecho de que, usando rangos, es posible hacer referencia tanto a las etiquetas como a los índices numéricos. Si se utilizaron etiquetas, se debe hacer referencia a las etiquetas.

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s["b":"c"]

Si utilizamos números, hacemos referencia a los índices numéricos.

In [None]:
s[1:3]

¿Y qué ocurre si nuestras etiquetas son números? siempre que se usen rangos con números se estará haciendo referencia a los índices numéricos. No es posible hacer referencia a las etiquetas.

In [None]:
s = pd.Series([10, 20, 30, 40], index = [3, 2, 1, 0])
s[1:3]

In [None]:
s[1]

En el caso anterior, se devolvió el valor cuya etiqueta es 1 (si existe), o el valor cuya posición es 1 si dicha etiqueta no existe y el índice explícito no es numérico.


In [20]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s[1]

20

Es debido a esto que existen los métodos **loc** e **iloc**. Estos métodos hacen una referencia explícita a etiquetas o posiciones, respectivamente, eliminando cualquier duda al respecto de su interpretación.

Al igual que con los array NumPy, es posible seleccionar datos de una serie utilizando una **lista de valores**.

In [21]:
s[[3,1]]

d    40
b    20
dtype: int64

En este ejemplo, la lista contiene los números 3 y 1, y son los valores correspondientes a estos índices -y en el orden especificado- los devueltos por la instrucción.

El resultado devuelto sigue siendo una serie pandas.

In [22]:
type(s[[3,1]])

pandas.core.series.Series

Con esta notación, en el caso de que la serie tenga un índice explícito numérico, los valores de la lista se interpretan como haciendo referencia al índice explícito.

También es posible usar el método **pandas.Series.get** para extraer un valor de forma segura.

In [26]:
s.get(2)

30

In [27]:
s

a    10
b    20
c    30
d    40
dtype: int64

In [30]:
s.get(7)

Si la clave indicada no existe, la función devuelve *None* por defecto (es posible personalizar este valor).

Las series pandas y los dataframes disponen de los versátiles métodos **loc** e **iloc**.

El método **pandas.Series.loc** permite seleccionar un grupo de elementos por etiquetas.

Como argumento de este método puede utilizarse una única etiqueta.

In [31]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.loc["b"]

20

En este caso el argumento se interpreta siempre como etiqueta del índice, nunca como posición en dicho índice aun cuando se pase un número entero que no pertenece al conjunto de etiquetas y pueda representar una posición válida.

In [32]:
s.loc[0]

TypeError: cannot do label indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [0] of <class 'int'>

También podemos pasar al método una lista de etiquetas, en cuyo caso se extraen los valores correspondientes a dichas etiquetas y en el orden en el que se incluyen en la lista.

In [33]:
s.loc[["d", "a"]]

d    40
a    10
dtype: int64

Otra opción es pasar al método un rango.

In [34]:
s["b":"d"]

b    20
c    30
d    40
dtype: int64

En este caso es importante recalcar que, tal y como se ve en la imagen anterior, el método va a devolver todos los elementos entre los límites indicados **ambos incluidos**.

El método **pandas.Series.iloc** permite extraer datos de la serie a partir de los índices implícitos que éstos tienen asignados.

La opción más simple es utilizar como argumento un número entero (el primer elemento de la serie recibe el índice cero).

In [35]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.iloc[1]

20

In [36]:
s.iloc[0]

10

In [37]:
s.iloc[3]

40

Si el número es negativo, hace referencia al final de la serie (en este caso, el último elemento recibe el índice -1) -y esto tanto si se ha especificado un índice explícito como si no-.

In [38]:
s.iloc[-1]

40

In [39]:
s.iloc[-4]

10

Una segunda opción es pasar como argumento una lista o array de números, en cuyo caso se devuelven los elementos que ocupan dichas posiciones en el orden indicado en la lista o array.

In [None]:
s.iloc[[2, 0]]

También podemos incluir en esta lista números negativos.

In [None]:
s.iloc[[-2, 0]]

Una tercera opción es usar como argumento un rango de números.

In [None]:
s.iloc[1:3]

Si el rango tiene la forma a:b, se incluyen todos los elementos desde aquel cuyo índice es a (incluido) hasta el que tiene el índice b (sin incluir).

Si no se especifica el primer valor, se consideran todos los elementos desde el principio de la serie.



In [None]:
s.iloc[:3]

Y, si no se especifica el segundo valor, se consideran todos los elementos hasta el final de la serie.

In [None]:
s.iloc[2:]

También pueden usarse valores negativos para indicar el comienzo y/o el final del rango.

In [None]:
s.iloc[1:-1]

Otra opción para seleccionar elementos de una serie pandas es **usar arrays booleanos**.

In [43]:
s = pd.Series([5, 2, -3, 7, 8, 4])
s

0    5
1    2
2   -3
3    7
4    8
5    4
dtype: int64

Podemos seleccionar un conjunto de valores de la misma haciendo referencia al nombre de la serie y, entre los corchetes, una lista o array de booleanos.

In [44]:
s[[True, False, False, True, True, False]]

0    5
3    7
4    8
dtype: int64

En este caso hemos seleccionado los elementos cuyos índices son 0, 3 y 4, que son los índices que ocupan los booleanos True en la lista de booleanos usada (lista cuya longitud deberá ser igual a la longitud de la serie pues, de no ser así, se devuelve un error).

Esta lista o array de booleanos no tiene porqué ser especificada de forma explícita, puede ser el resultado de una expresión.

In [45]:
print(type(s > 2))
s > 2

<class 'pandas.core.series.Series'>


0     True
1    False
2    False
3     True
4     True
5     True
dtype: bool

Aquí, hemos usado la expresión $s > 2$ para generar una serie pandas de booleanos, serie en la que los valores toman el valor True cuando el valor con el mismo índice de $s$ toma un valor mayor estricto que 2.

Podemos entonces usar este resultado para extraer valores de la serie $s$.

In [46]:
s[s>2]

0    5
3    7
4    8
5    4
dtype: int64

Este mismo enfoque puede ser usado con los métodos pandas.Series.loc y pandas.Series.iloc ya vistos en las secciones anteriores con algún matiz adicional.

El método loc puede ser usado tanto con un array explícito de booleanos:

In [47]:
s.loc[[True, False, False, True, True, True]]

0    5
3    7
4    8
5    4
dtype: int64

o como con una expresión que genera, por ejemplo, una serie pandas de booleanos:

In [48]:
s.loc[s>2]

0    5
3    7
4    8
5    4
dtype: int64

Sin embargo, el método iloc tiene un comportamiento ligeramente diferente. Puede ser usados con arrays explícitos de booleanos:

In [49]:
s.iloc[[True, False, False, True, True, True]]

0    5
3    7
4    8
5    4
dtype: int64

Pero el uso de expresiones que generen una serie pandas de booleanos devuelve un error:

In [51]:
s.iloc[s>2]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

Si el objeto que está generando la estructura de booleanos ($s$, en $s > 2$) fuese un array NumPy en lugar de tratarse de una serie pandas, sí sería posible usar el método .iloc. De esta forma, la expresión $s > 2$ genera, como hemos visto, una serie pandas, pero podemos extraer los valores con el atributo values, que genera un array numpy.

In [55]:
type((s>2).values)

numpy.ndarray

In [56]:
(s>2).values

array([ True, False, False,  True,  True,  True])

Si usamos esta expresión para realizar la selección en la serie original $s$, el resultado es ahora el correcto.

In [57]:
s.iloc[(s>2).values]

0    5
3    7
4    8
5    4
dtype: int64

**Es por ello que pandas recomienda usar el método loc cuando trabajemos con selección basada en booleanos.**

También podemos realizar una selección aleatoria a partir de una serie. El método **pandas.Series.sample** permite especificar o bien el número de elementos a extraer o bien la fracción del número total de elementos a extraer (parámetros **n** y **frac**, respectivamente), pudiendo especificar si la extracción se realiza con reemplazo o no (parámetro **replace**), los pesos a aplicar a cada elemento para realizar una extracción aleatoria ponderada (parámetro **weights**), y una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro **random_state**).

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.sample(3, random_state = 18)

In [None]:
s.sample(frac = 0.6, random_state = 18)

Si no hay reemplazo, el número máximo de elementos que podemos extraer coincide con la longitud de la serie. Pero si la extracción la realizamos con reemplazo, podemos especificar cualquier número de elementos.

In [61]:
s.sample(10, random_state = 18, replace = True)

2   -3
3    7
0    5
5    4
1    2
2   -3
2   -3
0    5
0    5
2   -3
dtype: int64

In [60]:
s

0    5
1    2
2   -3
3    7
4    8
5    4
dtype: int64

El método **pandas.Series.pop** extrae y elimina un elemento de una serie cuyo índice se indica como argumento.

In [62]:
s = pd.Series([1, 2, 3, 4])
s.pop(1)

2

In [63]:
s

0    1
2    3
3    4
dtype: int64

Devuelve un error en caso de que no exista.

In [64]:
s = pd.Series([1, 2, 3, 4])
try:
  s.pop(18)
except:
  print("Error")

Error


Si la serie tiene un índice explícito, el argumento de pop hará referencia a este índice.

In [65]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.pop("a")

10

In [66]:
s

b    20
c    30
d    40
dtype: int64

Y para el índice no explícito, devolverá un error.

In [67]:
try:
  s.pop(0)
except:
  print("Error")

Error


## <font color='green'>**Ejercicio 4**</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de l@s alumn@s del grupo y devuelva una serie con las alturas mayores a 1.75 ordenadas de mayor a menor.

In [86]:
#Solución
import numpy as np
d = {'benjamin':1.81,'daniela':1.60,'francisco':1.85,'hugo':1.69,'bastian':1.69}
alturas = pd.Series(d)
alturas_orden = alturas[alturas > 1.75].sort_values(ascending = False)

print(alturas_orden)

francisco    1.85
benjamin     1.81
dtype: float64


In [83]:
group = {'benjamin':1.81,'daniela':1.76,'francisco':1.72,'hugo':1.71,'bastian':1.69}

def above_height(x, default_height = 1.75):
    height_series = pd.Series(group)
    return height_series[height_series > default_height].sort_values(ascending = False)


## <font color='green'>**Fin ejercicio 4**</font>

## <font color='blue'>**Selección de datos en dataframes**</font>

Desde un punto de vista semántico, un dataframe puede ser considerado semejante a un diccionario de series, en el que las claves son los nombres de las columnas y los valores, las columnas (que son series pandas).

In [96]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Sí", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
    index = ["Ene", "Feb", "Mar", "Abr"] 
)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Sí,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Es posible utilizar la sintaxis de los diccionarios para seleccionar la columna Entradas.

In [97]:
print(type(ventas["Entradas"]))

<class 'pandas.core.series.Series'>


In [98]:
ventas["Entradas"]

Ene    41
Feb    32
Mar    56
Abr    18
Name: Entradas, dtype: int64

Esto significa que podemos realizar una selección en dicho resultado para, por ejemplo, extraer el valor correspondiente a febrero.

In [99]:
ventas["Entradas"]["Feb"]

32

In [100]:
ventas["Entradas", "Feb"]

KeyError: ('Entradas', 'Feb')

Usar comas para separar no funciona y por lo tanto nos entrega un error.

Si, una vez seleccionada una columna, le asignamos una lista o array (o serie) de valores de la misma longitud, estamos modificando dicha columna del dataframe.

In [101]:
ventas["Entradas"] = [33, 25, 40, 12]
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,33,17,66,No,1.43
Feb,25,54,54,Sí,1.16
Mar,40,6,49,No,-0.67
Abr,12,78,66,No,0.77


Si asignamos un único valor escalar, este se propaga por toda la columna.

In [102]:
ventas["Salidas"] = 1
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,33,1,66,No,1.43
Feb,25,1,54,Sí,1.16
Mar,40,1,49,No,-0.67
Abr,12,1,66,No,0.77


Si estuviésemos asignando un array cuya longitud no coincidiese con la de la columna (y no estuviésemos asignando un escalar), obtendríamos un error.

Si asignamos una serie pandas se consideran los índices del dataframe y de la serie, haciendo coincidir los valores cuyos índices sean los mismos en ambas estructuras (si dicha columna no existe, se crea). En el caso de que haya valores en la serie con índices que no se encuentren en el dataframe, se descartan. Y en el caso de que haya índices en el dataframe que no se encuentren en la serie, se asigna un valor *NaN*.

Así, en el siguiente ejemplo, estamos añadiendo una serie cuyos índices son "Ene", "Mar", "Abr" y "May". Es decir, la serie no tiene un valor para el índice "Feb" que sí se encuentra en el dataframe (se asigna un *NaN*), e incluye el índice "May" que no se encuentra en el dataframe y se descarta.

In [103]:
ventas["Perdidas"] = pd.Series([5, 4, 6, 8], index = ["Ene", "Mar", "Abr", "May"])
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas
Ene,33,1,66,No,1.43,5.0
Feb,25,1,54,Sí,1.16,
Mar,40,1,49,No,-0.67,4.0
Abr,12,1,66,No,0.77,6.0


Los valores asignados pueden proceder del propio dataframe:

In [104]:
ventas["Ganancias"] = (ventas["Entradas"]*2) - (ventas["Valoración"]/10)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas,Ganancias
Ene,33,1,66,No,1.43,5.0,59.4
Feb,25,1,54,Sí,1.16,,44.6
Mar,40,1,49,No,-0.67,4.0,75.1
Abr,12,1,66,No,0.77,6.0,17.4


También podemos acceder a una columna con la llamada "notación punto".

In [105]:
ventas.Ganancias

Ene    59.4
Feb    44.6
Mar    75.1
Abr    17.4
Name: Ganancias, dtype: float64

Deberemos tener en cuenta que con esta notación no es posible crear nuevas columnas ni eliminarlas y que solo funcionará si el nombre de la columna no incluye espacios en blanco y no coincide con ninguna palabra reservada de Python.

El uso de un rango numérico entre los corchetes realiza una selección de filas, lo que puede parecer una cierta incoherencia.

In [106]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [107]:
df[2:5]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14


El equipo de pandas lo justifica diciendo que esta sintaxis resulta extremadamente conveniente al tratarse de un tipo de selección frecuentemente usada. Esto es cierto, pero el hecho de que selecciones aparentemente semejantes (df[1,2], df[[1, 2]], df[1:3, 5], etc.) devuelvan un error no facilita su comprensión.

Se devuelven las filas entre el primer valor del rango (incluido) y el último (sin incluir). También podríamos haber usado las etiquetas del índice.

In [None]:
df["b":"d"]

In [None]:
df[:3]

In [None]:
df[:"c"]

Al situar entre los corchetes una lista de etiquetas, estaremos seleccionando columnas en el orden en el que aparecen en la lista y con formato dataframe:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
print(type(df[["C", "A"]]))
df[["C", "A"]]

También es posible extraer de forma segura una columna de un dataframe usando el método **pandas.DataFrame.get**. Éste extrae la columna indicada devolviendo un valor alternativo (por defecto *None*) si dicha columna no existe.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.get("A")

In [None]:
df.get("D")

Al igual que ocurre con las series, el método **pandas.DataFrame.loc** permite seleccionar un conjunto de filas y columnas por etiquetas. Este método acepta diferentes argumentos.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.loc["c"]

El resultado es una serie pandas con las etiquetas de columnas del dataframe original como índice.

Es necesario mencionar que el argumento será siempre interpretado como etiqueta, aun cuando pueda estar representando un índice válido.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [1, 3, 0, 4],
                  columns = ["A", "B", "C"])
df.loc[0]

Si la etiqueta no existe, se devuelve un error (nuevamente, aun cuando la etiqueta sea un número que pueda estar representando un índice válido).

Si pasamos a loc una lista de etiquetas, estaremos extrayendo las filas cuyas etiquetas se indican, y en el orden en el que aparezcan en la lista.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.loc[["c", "a", "e"]]

Al contrario de lo que ocurre cuando solo indicamos una etiqueta, el resultado es un dataframe. Y lo es aún cuando la lista contenga un único elemento.

In [None]:
print(type(df.loc[["c"]]))
df.loc[["c"]]

Otra opción es utilizar rangos limitados por etiquetas.

In [None]:
df.loc["b":"d"]

Obsérvese que la selección incluye todas las filas incluyendo las dos de los extremos del rango.

En los ejemplos vistos hasta ahora estamos extrayendo una o varias filas para todas las columnas. En posible, por supuesto, especificar qué filas y qué columnas exactas queremos extraer. Así, si utilizamos una única etiqueta para indicar la fila, y una única etiqueta para indicar la columna, separadas por una coma, estaremos extrayendo un único valor.

In [None]:
df.loc["a", "C"]

Podemos sustituir una de las dos etiquetas por el símbolo de dos puntos (:), lo que supondrá seleccionar todos los elementos de ese eje.

In [None]:
df.loc[:, "A"]

Esto supone que, por ejemplo, las dos expresiones siguientes devuelven el mismo resultado:

In [None]:
df.loc["b"]

In [None]:
df.loc["b",:]

Los métodos vistos pueden combinarse. Podemos, por ejemplo, seleccionar la intersección de las filas e y c (en este orden) y la columna B.

In [None]:
df.loc[["e", "c"], "B"]

El método **pandas.DataFrame.iloc** permite realizar selecciones por posición. Tal y como cabría esperar, pueden utilizarse diferentes tipos de argumentos que determinan qué elementos se están extrayendo.

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[2]

El número indicado siempre será tratado como posición, y no como etiqueta.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [3, 2, 1, 0],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[3]

Si el número es negativo, hace referencia al final del dataframe.



In [None]:
df.iloc[-1]

Si utilizamos como argumento una lista o array de números, estamos extrayendo las filas cuyos índices son los elementos del mismo, y en el orden en el que aparecen en él.

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.iloc[[3, 1]]

Si utilizamos un rango de números, como en el siguiente ejemplo en el que indicamos como argumento 2:4, estamos extrayendo las filas cuyos índices van de la primera cifra del rango incluida (2 en el ejemplo) hasta la última cifra sin incluir (4 en el ejemplo).

In [None]:
df.iloc[2:4]

Como suele ser habitual, si no se especifica el primer valor, se consideran las filas desde la primera. Y si no se especifica el último valor, se consideran las filas hasta la última (incluida).

In [None]:
df.iloc[:3]

In [None]:
df.iloc[4:]

También pueden usarse valores negativos para especificar el comienzo o el final del rango.

Si añadimos un segundo argumento, estaremos haciendo referencia al índice de columna.

In [None]:
df.iloc[3, 1]

En ocasiones nos encontraremos con que resultaría de utilidad poder realizar selecciones mezclando etiquetas e índices, y los métodos vistos, loc e iloc, solo permiten el uso de etiquetas o de índices, respectivamente. Para poder mezclar ambos tipos de referencias podemos recurrir a los métodos **pandas.Index.get_loc** y **pandas.Index.get_indexer**, métodos asociados a los índices de un dataframe.

El primero, **get_loc**, devuelve el índice de la etiqueta que se adjunte como parámetro. El segundo, **get_indexer**, devuelve un array con los índices de las etiquetas que se adjunten en forma de lista como parámetro.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df                                                                                                                   

Si aplicamos los métodos comentados al índice de columnas haciendo referencia a etiquetas de columnas, obtenemos los siguientes resultados:

In [None]:
df.columns.get_loc("B")

In [None]:
df.columns.get_indexer(["A", "C"])

En el primer caso hemos pasado la etiqueta "B" y el método ha devuelto su índice (1). En el segundo caso hemos pasado una lista de etiquetas y hemos obtenido un array con sus índices.

Si ejecutamos estos métodos en el índice de filas:

In [None]:
df.index.get_loc("d")

In [None]:
df.index.get_indexer(["c", "e"])

Ahora que sabemos cómo convertir etiquetas en sus índices equivalentes, podemos seleccionar datos de un dataframe mezclando etiquetas e índices si convertimos las etiquetas y utilizamos el método iloc ya visto. Por ejemplo, si quisiéramos extraer del anterior dataframe el dato que ocupa la fila "c" y la columna de índice 2, podríamos conseguirlo del siguiente modo:

In [None]:
df.iloc[df.index.get_loc("c"), 2]

O si deseásemos obtener de las filas 5 y 3 (en este orden) los valores correspondientes a las columnas C y A (en este orden), podríamos hacerlo con la siguiente expresión:

In [None]:
df.iloc[[5, 3], df.columns.get_indexer(["C", "A"])]

Otro método especialmente útil para la selección es el uso de listas de booleanos. Nuevamente puede parecer un tanto incoherente aunque, en este caso, su uso sí es extremadamente conveniente.

Si partimos del mismo dataframe usado en la sección anterior, podemos crear una lista de booleanos (que, por motivos puramente pedagógicos, asignamos a una variable, *mask*) y realizar la selección con ella entre los corchetes. Vemos a continuación que este método también selecciona filas del dataframe.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
mask = [True, False, True, False, False, True]
df[mask]

El vector de booleanos deberá tener la misma longitud que el índice de filas (es decir, un booleano por fila) y la selección devolverá aquellas filas para las que el elemento correspondiente del vector tome el valor *True*.

La verdadera potencia de este estilo de selección se pone de manifiesto cuando la máscara se genera a partir de los datos del propio dataframe. Por ejemplo, si queremos seleccionar las filas para las que el valor de la columna A sea mayor que 7:

In [None]:
df[df.A > 7]

Este tipo de filtrados resultan muy frecuentes en entornos de análisis, de ahí que la posibilidad de realizarlos sin necesidad de recurrir a métodos adicionales (loc, iloc o get, por ejemplo) resulte tan conveniente.

Con loc podemos usar directamente una expresión de comparación como la vista:

In [None]:
df.loc[df.B > 6]

Sin embargo, con iloc nos veremos obligados a extraer los valores del dataframe resultante de la comparación -tal y como ocurría con las series- pues, de otro modo, obtendremos un error.

In [None]:
df.iloc[(df.B > 6).values]

**Evitamos problemas si, tal y como sugiere pandas, utilizamos siempre el método loc.**

Al igual que ocurre con las series, también los dataframes tienen un método que permite extraer elementos del mismo de forma aleatoria: **pandas.DataFrame.sample**. Este método permite especificar el número de elementos a extraer (o el porcentaje respecto del total, parámetros **n** y **frac**, respectivamente), si la extracción se realiza con reemplazo o no (parámetro **replace**), los pesos a aplicar a los elementos para realizar una extracción aleatoria ponderada (parámetro **weights**) y una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro **random_state**). También es posible indicar el eje a lo largo del cual se desea realizar la extracción (por defecto se extraen filas, correspondiente al eje 0).

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.sample(3, random_state = 18)

Si especificamos como eje el valor 1, estaremos extrayendo columnas.

In [None]:
df.sample(2, random_state = 18, axis = 1)

Si hacemos uso del parámetro **frac**, podemos especificar el porcentaje de elementos a extraer.

In [None]:
df.sample(frac = 0.6, random_state = 18)

Otra forma de extraer datos es la proporcionada por el método **pandas.DataFrame.pop**, que extrae y elimina una columna de un dataframe.

In [None]:
df = pd.DataFrame(np.arange(15).reshape([3, 5]),
                  index = ["a", "b", "c"],
                  columns = ["A", "B", "C", "D", "E"])
df

In [None]:
columna = df.pop("B")
columna

In [None]:
df

## <font color='green'>**Ejercicio 5**</font>

Escribir una función que reciba un DataFrame con el formato del ejercicio 2, una lista de meses, y devuelva el balance (ventas - gastos) total para los siguientes periodos:

1. Enero a Marzo
2. Abril a Junio
3. Todo el periodo

In [143]:
#Solución
data = {'Mes':['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio'],
        'Ventas': [30500, 35600, 28300, 33900, 31450, 33040],
        'Gastos': [22000, 23400, 18100, 20700, 25620, 2550]}

# Crear df
ventas = pd.DataFrame(data)

# Crear columna balance
ventas['Balance'] = ventas['Ventas'] - ventas['Gastos']

# Hacer indice Mes
ventas = ventas.set_index('Mes')

# 1.
print(ventas['Balance']['Enero':'Marzo'])

# 2.
print(ventas['Balance']['Abril':'Junio'])

#3.
print(ventas['Balance'])

Mes
Enero       8500
Febrero    12200
Marzo      10200
Name: Balance, dtype: int64
Mes
Abril    13200
Mayo      5830
Junio    30490
Name: Balance, dtype: int64
Mes
Enero       8500
Febrero    12200
Marzo      10200
Abril      13200
Mayo        5830
Junio      30490
Name: Balance, dtype: int64


## <font color='green'>**Fin ejercicio 5**</font>