# <font color='blue'>**Librería Pandas - Parte 2**</font>

In [1]:
import numpy as np
import pandas as pd

# <font color='blue'>**Edición de Series**</font>

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a las etiquetas.



In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

In [None]:
s[0] = -1
s["b"] = -2
s

Podemos asignar un valor a un rango, definido por índices o por etiquetas, asignando el valor a cada uno de los elementos involucrados en el rango.

In [None]:
s[1:3] = 0
s

In [None]:
s["b":"d"] = -2
s

Si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye.

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión.

In [None]:
s[1:3] = [0, 1]
s

In [None]:
s["b":"d"] = [10, 11, 12]
s

Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor.

In [None]:
s["f"] = 0
s

Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en la serie, se devolverá un error.

Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes.

In [None]:
s["f":"h"] = -1
s

Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso se seleccionan los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente.

In [None]:
s[["c", "a"]] = [1, 2]
s

In [None]:
s[[1, 0]] = [20, 21]
s

## <font color='blue'>**Eliminación de elementos en una Serie**</font>

El método **pandas.Series.drop** devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

In [None]:
r = s.drop(1)
r

En este ejemplo se ha pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También se puede pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas.

In [None]:
r = s.drop(["d", "a"])
r

Las etiquetas no tienen que estar en orden.

El argumento **inplace = True** realiza la eliminación inplace (modificando directamente la serie).

In [None]:
s

Este método exige el uso de etiquetas para seleccionar los elementos a eliminar. Esto significa que si en un momento dado necesitamos eliminar uno o más elementos por su índice, deberemos convertirlos en sus correspondientes etiquetas, lo que resulta extremadamente sencillo seleccionando los elementos adecuados del index.

In [7]:
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

Si se desea eliminar los elementos cuyos índices son 1 y 3, basta utilizar el atributo *index* para que devuelve todas las etiquetas.

In [None]:
s.index[[1, 3]]

In [None]:
s.drop(s.index[[1, 3]])

Otra forma para eliminar un elemento de una serie es el método **pandas.Series.pop**. Al igual que con el método drop, éste solo acepta una etiqueta y devuelve el valor correspondiente a dicha etiqueta, eliminándolo de la serie in-place.

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

In [None]:
s.pop(1)

In [None]:
s

Si la etiqueta no se encuentra en el index, el método devolverá un error.

## <font color='blue'>**Método where**</font>

El método **pandas.Series.where** permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. Los valores que no la cumplan son sustituidos por un valor (NaN por defecto).

In [None]:
s = pd.Series(np.arange(0,10))
s

Por ejemplo, filtrar los elementos de $s$ que sean pares.

In [None]:
s.where(s % 2 == 0)

Los valores que no cumplen la condición son sustituidos por NaN. Es posible modificar este valor de reemplazo pasando al método como segundo argumento el valor que se quiere fijar.

In [None]:
s.where(s % 2 == 0, -1)

# <font color='blue'>**Edición de Dataframes**</font>

Existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos **loc** o **iloc**, en función de que queramos usar sus etiquetas o índices.



In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[1, 2] = -1
df

Es posible modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["A"] = -1
df

En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]]
df

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = -1
df

También es posible insertar datos en una columna o fila inexistente, en cuyo caso se crea y se le asignan los valores en cuestión.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["D"] = [10, 20, 30, 40]
df

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["e"] = [10, 20, 30]
df

## <font color='blue'>**Método where**</font>

De forma semejante a las series, el método de los dataframes **where** filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es NaN.

In [None]:
df = pd.DataFrame(np.arange(12).reshape(-1, 3), columns = ["A", "B", "C"])
df

Filtrar los valores múltiplos de 2:

In [None]:
df.where(df % 2 == 0)

Todos aquellos valores que no son múltiplo de 2 son sustituidos por NaN. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [None]:
df.where(df % 2 == 0, -df)

## <font color='blue'>**Eliminación de elementos en un dataframe**</font>

El método **pandas.DataFrame.drop** elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

El primer criterio consiste en indicar la lista de etiquetas a eliminar y el eje al que pertenecen.

In [None]:
df = pd.DataFrame(np.arange(16).reshape([4, 4]), 
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C", "D"])
df

Eliminar las filas cuyas etiquetas son "a" y "c".

In [None]:
df.drop(["a", "c"], axis = 0)

In [None]:
df.drop(["a", "c"])

Obsérvese que lo que se muestra es el resultado de eliminar las filas indicadas del dataframe. Éste no se modifica salvo que utilicemos el argumento **inplace = True**.

Para eliminar columnas, habría que indicar el eje correspondiente.

In [None]:
df.drop(["B", "D"], axis = 1)

Otra alternativa para especificar si se están eliminando filas o columnas es utilizar directamente los parámetros **index** y **columns**. Así, otra forma de eliminar las filas "a" y "c" sería la siguiente:



In [None]:
df.drop(index = ["a", "c"])

In [None]:
df.drop(columns = ["B", "D"])

## <font color='green'>**Ejercicio 1**</font>

En la liga del diplomado de ciencia de datos juegan 6 equipos: Equipo A, Equipo B, Equipo C, Equipo D, Equipo E y el **Equipo de Profes** (Campeón invicto).

La imagen muestra la tabla resumen con los resultados de la liga.

<img src='https://drive.google.com/uc?export=view&id=1xW3fW4RrTim0N6hGjT51QxBOW-e36if8' width="800" align="center" style="margin-right: 20px">

1. Generar el dataframe tabla_posiciones con la información de la tabla anterior.
2. Determinar para cada equipo la diferencia de goles (goles a favor -  goles en contra) y agregar esta información al dataframe.
3. Determinar la posición de cada equipo en la liga y presentar la información ordenada.
4. Durante la confrontación entre el Equipo A y el **Equipo de Profes** que fue ganada por A. El equipo A tenía más jugadores en cancha que los reglamentarios (tramposos!!!), por lo que la comisión disciplinaria decidió: i) descontar los puntos al equipo A y entregarlos (justamente) al **Equipo de Profes**, ii) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
5. El premio al fair play se entrega al equipo con mejor comportamiento, para ello, se deben sumar las tarjetas acumuladas (tanto amarillas como rojas) en donde a las tarjetas rojas se les aplica un castigo multiplicándolas por 2, en caso de empate se selecciona al con menor número de tarjetas rojas, si se mantiene el empate el premio es para el equipo con menor número de tarjetas totales. Cree una columna fair play con el indicador descrito y determine el ganador del premio.
6. El último lugar de la tabla desciende de la liga y por lo tanto debe ser eliminado del dataframe.


In [None]:
#solución

## <font color='green'>**Fin ejercicio 1**</font>

# <font color='blue'>**Unión de series y dataframes**</font>

Muchas veces nos encontramos con que los datos a analizar están repartidos entre dos o más bloques de datos, lo que nos obliga a unirlos, bien concatenándolos, o bien realizando un "join" entre las estructuras (uniones del mismo tipo que las realizadas en bases de datos).

## <font color='blue'>**Unión de series**</font>


## <font color='blue'>**Función concat**</font>

Un caso con el que nos encontramos con relativa frecuencia es aquel en el que queremos unir una serie a otra.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
r = pd.Series([10, 11, 12], index = ["f", "g", "h"])

Si deseamos unir $r$ y $s$ en una nueva serie, podemos usar la función **pandas.concat**. Esta función permite especificar el eje a lo largo del cual unir los diferentes objetos (pueden ser series o dataframes). Por defecto, la concatenación se realiza a lo largo del eje 0.

In [None]:
t = pd.concat([s, r])
print(type(t))
t

El resultado es una serie.

In [None]:
a = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
b = pd.Series([10, 11, 12, 13, 14], index = ["a", "b", "c", "d", "e"])
print(a)
print( )
print(b)

In [None]:
s = pd.concat([a,b])

In [None]:
s["a"]

Si especificamos como eje de concatenación el eje 1, pandas alineará los valores con idénticas etiquetas. En el siguiente ejemplo, las series $a$ y $b$ tienen algunas etiquetas comunes (y otras no). El resultado incluye todas las etiquetas asignando el valor NaN ("Not a Number") a aquellos valores desconocidos.



In [None]:
pd.concat([a,b], axis = 1)

In [None]:
type(pd.concat([a,b], axis = 1))

Como puede observarse, el resultado es un dataframe.

Por otro lado, las etiquetas del índice no tienen por qué ser diferentes, de forma que si se estuviesen concatenando series con etiquetas comunes en sus índices, el resultado sería equivalente a los vistos hasta ahora.

In [None]:
s = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
r = pd.Series([10, 11, 12], index = ["a", "c", "e"])
print(a)
print( )
print(b)

In [None]:
pd.concat([s, r])

En este ejemplo se han concatenado dos series que tienen dos etiquetas comunes ("a" y "c"), y se puede observar que las dos apariciones de cada una de ellas se incluyen en el resultado de la concatenación.

## <font color='blue'>**Método append**</font>

Otra alternativa es usar el método **pandas.Series.append**, versión simplificada de la función concat ya vista que devuelve la unión de la serie sobre la que se aplica con otra (u otras) series, pero solo a lo largo del eje 0.

In [None]:
a = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
b = pd.Series([10, 11, 12], index = ["f", "g", "h"])
print(a)
print( )
print(b)

In [None]:
c = a.append(b)
c

Si el argumento **ignore_index** toma el valor True, se ignoran las etiquetas de las series.

In [None]:
c = a.append(b, ignore_index = True)
c

## <font color='blue'>**Concatenación y unión de dataframes**</font>

Ésta es otra de las áreas en las que la variedad de opciones puede resultar confusa. A modo de resumen, digamos que pandas ofrece dos principales funciones con este objetivo: **pandas.concat** y **pandas.merge**.

* La función **concat** permite concatenar dataframes a lo largo de un determinado eje
* La función **merge** permite realizar uniones (joins) entre dataframes tal y como se realizan en bases de datos. Esta función también está disponible como método: **pandas.DataFrame.merge**

Hay una tercera función que está disponible solo como método: **pandas.DataFrame.append**. El método **append** ofrece una funcionalidad semejante a la de la función concat pero reducida. Así, por ejemplo, solo permite realizar concatenaciones a lo largo del eje 0 (es decir, verticalmente).

## <font color='blue'>**Función concat**</font>

La función **pandas.concat** es la responsable de concatenar dos o más dataframes (y de todas las estructuras proveídas por pandas) a lo largo de un eje, con soporte a lógica de conjuntos a la hora de gestionar etiquetas en ejes no coincidentes.

In [None]:
df1 = pd.DataFrame(np.arange(9).reshape([3, 3]),
                   index = ["a", "b", "d"],
                   columns = ["A", "B", "C"])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape([4, 3]),
                   index = ["a", "b", "c", "e"],
                   columns = ["B", "C", "D"])
df2

Si pasamos a la función concat ambos dataframes como primer argumento (en forma de lista), obtenemos el siguiente resultado:

In [None]:
pd.concat([df1, df2])

Por defecto, la concatenación se ha realizado a lo largo del eje 0 (eje vertical), uniendo los índices de fila de ambos dataframes, y alineando las columnas por su etiqueta. Los valores para los que no hay datos se han rellenado con NaN.

Si especificamos que la concatenación se realice a lo largo del eje 1 (eje horizontal), el resultado es el siguiente:

In [None]:
pd.concat([df1, df2], axis = 1)

De modo semejante al primer ejemplo, se han introducido NaN's donde no había datos, y se han alineado las filas por su etiqueta.

Estos dos ejemplos vistos son tipo **"Outer"** (opción por defecto), considerando todas las etiquetas de los dos dataframes aun cuando no sean comunes a ambos. Pero si especificamos el argumento **join = "Inner"**, los resultados pasan a considerar solo las etiquetas comunes.

In [None]:
pd.concat([df1, df2], join = "inner")

Incluye solo las columnas B y C comunes a ambos dataframes. Y para el segundo ejemplo tenemos:

In [None]:
pd.concat([df1, df2], axis = 1, join = "inner")

Incluyendo solo las filas a y b comunes a ambos dataframes.

El parámetro **ignore_index** controla el índice a asignar al eje a lo largo del cuál se realiza la concatenación. Si este parámetro toma el valor False (por defecto), el eje de concatenación mantiene las etiquetas de los dataframes originales. Si toma el valor True, se ignoran dichas etiquetas y el resultado de la concatenación recibe un nuevo índice automático numérico. 

In [None]:
pd.concat([df1, df2], axis = 1, join = "inner", ignore_index = True)

## <font color='blue'>**Método append**</font>

El método **pandas.DataFrame.append** es un atajo de la función concat que ofrece funcionalidad semejante pero limitada: no permite especificar el eje de concatenación (siempre es el eje 0) ni el tipo de "join" (siempre es tipo "Outer").

In [None]:
df1 = pd.DataFrame(np.arange(9).reshape([3, 3]),
                   index = ["a", "b", "d"],
                   columns = ["A", "B", "C"])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape([4, 3]),
                   index = ["a", "b", "c", "e"],
                   columns = ["B", "C", "D"])
df2

In [None]:
df1.append(df2)

Al igual que ocurría con la función **concat**, el parámetro ignore_index nos permite controlar las etiquetas que recibe el índice del resultado: las de los dataframes originales (con ignore_index = False, opción por defecto), o uno nuevo automático (con ignore_index = True).

## <font color='blue'>**Función Merge**</font>

La función **pandas.merge** nos permite realizar "joins" entre tablas. El join es realizado sobre las columnas o sobre las filas. En el primer caso, las etiquetas de las filas son ignoradas. En cualquier otro caso (joins realizado entre etiquetas de filas, o entre etiquetas de filas y de columnas), las etiquetas de filas se mantienen.


In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "feb", "mar", "may"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "Mes": ["feb", "ene", "mar", "abr"],
    "Costos": [7, 6, 8, 5]
})
df2

Ambos dataframes tienen una columna común ("Month") y varias filas comunes ("ene", "feb" y "mar"). Obsérvese que en df2 las filas no están ordenadas y que, en df1, el mes de enero tiene índice 0 mientras que, en df2, el mes de enero tiene índice 1.

Si aplicamos la función merge a estos dataframes con los valores por defecto, obtenemos el siguiente resultado.

In [None]:
pd.merge(df1, df2)

Esos valores por defecto suponen que el join se realiza sobre las columnas comunes y tipo "inner" (considerando solo las filas con etiquetas comunes).

Si especificamos que el join sea de tipo "outer", lo que definimos con el parámetro how, el resultado considerará todas las etiquetas presentes en ambos dataframes.

In [None]:
pd.merge(df1, df2, how = "outer")

Se rellena con NaN's los valores inexistentes. Otras opciones para el parámetro how son "left" y "right" (además de la opción por defecto, "outer").

Por defecto, el join se realiza entre las columnas comunes. Esto es, sin embargo, controlable usando el parámetro **on** y especificando la columna o columnas a usar.

In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "ene", "feb", "feb"],
    "Producto": ["A", "B", "A", "B"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "Mes": ["ene", "ene", "feb", "feb"],
    "Producto": ["A", "B", "A", "B"],
    "Costo": [7, 6, 8, 5]
})
df2

Hay dos columnas comunes, lo que supone que el resultado de un merge por defecto sería el siguiente:

In [None]:
pd.merge(df1, df2)

Es decir, para cada combinación de Mes-Producto se añadirían los valores de los campos de ventas y costo. Si se quiere que el join se realice solo por uno de los campos, Producto, por ejemplo, bastaría con especificarlo con el parámetro on.

In [None]:
pd.merge(df1, df2, on = "Producto")

Además del campo utilizado para realizar el join ("Producto"), al existir un campo común a ambos dataframes ("Mes") que no se desea usar para el join, pandas añade un sufijo (configurable) a este campo en ambas tablas para poder diferenciarlo.

También podría ocurrir que ambos dataframes no tuviesen columnas comunes (columnas con el mismo nombre) pero que, aun así, quisiéramos realizar el join por algunas de ellas. Por ejemplo:

In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "feb", "mar", "may"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "NombreMes": ["feb", "ene", "mar", "abr"],
    "Costos": [7, 6, 8, 5]
})
df2

Al no haber columnas comunes, la ejecución de la función merge devolvería un error. En este caso podemos usar los parámetros **left_on** y **right_on** para especificar el campo a usar en la tabla de la izquierda del join y en la de la derecha, respectivamente.

In [None]:
pd.merge(df1, df2, left_on = "Mes", right_on = "NombreMes")

## <font color='blue'>**Join por filas**</font>

Si queremos que el join considere las filas -y no las columnas- de alguno de los dataframes para realizar el join, podemos usar los parámetros **left_index** y **right_index**.


In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "feb", "mar", "may"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "Compras": [5, 9, 11, 2, 6]},
    index = ["ene", "feb", "mar", "abr", "may"]
)
df2

La ejecución de la función **merge** no sería posible -devolvería un error- pues no hay columnas columnes. En este caso querríamos que para el dataframe df1 se considerase la columna "Mes" -usando el parámetro left_on- y para el dataframe df2 el índice -usando el parámetro right_index-, de la siguiente forma:

In [None]:
pd.merge(df1, df2, left_on = "Mes", right_index = True)

# <font color='blue'>**Operaciones con estructuras pandas**</font>

Al basarse la bibliteca **pandas** en **NumPy**, todas las funciones universales de esta última funcionan con pandas, pero con una particularidad: al aplicar operaciones unarias se conservan las etiquetas de filas y columnas, y en funciones binarias, se van a alinear las filas y columnas de las estructuras involucradas por sus etiquetas.

## <font color='blue'>**Operaciones con series**</font>

Si aplicamos una función unaria a una serie, el resultado es otra serie que conserva los índices de la original.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
r

In [None]:
print(type(np.square(r)))
np.square(r)

Por otro lado, los operadores aritméticos que involucran dos o más series van a alinear las etiquetas antes de ejecutarse.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

In [None]:
r + s

En este ejemplo, se han sumado dos series cuyas etiquetas no son todas comunes. Pandas rellena los valores no coincidentes con NaN.

Si se utiliza el método **pandas.Series.add** se asigna a la serie sobre la que se aplica el método el resultado de la suma.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
r.add(s)

Usando este método es posible especificar el valor a usar para rellenar los elementos desconocidos usando el parámetro **fill_value**.



In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

In [None]:
r.add(s, fill_value = 0)

Con este atributo, no estamos simplemente sustituyendo los NaN del resultado por el valor indicado, sino que estamos usando dicho valor como alternativa a los valores de las series originales que no existiesen.

Otras funciones son:

* **pandas.Series.sub**, que resta una serie a otra, elemento por elemento
* **pandas.Series.mul**, que multipica una serie por otra, elemento por elemento
* **pandas.Series.div**, que divide una serie por otra, elemento por elemento
* **pandas.Series.round**, que redondea los elementos de una serie al número de decimales indicado.

En la documentación oficial está el listado completo de funciones disponibles para las series, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**Operaciones con dataframes**</font>

Las operaciones binarias alinearán los datos de los dataframes involucrados según sus etiquetas de filas y columnas antes de ejecutarse.

In [None]:
df1 = pd.DataFrame({"A": [2, 4, 2],
                    "B": [1, 0, 4],
                    "C": [7, 3, 4],
                    "D": [3, 1, 5]},
                   index = ["ene", "feb", "mar"])
df1

In [None]:
df2 = pd.DataFrame({"A": [3, 5, 2],
                    "C": [1, 2, 3],
                    "D": [4, 3, 4],
                    "E": [6, 3, 1]},
                   index = ["feb", "mar", "abr"])
df2

In [None]:
df1 + df2

Pandas inserta NaN's en aquellas combinaciones de etiquetas para las que no hay un valor en ambos dataframes.

La alineación se produce con independencia del orden en el que las etiquetas aparezcan en los índices.

Podemos realizar la misma operación y asignar el resultado a uno de los dataframes con el método **pandas.DataFrame.add**.

In [None]:
df1.add(df2)

Con este método, de forma semejante a como ocurría con las series, es posible establecar un valor predeterminado para aquellos valores que no se encuentren en uno de los dataframes usando el parámetro **fill_value**.

In [None]:
df1.add(df2, fill_value = 0)

Ahora, el valor correspondiente a A-Abr no es un NaN, sino 2 (valor que podemos encontrar en el dataframe df2). Aquellas combinaciones de etiquetas para las que no existe valor alguno en ninguno de los dos dataframes siguen recibiendo un NaN.

Se muestra a continuación un listado con algunas operaciones básicas disponibles como métodos de dataframes:

* **pandas.DataFrame.add**: suma los dos dataframes, elemento por elemento
* **pandas.DataFrame.sub**: resta a un dataframe otro dataframe, elemento por elemento
* **pandas.DataFrame.mul**: multiplica un dataframe por otro, elemento por elemento
* **pandas.DataFrame.div**: divide un dataframe por otro, elemento por elemento
* **pandas.DataFrame.mod**: devuelve el resultado de calcular el módulo de un dataframe y otro dataframe, elemento por elemento
* **pandas.DataFrame.dot**: devuelve la multiplicación de las dos matrices representadas por los dos dataframes
* **pandas.DataFrame.abs**: devuelve una copia del dataframe conteniendo el valor absoluto de cada uno de sus valores

Podemos encontrar en la documentación oficial de pandas el listado completo de funciones disponibles, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.
.

## <font color='blue'>**Métodos de agregación y estadística**</font>

Los dataframes poseen un útil método que devuelve información estadística sobre los valores contenidos en él: **pandas.DataFrame.describe**:

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Limite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
index = ["ene", "feb", "mar", "abr"]
)
ventas

In [None]:
ventas.describe()

Este método devuelve el número de elementos no nulos por columna, el valor medio, la desviación estándar, el valor mínimo y el máximo, y los valores correspondientes a los percentiles 25, 50 y 75.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

**pandas.DataFrame.mean**, devuelve la media aritmética de los valores del dataframe a lo largo de un determinado eje (eje 0 -vertical- por defecto):

In [None]:
df.mean()

In [None]:
df.mean(axis = 1)

* **pandas.DataFrame.median**: Devuelve la mediana de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.mode**: Devuelve la moda de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.std**: Devuelve la desviación estándar de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.var**: Devuelve la varianza de los valores del dataframe a lo largo de un determinado eje
* **pandas.DataFrame.pct_change**: Devuelve el porcentaje de cambio de un valor con respecto al de la fila anterior (también puede aplicarse a columnas usando el parámetro axis):

In [None]:
df = pd.DataFrame({"A": [3, 5, 2, 4],
                    "B": [1, 2, 3, 3],
                    "C": [4, 3, 4, 6],
                    "D": [6, 3, 1, 3]},
                   index = ["ene", "feb", "mar", "abr"])
df

In [None]:
df.pct_change()

Para los valores de la primera fila, al no existir una anterior con respecto a la que realizar el cálculo, reciben un valor NaN por defecto. En todo caso, es posible regular el comportamiento del método al respecto de los valores NaN con el parámetro **fill_method**.

**pandas.DataFrame.nunique**: Devuelve el número de elementos distintos a lo largo de un determinado eje. El parámetro dropna controla si se incluyen los NaN en el recuento o no.

In [None]:
df.nunique()

## <font color='blue'>**Operaciones entre dataframes y series**</font>

Podemos operar entre un dataframe y una serie.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

In [None]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "C", "D"])
s

In [None]:
df + s

La operación se ha realizado **"row-wise"**, aplicando la suma fila por fila, tras haberse alineado el dataframe y la serie según las etiquetas del índice de columnas.

En el caso de que las columnas no sean completamente coincidentes, se rellenan los elementos desconocidos con NaN.

In [None]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "E", "D"])
df + s

Es posible usar los métodos vistos en la sección anterior para operar también entre dataframes y series, pudiendo especificar el eje a lo largo del cual quiere realizarse la operación.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

In [None]:
s = pd.Series([2, 1, 0], index = ["ene", "feb", "mar"])
s

In [None]:
df.add(s, axis = 0)

## <font color='green'>**Ejercicio 2**</font>

En el siguiente dataframe se guardan los datos personales de un grupo de clientes:

```
clientes = {'nombre' : ['Orlando' ,'Inés' ,'Michelle', 'Alberto', 'Esteban'],
           'apellido' : ['Figueroa' ,'Benítez' ,'Gómez', 'Riesco', 'Martínez'],
           'edad' : [30 ,21 ,29 ,22, 24]}
clientes = pd.DataFrame(clientes, columns = ['nombre', 'apellido', 'edad'])
```
En el siguiente se incluyen las transacciones:



```
facturas = {'factura_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
            'cliente_id' : [3, 2, 7, 2, 7, 3, 1, 4 ,2, 3, 6, 2],
            'cantidad': [77.91, 24.36, 74.65, 19.75, 27.46, 17.13, 45.77, 81.7, 14.41, 52.69, 32.03, 12.78]}
facturas = pd.DataFrame(facturas, columns = ['factura_id', 'cliente_id', 'cantidad'])
```

Considere el dataframe llamado nuevos_clientes:



```
nuevos_clientes = pd.DataFrame({'nombre' : ['Rebeca'],
                            'apellido' : ['Rojas'],
                            'edad' : [21]},
                           columns = ['nombre', 'apellido', 'edad'])
```

1. Agregar los nuevos clientes al dataframe *clientes*.
2. Actualice los valores para los índices del dataframe *clientes*.
3. Genere un dataframe llamado *cliente_id* y agréguelo como una columna nueva a *clientes*.
4. Realice la unión de los dataframes *clientes* y *facturas* de manera que el resultado sean todos los registros almacenados.
5. Agregue al dataframe *nuevos clientes* a todos los integrantes del grupo, repita el proceso y haga el join entre clientes y facturas pero su resultado debe contener solo las filas con etiquetas comunes.







In [124]:
#Solución
clientes = {'nombre' : ['Orlando' ,'Inés' ,'Michelle', 'Alberto', 'Esteban'],
           'apellido' : ['Figueroa' ,'Benítez' ,'Gómez', 'Riesco', 'Martínez'],
           'edad' : [30 ,21 ,29 ,22, 24]}
clientes = pd.DataFrame(clientes, columns = ['nombre', 'apellido', 'edad'])

facturas = {'factura_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
            'cliente_id' : [3, 2, 7, 2, 7, 3, 1, 4 ,2, 3, 6, 2],
            'cantidad': [77.91, 24.36, 74.65, 19.75, 27.46, 17.13, 45.77, 81.7, 14.41, 52.69, 32.03, 12.78]}
facturas = pd.DataFrame(facturas, columns = ['factura_id', 'cliente_id', 'cantidad'])

In [125]:
nuevos_clientes = pd.DataFrame({'nombre' : ['Rebeca'],
                            'apellido' : ['Rojas'],
                            'edad' : [21]},
                           columns = ['nombre', 'apellido', 'edad'])

In [126]:
# Parte 1
# Acá tendriamos la 1 y la 2
clientes = clientes.append(nuevos_clientes, ignore_index = True)

In [127]:
# Parte 2
#clientes = clientes.reset_index().drop('index', axis = 1)
#lientes.reset_index(drop = True, inplace = True)
print(clientes.to_markdown())

|    | nombre   | apellido   |   edad |
|---:|:---------|:-----------|-------:|
|  0 | Orlando  | Figueroa   |     30 |
|  1 | Inés     | Benítez    |     21 |
|  2 | Michelle | Gómez      |     29 |
|  3 | Alberto  | Riesco     |     22 |
|  4 | Esteban  | Martínez   |     24 |
|  5 | Rebeca   | Rojas      |     21 |


In [120]:
# Parte 3
cliente_id = range(1, len(clientes)+1)
clientes_id = pd.DataFrame(cliente_id, columns = ['cliente_id'])
print(clientes_id)

   cliente_id
0           1
1           2
2           3
3           4
4           5
5           6


In [121]:
# Parte 3.2
clientes = pd.concat([clientes, clientes_id], axis = 1)
print(clientes.to_markdown())

|    | nombre   | apellido   |   edad |   cliente_id |
|---:|:---------|:-----------|-------:|-------------:|
|  0 | Orlando  | Figueroa   |     30 |            1 |
|  1 | Inés     | Benítez    |     21 |            2 |
|  2 | Michelle | Gómez      |     29 |            3 |
|  3 | Alberto  | Riesco     |     22 |            4 |
|  4 | Esteban  | Martínez   |     24 |            5 |
|  5 | Rebeca   | Rojas      |     21 |            6 |


In [128]:
#Parte 3
clientes['cliente_id'] = range(1, len(clientes) +1)
clientes

Unnamed: 0,nombre,apellido,edad,cliente_id
0,Orlando,Figueroa,30,1
1,Inés,Benítez,21,2
2,Michelle,Gómez,29,3
3,Alberto,Riesco,22,4
4,Esteban,Martínez,24,5
5,Rebeca,Rojas,21,6


In [122]:
# Parte 4, unir clientes y facturas.

nuevo_df = pd.merge(clientes, facturas, how ='outer')

In [123]:
nuevo_df

Unnamed: 0,nombre,apellido,edad,cliente_id,factura_id,cantidad
0,Orlando,Figueroa,30.0,1,7.0,45.77
1,Inés,Benítez,21.0,2,2.0,24.36
2,Inés,Benítez,21.0,2,4.0,19.75
3,Inés,Benítez,21.0,2,9.0,14.41
4,Inés,Benítez,21.0,2,12.0,12.78
5,Michelle,Gómez,29.0,3,1.0,77.91
6,Michelle,Gómez,29.0,3,6.0,17.13
7,Michelle,Gómez,29.0,3,10.0,52.69
8,Alberto,Riesco,22.0,4,8.0,81.7
9,Esteban,Martínez,24.0,5,,


In [None]:
clientes = {'nombre' : ['Daniela' ,'Benjamín' ,'Michelle', 'Alberto', 'Esteban'],
           'apellido' : ['Paz' ,'' ,'Gómez', 'Riesco', 'Martínez'],
           'edad' : [30 ,21 ,29 ,22, 24]}
clientes = pd.DataFrame(clientes, columns = ['nombre', 'apellido', 'edad'])


## <font color='green'>**Fin ejercicio 2**</font>


# <font color='blue'>**Reindexación**</font>

Creación de una copia de una estructura pandas -una serie o un dataframe- en base a un nuevo índice.

# <font color='blue'>**Reindexación de series**</font>

El método básico para la reindexación de series es **pandas.Series.reindex**. Este método devuelve una copia de una serie basándose en el índice modificado de la serie original.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

Se trata de una serie cuyas etiquetas son letras no consecutivas. Es posible generar una copia reindexada de esta serie de la siguiente forma:



In [None]:
r = s.reindex(["g", "c", "a", "j", "f"])
r

El primer argumento siempre es el nuevo índice. En el caso anterior se trata de una versión desordenada del índice original, por lo que la serie generada es también una versión desordenada de la original.

Si el nuevo índice es un subconjunto del original, la serie generada no contendrá todos los valores de la serie de la que se patió, tan solo los incluidos en el nuevo índice. En el siguiente ejemplo, el nuevo índice no incluye la etiqueta "a" por lo que la serie generada no incluye el valor correspondiente (1):

In [None]:
r = s.reindex(["g", "c", "j", "f"])
r

Por el contrario, si en el nuevo índice se incluyen etiquetas no incluidas en el índice original, la nueva serie incluirá dicha etiqueta pero el valor asignado a ella recibe el valor por defecto NaN. En este próximo ejemplo incluimos la etiqueta "e" (no presente en el índice original) en el nuevo índice:

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"])
r

Este valor de relleno ("NaN") es personalizable usando el parámetro **fill_value**. Si repetimos las instrucciones anteriores especificando que el valor de relleno sea, por ejemplo, 0:

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], fill_value = 0)
r

Una alternativa a fijar el valor de relleno por defecto es aplicar "lógica de relleno", rellenando los valores inexistentes con otro valor que sí exista. Tenemos tres opciones...

## <font color='blue'>**Forward fill**</font>

La primera opción consiste en rellenar los valores inexistentes "hacia adelante", haciendo que los valores existentes rellenen los valores inexistentes que los sigan. O, en otras palabras, rellenar los valores inexistentes con el primer valor existente que los precedan:

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], method = "ffill")
r

En este caso, el valor correspondiente a la etiqueta "e" se rellena con el valor de la etiqueta anterior "c". Pero no la anterior en el nuevo índice, sino la anterior en el índice original. Veámoslos con otro ejemplo:

In [None]:
r = s.reindex(["g", "c", "m", "a", "j", "f"], method = "ffill")
r

Ahora, la etiqueta nueva es "m", siendo precedida en el índice original por la "j" (si se ordenan alfabéticamente), por lo que el valor que recibe r["m"] es el que tenía r["j"]: 5.

## <font color='blue'>**Backward fill**</font>

En este otro caso, los valores inexistentes se rellenan "hacia atrás", con el primer valor existente que los siga.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], method = "bfill")
r

Nuevamente, la etiqueta no existente en el índice original es "e", y el valor que se le asigna es el correspondiente a la etiqueta que seguía a "e" en dicho índice (si se ordenan alfabéticamente): "f". Por lo tanto, se asigna a r["e"] el valor de r["f"]: 3.

## <font color='blue'>**Nearest (el más cercano)**</font>

La tercera opción asigna a cada valor desconocido el valor más próximo en la serie original. Para ver esta opción en funcionamiento necesitamos partir de una serie cuyo índice sea numérico (la operación "sustracción" en la que se basa esta tercera opción no está soportada entre cadenas de texto).

In [None]:
s = pd.Series([100, 200, 300, 400, 500], index = [10, 20, 30, 40, 50])
s

Una serie cuyo índice está formado por múltiplos de 10. Generemos ahora una copia del mismo con el índice [20, 40, 19] aplicando como método de relleno "nearest".

In [None]:
r = s.reindex([20, 40, 19], method = "nearest")
r

El método ha incluido el índice 19 y le ha asignado el valor del índice más próximo (20), es decir, el valor de s[20] (200).

In [None]:
r = s.reindex([20, 40, 11], method = "nearest")
r

En este caso, el índice más próximo es 10, y el valor asignado es, por lo tanto, s[10]: 100.

# <font color='blue'>**Reindexación de dataframes**</font>

El método **pandas.DataFrame.reindex** ofrece una funcionalidad semejante a la disponible para series con la particularidad de que, en este caso, podemos reindexar por filas y/o por columnas. Por defecto, este método acepta una secuencia de etiquetas que determinarán qué filas se incluyen y en qué orden (es decir, por defecto la reindexación se aplica al eje 0).

In [None]:
df = pd.DataFrame(np.arange(15).reshape([5, 3]),
                  index = ["a", "b", "c", "d", "e"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.reindex(["d", "b"])

En este ejemplo, partimos de un dataframe cuyo índice de filas tiene las etiquetas "a", "b", "c", "d" y "e", y hemos indicado como nuevo índice las etiquetas "d" y "b" (en este orden), y son estas filas (en ese orden) las que se devuelven como resultado.

Este método permite especificar las etiquetas de filas como hemos visto, pasándoselas al método como primer argumento, o con el parámetro **index**.

In [None]:
df.reindex(index = ["d", "b"])

El parámetro **columns**, por su parte, permite especificar el nuevo índice de columnas:



In [None]:
df.reindex(columns = ["A", "C"])

Si utilizamos ambos parámetros al mismo tiempo, imponemos simultáneamente el nuevo índice para filas y columnas.

In [None]:
df.reindex(index = ["a", "c", "f"], columns = ["A", "D", "C"])

Podemos asignar a los valores inexistentes un valor concreto usando el parámetro **fill_value**, o podemos aplicar "lógica de relleno" con el parámetro **method**, permitiéndonos rellenar los valores inexistentes hacia adelante o hacia atrás.

Y, por supuesto, si los nuevos índices contienen los mismos elementos que los índices originales pero en otro orden, el resultado del método será equivalente al original ordenado según el nuevo criterio.

In [None]:
df.reindex(index = ["a", "c", "b", "e", "d"], columns = ["B", "C", "A"])

## <font color='blue'>**Método set_index**</font>

El método **pandas.DataFrame.set_index** fija una columna del dataframe como índice, descartando el índice existente.

In [None]:
df = pd.DataFrame({
    "año": [2016, 2017, 2018],
    "mes": ["ene", "sep", "jun"],
    "ventas": [87, 34, 112]
})
df

Vemos que se ha asignado un índice automático. Si ejecutamos el método set_index indicando como argumento el campo "mes".

In [None]:
df.set_index("mes")

Se fija dicha columna como índice y se elimina del conjunto de características. Aunque esta eliminación es el comportamiento por defecto, podemos controlarlo con el parámetro drop.

In [None]:
df.set_index("mes", drop = False)

# <font color='blue'>**Multi-indexación**</font>

Hasta ahora hemos visto series y dataframes pandas con índices sencillos, pero pueden tener también índices jerárquicos o multi-índices, lo que abre la puerta a sofisticados procesos de manipulación y análisis de datos.

Podemos imaginarnos un multi-índice como un índice en el que cada valor es una tupla única de elementos. Es posible crear estos multi-índices y extraerlos posteriormente de varias formas.

## <font color='blue'>**Creación de multi-índices**</font>

Podemos crear un multi-índice de cuatro formas distintas:

* A partir de una lista de arrays, usando el método **pd.MultiIndex.from_arrays()**
* A partir de un array de tuplas, usando el método **pd.MultiIndex.from_tuples()**
* A partir del producto cartesiano de los valores de dos iterables, usando el método **pd.MultiIndex.from_product()**
* A partir de un DataFrame, usando el método **pd.MultiIndex.from_frame()**

## <font color='blue'>**Multi-índices a partir de una lista de arrays**</font>


El primer método es aquel en el que creamos el multi-índice indicando cada una de las columnas que lo van a formar.

In [2]:
import pandas as pd
index = pd.MultiIndex.from_arrays(
    [
        [2018, 2018, 2018, 2019, 2019, 2019],
        ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

El parámetro **names** permite especificar los nombres de los niveles del índice jerárquico.

Al llevar este multi-índice a un dataframe se obtiene el siguiente resultado:

In [3]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices a partir de un array de tuplas**</font>

En este segundo método indicamos los valores del multi-índice valor por valor, siendo éstos tuplas.


In [None]:
index = pd.MultiIndex.from_tuples(
    [
    (2018, "España"),
    (2018, "Portugal"),
    (2018, "Francia"),
    (2019, "España"),
    (2019, "Portugal"),
    (2019, "Francia")
    ],
    names = ["Año", "País"])
index

Seguimos teniendo a nuestra disposición el parámetro names para especificar los nombres de los niveles.

Si creamos nuestro DataFrame vemos que el resultado es el mismo que el que habíamos obtenido:

In [None]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

## <font color='blue'>**Multi-índices por producto cartesiano de arrays**</font>

El tercer método nos permite especificar los valores (únicos) de los diferentes niveles, creándose el índice jerárquico como resultado del producto escalar de los valores. Por ejemplo:


In [None]:
index = pd.MultiIndex.from_product(
    [
        [2018, 2019],
        ["España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index

Nuevamente, el parámetro names nos permite dar nombre a los niveles.

El resultado de llevar este índice a nuestro DataFrame es el ya conocido:

In [None]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

## <font color='blue'>**Multi-índices a partir de un DataFrame**</font>

Por último, podemos crear el multi-índice a partir de un DataFrame en el que cada columna coincide con una columna del multi-índice.

In [4]:
df = pd.DataFrame({
    "Año":[2018, 2018, 2018, 2019, 2019, 2019],
    "País": ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
})
df

Unnamed: 0,Año,País
0,2018,España
1,2018,Portugal
2,2018,Francia
3,2019,España
4,2019,Portugal
5,2019,Francia


Ahora podemos crear el índice:



In [5]:
index = pd.MultiIndex.from_frame(df)
index

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

DataFrame con índice jerárquico:

In [6]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Extracción de un nivel del índice**</font>

Trabajando con un DataFrame o una Serie pandas con multi-índice, es posible extraer los valores de un nivel del índice con el método **.get_level_values()**. El parámetro que deberemos pasar a este método será o el número del nivel o su nombre -si es que el índice ha recibido nombres-.

In [None]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

La columna de etiquetas del multi-índice situada en el extremo izquierdo es la que recibe el número (el índice) 0. Por lo tanto:

In [None]:
data.index.get_level_values(0)

De forma semejante:

In [None]:
data.index.get_level_values(1)

Si pasamos como argumento el nombre de la columna del índice obtenemos resultados semejantes:

In [None]:
data.index.get_level_values("Año")

In [None]:
data.index.get_level_values("País")

## <font color='blue'>**Selección con multi-índices**</font>

El trabajar con estructuras pandas con multi-índices nos ofrece nuevos métodos de selección de datos.

In [None]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Podemos extraer las filas correspondientes al año 2018 con la siguiente expresión:

In [None]:
data.loc[2018]

O extraer el valor del campo "Ventas" correspondiente al año 2018 y el país "España" con la siguiente expresión:

In [None]:
data.loc[(2018, "España")]

## <font color='blue'>**Aplicación de funciones estadísticas**</font>

Usando multi-índices, también es posible aplicar funciones estadísticas al DataFrame o a la Serie especificando el nivel de la jerarquía al que aplicarlas.

In [7]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


Podemos calcular el valor medio de las ventas, como ya sabemos con el método .mean():

In [8]:
data.mean()

Ventas    15.5
dtype: float64

Pero si especificamos el nivel al que queremos aplicarlo, el DataFrame se agrega según los valores de dicho nivel antes de realizar la operación.

In [9]:
data.mean(level = "Año")

Unnamed: 0_level_0,Ventas
Año,Unnamed: 1_level_1
2018,16
2019,15


O el valor medio por país:

In [10]:
data.mean(level = "País")

Unnamed: 0_level_0,Ventas
País,Unnamed: 1_level_1
España,16.5
Portugal,16.0
Francia,14.0


# <font color='blue'>**Ordenación y clasificación**</font>

Otras útiles herramientas son aquellas que permiten ordenar las estructuras de datos de pandas -ordenación según los índices o según los valores- y las que permiten clasificar cada elemento de una estructura según su valor.

## <font color='blue'>**Ordenación de series por índice**</font>

El método **pandas.Series.sort_index** devuelve una copia de la serie ordenada según las etiquetas de forma ascendente.

In [11]:
s = pd.Series([0, 1, 2, 3, 4], index = [3, 1, 5, 0, 4])
s

3    0
1    1
5    2
0    3
4    4
dtype: int64

In [12]:
s.sort_index()

0    3
1    1
3    0
4    4
5    2
dtype: int64

In [13]:
s.sort_index(ascending = False)

5    2
4    4
3    0
1    1
0    3
dtype: int64

Si los índices fuesen cadenas de texto, se ordenarían de la a a la z, dando a las mayúsculas mayor prioridad (siguiendo el criterio del estándar Unicode).

In [14]:
s = pd.Series([0, 1, 2, 3, 4], index = ["b", "d", "a", "A", "B"])
s

b    0
d    1
a    2
A    3
B    4
dtype: int64

In [15]:
s.sort_index()

A    3
B    4
a    2
b    0
d    1
dtype: int64

## <font color='blue'>**Ordenación de series por valor**</font>

Si lo que deseamos es obtener una copia de una serie tras ordenarla según sus valores, el método **pandas.Series.sort_values** hace exactamente esto, permitiéndonos -entre otras cosas- escoger si la ordenación es ascendente -valor por defecto- o descendente.

In [16]:
s = pd.Series([7, 3, 6, 1, -4], index = ["a", "b", "c", "d", "e"])
s

a    7
b    3
c    6
d    1
e   -4
dtype: int64

In [17]:
s.sort_values()

e   -4
d    1
b    3
c    6
a    7
dtype: int64

In [18]:
s.sort_values(ascending = False)

a    7
c    6
b    3
d    1
e   -4
dtype: int64

## <font color='blue'>**Ordenación de dataframes por índice**</font>

Los dataframes también tienen el mismo método que las series, **pandas.DataFrame.sort_index**, que devuelven una copia del mismo tras ordenarlo según las etiquetas a lo largo de un determinado eje.

In [137]:
df = pd.DataFrame({"C": [-3, 5, 2],
                   "A": [1, 0, 3],
                   "D": [4, 3, -4],
                   "B": [-2, 3, 1]},
                  index = ["c", "a", "b"])
df

Unnamed: 0,C,A,D,B
c,-3,1,4,-2
a,5,0,3,3
b,2,3,-4,1


Los índices del dataframe son de tipo texto y susceptibles de ser ordenados alfabéticamene, de la a a la z o viceversa (ya se ha comentado que las mayúsculas son situadas antes que las minúsculas en una ordenación ascendente). Ordenemos el dataframe, por lo tanto, a lo largo del eje 0 (eje vertical) -opción por defecto si no se indica otra cosa.

In [138]:
df.sort_index()

Unnamed: 0,C,A,D,B
a,5,0,3,3
b,2,3,-4,1
c,-3,1,4,-2


Efectivamente, las filas han sido ordenadas según el índice de filas. Especifiquemos que la ordenación del dataframe df sea por el eje 1 (eje horizontal).

In [None]:
df.sort_index(axis = 1)

En este caso vemos cómo han sido las columnas las que han sido ordenadas según sus etiquetas. Por supuesto, también tenemos la opción de recurrir al parámetro ascending para especificar el orden (ascendente o descendente).

In [None]:
df.sort_index(axis = 1, ascending = False)

El método *sort_index* no permite especificar más que un único eje, por lo que si deseásemos realizar una segunda ordenación a lo largo del otro eje, tendríamos que volver a aplicar el mismo método.



In [None]:
df.sort_index().sort_index(axis = 1)

## <font color='blue'>**Ordenación de dataframes por valor**</font>

El método **pandas.DataFrame.sort_values** asociado a todo dataframe es el que nos va a permitir ordenarlo según sus valores. En el caso de una estructura de dos dimensiones, hay dos elementos que van a definir cómo realizar la ordenación: el eje escogido (eje 0, por defecto) y, dentro de ese eje, qué fila o columna (o qué filas o columnas) van a determinar el orden de los datos.

In [None]:
df = pd.DataFrame({"A": [3, 2, 2, 0],
                   "B": [1, 2, 2, 0],
                   "C": [0, 3, 1, 5],
                   "D": [2, 4, 5, 6]},
                  index = ["a", "b", "c", "d"])
df

Supongamos que queremos ordenar esta estructura según la columna A, es decir, según el eje vertical o eje 0.

In [None]:
df.sort_values(by = "A")

Al tratarse del eje por defecto, no ha sido necesario especificarlo mediante el parámetro **axis**. Las columnas (en este caso solo una) que determinan el criterio de ordenación se han indicado mediante el parámetro **by** (si se trata de una única fila o columna basta indicar el nombre de la misma. Si se tratase de más de una, habría que agregarlas en forma de lista). Por cierto, este método exige trabajar con etiquetas, no acepta índices.

Las filas se han reordenado de forma que la columna A muestre sus valores ordenados de menor a mayor. Las filas cuyas etiquetas son "b" y "c" , al tener el mismo valor en la columna "A", reciben una ordenadión por defecto (la que imponga el código que, probablemente, deja el mismo orden en el que aparecen en el dataframe original). Si quisiéramos ordenar las filas también según una segunda columna, podríamos hacerlo de la siguiente manera:

In [None]:
df.sort_values(by = ["A", "C"])

Las filas "b" y "c", que en el ejemplo anterior no se ordenaban entre sí pues no había criterio alguno que lo impusiese, ahora sí se muestran ordenadas según la columna "C".

Si deseásemos ordenar el dataframe según los valores de las filas "a" y "b", por ejemplo, y de mayor a menor, podríamos conseguirlo del siguiente modo:

In [None]:
df.sort_values(by = ["a", "b"], axis = 1, ascending = False)

En este caso ha sido necesario especificar el eje de ordenación, al no tratarse del eje por defecto (argumento axis = 1).

## <font color='blue'>**Clasificación de series**</font>

El método **pandas.Series.rank** devuelve una serie conteniendo la clasificación o posición de cada valor de la serie original si fuesen ordenados de menor a mayor.

In [None]:
s = pd.Series([4, 2, 0, 3, 6], index = ["a", "b", "c", "d", "e"])
s

Si ejecutamos el método **rank** asociado a esta serie, el resultado es el siguiente:

In [None]:
print(type(s.rank()))
s.rank()

Vemos que la estructura devuelta es una serie pandas, y que está formada por la posición o clasificación de cada elemento en la serie original. Así, por ejemplo, el menor valor de s era el 0 correspondiente a la etiqueta "c", de forma que, en la serie resultante de aplicar el método rank, el valor correspondiente a la etiqueta "c" es 1. El segundo valor de la serie s era el correspondiente a la etiqueta "b", que se muestra con el valor 2 en el resultado de rank, y así sucesivamente. Es decir, los valores de la serie resultante son los números desde 1 hasta n, siendo n el número de elementos de la serie original.

O, al menos, esto es así si no hay valores repetidos en la serie original pues, en ese caso, el método rank nos permite especificar cómo queremos clasificarlos, cosa que podemos hacer con el parámetro **method**. Por defecto, cada uno de los valores repetidos recibe el valor medio de las clasificaciones de cada uno de los valores suponiendo que se les aplicase como clasificación un número entero consecutivo. 

In [None]:
s = pd.Series([4, 2, 2, 3, 3, 3, 6], index = ["a", "b", "c", "d", "e", "f", "g"])
s

El valor 2 está repetido dos veces, y que el valor 3 está repetido tres veces. Apliquemos el método rank con los argumentos por defecto:

In [None]:
s.rank()

Si ordenásemos los valores de la serie $s$ de menos a mayor, el resultado sería el siguiente:

2, 2, 3, 3, 3, 4, 5

Es decir, los valores 2 ocuparían las posiciones 1 y 2. Su valor medio es 1.5, que es el valor que les asigna el método rank. Los valores 3 ocuparían las posiciones 3, 4 y 5, cuyo valor medio es 4, y éste es el valor que les asigna el método rank.

En todo caso, el parámetro **method** del método nos permite escoger el criterio de asignación de la clasificación para valores repetidos: puede ser, por ejemplo, el menor valor (de los que recibirían si se asignasen valores no repetidos):

In [19]:
s.rank(method = "min")

a    5.0
b    3.0
c    4.0
d    2.0
e    1.0
dtype: float64

Vemos cómo se ha asignado a los dos valores correspondientes al menor valor (etiquetas "b" y "c") el valor 1 (mínimo de 1 y 2, posiciones que ocupan ambos números) y se ha asignado el valor 3 a los tres valores que ocupan las posiciones 3, 4 y 5.

## <font color='blue'>**Clasificación de dataframes**</font>

De forma semejante a las series, los dataframes tienen el método **pandas.DataFrame.rank**, que devuelve la clasificación de cada valor a lo largo de un determinado eje. 

In [20]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, -1]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3,1,3,7
feb,3,5,7,2
mar,1,2,2,-1


In [21]:
ventas.rank()

Unnamed: 0,A,B,C,D
ene,2.5,1.0,2.0,3.0
feb,2.5,3.0,3.0,2.0
mar,1.0,2.0,1.0,1.0


La estructura devuelta por el método **rank** es otro dataframe, y el eje por defecto en el que se calculan las clasificaciones es el eje 0 (eje vertical). Vemos que el comportamiento es semejante al visto para las series (de hecho, podemos pensar que el método se aplica a cada columna por separado, siendo éstas, como sabemos, series). Por ejemplo, la primera columna está formada por las cifras 3, 3 y 1, y la clasificación es 2.5, 2.5 y 1 respectivamente, sabiendo que el 2.5 es la media de las posiciones 2 y 3 que dichas cifras ocuparían si la serie original se ordenase de menor a mayor.

También podemos aplicar el método a lo largo del eje 1 (eje horizonta):

In [None]:
ventas.rank(axis = 1)

En este caso, si consideramos la primera fila, los valores del dataframe original son 3, 1, 3 y 7, y su clasificación es 2.5, 1, 2.5 y 4, sabiendo nuevamente que el 2.5 es el valor medio de las posiciones 2 y 3 que ocuparían los valores repetidos (3) si se asignasen posiciones numéricas consecutivas.

El método **rank** tiene -ya lo hemos visto para series- el parámetro **ascending** que controla el orden de los resultados (ascendente o descendente) y el parámetro method que controla el criterio de clasificación para valores repetidos.

# <font color='blue'>**Aplicación de funciones y mapeado**</font>

pandas ofrece varios métodos para aplicar funciones a los valores de una serie o de un dataframe, o para sustituir dichos valores por otros aplicando un cierto "mapeado". Más concretamente nos encontramos con los siguientes métodos:

* **pandas.Series.apply**: aplica una función a cada uno de los elementos de la serie cuyo resultado, por lo tanto, tendrá el mismo tamaño que la serie original.
* **pandas.Series.map**: devuelve una serie del mismo tamaño que la original en la que cada valor ha sido sustituido por otro valor resultante de aplicar una "función de mapeado".
* **pandas.DataFrame.applymap**: aplica una función a cada uno de los elementos del dataframe que, por lo tanto, tendrá el mismo tamaño que el dataframe original.
* **pandas.DataFrame.apply**: aplica una función a las filas o a las columnas de un dataframe. Si, por ejemplo, se aplica a las filas, el resultado será una serie con tantos valores como filas tuviese el dataframe original.

Los nombres pueden parecer un tanto confusos: uno podría esperar que el método apply tuviese el mismo comportamiento en series y en dataframes y, en realidad, el método equivalente al método apply de las series es el applymap de los dataframes.

## <font color='blue'>**El método Series.apply**</font>

El método **pandas.Series.apply** permite aplicar a cada uno de los elementos de la serie una función. Ésta deberá aceptar un único valor como argumento y devolver también un único valor.

In [139]:
s = pd.Series([2, 5, 4])
s

0    2
1    5
2    4
dtype: int64

Una función que eleve al cubo el argumento de entrada:



In [140]:
def cubo(n):
  return n ** 3

Podemos usar el método **apply** para aplicar esta función a cada uno de los elementos de la serie $s$:



In [141]:
s.apply(cubo)

0      8
1    125
2     64
dtype: int64

El resultado es también una serie pandas.

## <font color='blue'>**El método Series.map**</font>

El método **pandas.Series.map** aplicado a una serie $s$ acepta un argumento que indica el tipo de mapeo a realizar y devuelve una serie equivalente a $s$ con sus valores una vez mapeados. Por ejemplo, supongamos que tenemos una serie cuyos valores representan el mes en el que se ha realizado una venta.

In [142]:
ventas = pd.Series([1, 2, 1, 1, 3, 1])
ventas

0    1
1    2
2    1
3    1
4    3
5    1
dtype: int64

Y supongamos que queremos generar una serie equivalente a ésta en la que cada mes aparezca representado por su nombre, y no por un número.

### <font color='blue'>**Uso de un diccionario como función de mapeo**</font>

Una de las formas que tenemos de definir este "mapeo" entre números y cadenas de texto es utilizando un diccionario:

In [143]:
meses = {1: "ene", 2: "feb", 3: "mar"}
meses

{1: 'ene', 2: 'feb', 3: 'mar'}

Ahora, si ejecutamos el método **map** añadiendo como argumento este diccionario, se devolverá la serie que buscábamos:



In [144]:
ventas.map(meses)

0    ene
1    feb
2    ene
3    ene
4    mar
5    ene
dtype: object

### <font color='blue'>**Uso de una serie como función de mapeo**</font>

El método también admite como "función de mapeo" una serie:

In [145]:
meses = pd.Series(["ene", "feb", "mar"], index = [1, 2, 3])
meses

1    ene
2    feb
3    mar
dtype: object

In [146]:
ventas.map(meses)

0    ene
1    feb
2    ene
3    ene
4    mar
5    ene
dtype: object

En este caso, cada valor de la serie original (ventas, en nuestro ejemplo) se mapeará con el elemento cuya etiqueta coincida con él.

### <font color='blue'>**Uso de una función como función de mapeo**</font>

El tercer método al que podemos recurrir es utilizar una función que acepte como entradas los valores que se encuentren en la serie original y devuelva el resultado del mapeo. Por ejemplo:


In [None]:
def mes_str(n):
  if n == 1:
    return "ene"
  elif n == 2:
    return "feb"
  elif n == 3:
    return "mar"

In [None]:
ventas.map(mes_str)

## <font color='blue'>**El método DataFrame.apply**</font>

Los dataframes tienen un método con el mismo nombre que el método **apply** de las series, **pandas.DataFrame.apply**, pero con funcionalidad diferente pues, en el caso de los dataframes, se aplica a lo largo de un eje del dataframe. Esto quiere decir que el argumento de entrada de la función a utilizar no va a ser un simple escalar, sino una serie cuyo índice va a ser el índice de filas del dataframe (si la función se aplica al eje 0) o el índice de columnas del dataframe (si la función se aplica al eje 1). El resultado del método también será una serie que estará formada por los valores calculados.

Por ejemplo, si tenemos el siguiente dataframe con las ventas de los productos A, B, C y D a lo largo de los meses de enero, febrero y marzo:

In [147]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, 3]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3,1,3,7
feb,3,5,7,2
mar,1,2,2,3


Podríamos estar interesados en calcular el rango en el que se mueven las ventas, es decir, la diferencia entre el mayor y el menor valor de ventas. Para ello, sabiendo que dicho rango se va a aplicar a una fila o a una columna -es decir, a una serie-, definimos la siguiente función:

In [148]:
def rango(s):
  return max(s) - min(s)

Esta función acepta un iterable y devuelve la diferencia entre el valor máximo y el mínimo.

Ahora podemos aplicar esta función a nuestro dataframe de ventas. Por defecto se va a aplicar al eje 0 (eje vertical):

In [149]:
ventas.apply(rango)

A    2
B    4
C    5
D    5
dtype: int64

Si nos fijamos en la columna A, el valor máximo es 3 y el mínimo es 1, de forma que su diferencia es 2, tal y como se muestra en el resultado del método **apply**.

Si aplicamos el método a lo largo del eje 1 (eje horizontal), obtendremos la diferencia entre el mayor y el menor valor de cada fila:

In [None]:
ventas.apply(rango, axis = 1)

## <font color='blue'>**El método DataFrame.applymap**</font>

Al contrario de lo que ocurría con el método **apply** de los dataframes, el método **pandas.DataFrame.applymap** aplica una función que acepta y devuelve un único escalar, función que se va a aplicar a todos los elementos del dataframe.*texto en cursiva*

In [150]:
ventas = pd.DataFrame({"A": [3, 3, 1],
                   "B": [1, 5, 2],
                   "C": [3, 7, 2],
                   "D": [7, 2, 3]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3,1,3,7
feb,3,5,7,2
mar,1,2,2,3


Supongamos que queremos saber si los valores son pares o no. Para ello definimos una función que acepta un valor de entrada y devuelve el booleano True si el valor es par y False en caso contrario:

In [151]:
def par(n):
  if n/2 == n//2:
    return True
  else:
    return False

Ahora podemos aplicar el método añadiendo como argumento esta función:

In [152]:
ventas.applymap(par)

Unnamed: 0,A,B,C,D
ene,False,False,False,False
feb,False,False,False,True
mar,False,True,True,False


Comprobamos que el resultado es un dataframe del mismo tamaño que el dataframe original en el que cada valor se ha sustituido por el resultado de aplicar la función indicada.

# <font color='blue'>**Gestión de valores nulos**</font>

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real NaN ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

## <font color='blue'>**La función isnull**</font>

La función **pandas.isnull** devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano True si el correspondiente elemento es un valor nulo, y por el booleano False en caso contrario.

Esta función es equivalente a **pandas.isna**.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

In [None]:
pd.isnull(s)

Esta funcionalidad también está disponible como método:

In [None]:
s.isnull()

También podemos aplicarla a un dataframe:

In [None]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

In [None]:
pd.isnull(ventas)

In [None]:
ventas.isnull()

## <font color='blue'>**El método dropna**</font>

El método **dropna** permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método **pandas.Series.dropna** devuelve una nueva serie tras eliminar los valores nulos:


In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

In [None]:
s.dropna()

Aplicado a un dataframe, el método **pandas.DataFrame.dropna** ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [None]:
ventas.dropna()

Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [None]:
ventas.dropna(axis = 1)

Mediante el parámetro **how** podemos controlar cómo queremos que se aplique el método: si toma el valor "all", solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor "any" (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [None]:
ventas.dropna(how = "all")

Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

## <font color='blue'>**El método fillna**</font>

El método **fillna** permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, **pandas.Series.fillna**.

In [None]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

In [None]:
s.fillna(0)

Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** ("ffill"), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro **method**.

In [None]:
s.fillna(method = "ffill")

Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** ("bfill").

In [None]:
s.fillna(method = "bfill")

Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, **pandas.DataFrame.fillna**, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos. 

In [None]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Podemos sustituir los valores nulos por una cifra concreta.



In [None]:
ventas.fillna(0)

Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [None]:
ventas.fillna(method = "ffill")

Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [None]:
ventas.fillna(method = "bfill")

En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [None]:
ventas.fillna(axis = 1, method = "bfill").fillna(0)

# <font color='blue'>**Agrupaciones**</font>

Las agrupaciones realizadas con el método de series y dataframes **groupby** son una herramienta un tanto más sofisticada pero extremadamente útil en ciertas circunstancias. También resulta muy útil la creación de tablas dinámicas a partir de un dataframe utilizando el método **pivot_table**. Veamos algunos ejemplos sencillos de estas funciones.

## <font color='blue'>**Agrupaciones en series**</font>

El método que permite agrupar una serie es **pandas.Series.groupby**. En su sintaxis más básica, requiere el parámetro **by** o el parámetro **level**.

In [22]:
ventas = pd.Series([2, 4, 1, 6, 2], index = ["A", "B", "C", "A", "C"])
ventas

A    2
B    4
C    1
A    6
C    2
dtype: int64

El parámetro **by** se usa para determinar los grupos. Puede ser una función -que se aplicará a todos los elementos del índice-, un diccionario o una serie -en cuyo caso serán los valores los que determinen los grupos.

Para ver el método **groupby** en funcionamiento con una función que determine los grupos, definamos una que simplemente devuelva la concatenación del texto "Grupo " y el valor que recibe: recordemos que esta función se va a aplicar sobre el índice de la serie, es decir, sobre los elementos "A", "B", etc. La función devolverá, por lo tanto, "Grupo A", "Grupo B", etc. y serán estas etiquetas las que determinen los grupos:



In [23]:
def grupo(s):
  return("Grupo " + s)

El resultado de la agrupación es un objeto (SeriesGroupBy en el caso de las series) que contiene información sobre las agrupaciones pero no es visible. Lo que sí podemos hacer es aplicar a este objeto una función de agregación, por ejemplo el método **mean()** para obtener el valor medio de la serie original para cada uno de los grupos. En este caso tendríamos:

In [24]:
ventas.groupby(by = grupo).mean()

Grupo A    4.0
Grupo B    4.0
Grupo C    1.5
dtype: float64

Hemos comentado que el método puede también recibir como parámetro **by** un diccionario, en cuyo caso serán los valores los que determinen los nombres de los grupos a crear tras mapear las claves del diccionario con las etiquetas de la serie. En nuestro caso, las etiquetas de la serie son "A", "B", etc., por lo que podemos usar el siguiente diccionario para mapear estos valores con los nombres de los grupos a crear: "Producto A", "Producto B", etc. en este ejemplo:

In [25]:
d = {"A": "Producto A", "B": "Producto B", "C": "Producto C"}
d

{'A': 'Producto A', 'B': 'Producto B', 'C': 'Producto C'}

Ahora, si aplicamos el método con este diccionario:

In [157]:
ventas.groupby(by = d).mean()

Producto A    4.0
Producto B    4.0
Producto C    1.5
dtype: float64

Vemos que obtenemos un resultado semejante al anterior.

Si, en lugar de hacer uso del parámetro **by**, hacemos uso del parámetro **level**, tendríamos que indicar el nivel del índice según el cual queremos realizar la agrupación (lo que tiene sentido en series con multi índice o índice jerárquico). Si indicamos como nivel el 0, sencillamente estaremos agrupando según las etiquetas de la serie.

In [162]:
ventas.groupby(level = 0).mean()

A    4.0
B    4.0
C    1.5
dtype: float64

## <font color='blue'>**Agrupaciones en dataframes**</font>

El método **pandas.DataFrame.groupby** tiene una funcionalidad semejante a la vista para series, con los condicionantes propios de los dataframes: es necesario indicar el eje que contiene el criterio por el que se va a realizar la agrupación. Comencemos con un ejemplo sencillo.

In [26]:
ventas = pd.DataFrame({
    "Producto": ["A", "B", "C", "B", "A", "A"],
    "Ventas": [6, 2, 1, 4, 5, 2]
})
ventas

Unnamed: 0,Producto,Ventas
0,A,6
1,B,2
2,C,1
3,B,4
4,A,5
5,A,2


En el caso de los dataframes, el parámetro **by** puede hacer referencia a una función, a un diccionario, a una etiqueta o a una lista de etiquetas. Si pasamos simplemente la etiqueta "Producto" para indicar que la agrupación se realice según los valores de esta columna, tenemos:

In [27]:
ventas.groupby(by = "Producto").mean()

Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
A,4.333333
B,3.0
C,1.0


Si quisiéramos realizar la agrupación por más de una columna, bastaría con pasar como argumento una lista con las etiquetas en cuestión. Por ejemplo, consideremos el siguiente caso en el que tenemos las ventas clasificadas por categoría y producto:



In [31]:
ventas = pd.DataFrame({
    "Categoría": [1, 2, 1, 1, 2, 1],
    "Producto": ["A", "B", "C", "B", "A", "A"],
    "Ventas": [6, 2, 1, 4, 5, 2]
})
ventas

Unnamed: 0,Categoría,Producto,Ventas
0,1,A,6
1,2,B,2
2,1,C,1
3,1,B,4
4,2,A,5
5,1,A,2


Si aplicamos ahora el método **groupby** con el argumento by = ["Categoría", "Producto"], tenemos:

In [30]:
ventas.groupby(by = ["Categoría", "Producto"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Categoría,Producto,Unnamed: 2_level_1
1,A,4
1,B,4
1,C,1
2,A,5
2,B,2


Este ejemplo tiene demasiados pocos datos para ser significativo, pero aun así es posible ver que el método ha agrupado todas las ventas según la combinación de categoría y producto, y se ha calculado el valor medio. Por ejemplo, hay dos ventas de categoría 1 y producto A, de valores 6 y 2. La media, tal y como se muestra es de 4.

También podríamos usar el parámetro **level**. En el caso de estar trabajando con dataframes con índices no jerárquicos, basta pasar como valor para este argumento el 0 para que la agrupación se realice según las etiquetas del índice. Por ejemplo, consideremos el siguiente dataframe:

In [None]:
ventas = pd.DataFrame({
    "Ventas": [6, 2, 1, 4, 5, 2]
}, index = ["A", "B", "C", "B", "A", "A"])
ventas

Si ejecutamos el método con el argumento level = 0, obtendríamos el siguiente resultado:


In [None]:
ventas.groupby(level = 0).mean()

## <font color='blue'>**Tablas dinámicas**</font>

Una tabla dinámica (o pivot table en inglés) es una tabla que muestra información resumida extraída de otra tabla. Esta última es un listado de muestras (registros o puntos) con un cierto número de campos o características, por ejemplo:

In [163]:
df = pd.DataFrame({
    'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
    'baz': [1, 2, 3, 4, 5, 6],
    'zoo': ['x', 'y', 'z', 'q', 'w', 't']
})
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


Una tabla dinámica va a agrupar información a partir de esta tabla de la siguiente forma:

1. Va a seleccionar una (o más) características para ocupar el índice de filas, de forma que cada valor que tome dicha característica se muestre en una fila
2. Va a seleccionar una (o más) características para ocupar el índice de columnas, de forma que cada valor que tome dicha característica se muestre en una columna
3. Va a seleccionar una (o más) características para ocupar las intersecciones de filas y columnas
4. Al conjunto de registros representados en cada una de esas intersecciones les va a aplicar una función de agregación, que puede ser tan simple como un recuento, cálculo del valor medio, etc.

El método **pandas.DataFrame.pivot_table** crea una tabla dinámica de esta forma a partir de un dataframe. Veamos varios ejemplos comenzando por los más simples:

En el dataframe visto comprobamos que la características foo toma dos posibles valores (one y two), y la característica bar toma tres (A, B y C). Podríamos mostrar la distribución de la variable baz respecto de foo y bar de la siguiente forma:

In [164]:
df.pivot_table(index = "foo", columns = "bar", values = "baz")

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


En este caso, los valores que toma la característica incluida en el parámetro index van a distribuirse a lo largo del eje vertical, y los valores que toma la característica incluida en el parámetro *columns* van a distribuirse a lo largo del eje horizontal. Los valores que toma la variable incluida en el parámetro values van a la intersección de filas y columnas, aplicándoseles una cierta función de agregación que, por defecto, es **np.mean** (cálculo del valor medio). El ejemplo mostrado es muy pequeño y para cada intersección de filas y columnas solo hay un registro, de forma que el valor medio del valor contenido en la columna baz de cada registro coincide con el mismo valor. Por ejemplo, la intersección de foo = one y bar = A representa un conjunto de registros del dataframe que, en nuestro caso, se limita a un único registro (el registro con índice 0) en el que el valor de baz es 1, y su valor medio es 1.

Podemos aplicar otra función de agregación utilizando el parámetro **aggfunc**.

In [167]:
df.pivot_table(index = "foo", columns = "bar", values = "baz", aggfunc = "count")

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,1,1
two,1,1,1


En este ejemplo hemos contado el número de registros representados en cada intersección.

Es posible aplicar más de una función de agregación a los datos. En el siguiente ejemplo aplicamos tanto la función de cálculo del valor medio como el recuento:

In [166]:
df.pivot_table(index = "foo", columns = "bar", values = "baz", aggfunc = [np.mean, "count"])

Unnamed: 0_level_0,mean,mean,mean,count,count,count
bar,A,B,C,A,B,C
foo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
one,1,2,3,1,1,1
two,4,5,6,1,1,1


Como puede comprobarse, pandas crea un conjunto de columnas diferente para cada función de agregación.

Hagamos algunos ejemplos con un dataset un poco más rico en contenido, por ejemplo el dataset del Titanic:

In [168]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Mostremos el valor medio de la característica survived (es decir, el porcentaje de los que sobrevivieron) desglosando la tabla por sexo y clase:

In [169]:
titanic.pivot_table(index = "sex", columns = "class", values = "survived")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Si llevamos dos (o más) campos a index, los valores que tome el primero de ellos se desglosa a su vez según los valores que tome el segundo. Por ejemplo, podemos repetir el ejercicio anterior desglosando las filas por sexo y puerto de embarque:

In [170]:
titanic.pivot_table(index = ["sex", "embarked"], columns = "class", values = "survived")

Unnamed: 0_level_0,class,First,Second,Third
sex,embarked,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,C,0.976744,1.0,0.652174
female,Q,1.0,1.0,0.727273
female,S,0.958333,0.910448,0.375
male,C,0.404762,0.2,0.232558
male,Q,0.0,0.0,0.076923
male,S,0.35443,0.154639,0.128302


In [173]:
titanic.pivot_table(index = ["sex", "embarked"], columns = "class", values = "survived", aggfunc = 'count')

Unnamed: 0_level_0,class,First,Second,Third
sex,embarked,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,C,43,7,23
female,Q,1,2,33
female,S,48,67,88
male,C,42,10,43
male,Q,1,1,39
male,S,79,97,265


De forma semejante, si llevamos dos (o más) campos a columns, los valores que tome el primero de ellos se desglosa a su vez según los valores que tome el segundo. En el siguiente ejemplo queremos analizar el valor medio de la edad de los pasajeros por clase (en filas) y por sexo y si viajaba o no solo (por columnas):

In [174]:
titanic.pivot_table(index = "class", columns = ["sex", "alone"], values = "age")

sex,female,female,male,male
alone,False,True,False,True
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,34.415094,34.9375,37.466383,44.601852
Second,25.545455,33.383333,25.203611,33.904762
Third,20.671875,23.565789,18.92303,29.184492


Por último, si llevamos dos (o más) campos a values, pandas va a crear un conjunto de columnas para cada uno de dichos campos:

In [175]:
titanic.pivot_table(index = "sex", columns = "class", values = ["survived", "age"])

Unnamed: 0_level_0,age,age,age,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,34.611765,28.722973,21.75,0.968085,0.921053,0.5
male,41.281386,30.740707,26.507589,0.368852,0.157407,0.135447


Este método incluye también parámetros que permite rellenar los valores nulos (**fill_value**) y añadir subtotales de filas y columnas (**margins**).

## <font color='green'>**Ejercicio 3**</font>

Se tiene un conjunto de restaurantes en ciudades de Chile, en las que se tiene cada ciudad y el tipo de cocina en cada una.



```
data_restaurantes = {
    'ciudades': ['Valparaíso','Valparaíso','Valparaíso','Valparaíso','Valparaíso','Valparaíso','Santiago','Santiago','Santiago','Santiago','Santiago','Punta Arenas','Punta Arenas','Punta Arenas'],
    'culinaria': ['Chorrillana','Chorrillana','Charquicán','Pulmay','Tallarines','Chorrillana','Tallarines','Charquicán','Porotos','Chorrillana','Porotos','Porotos','Tallarines','Charquicán']
}

restaurantes_dataframe_pares = pd.DataFrame(data_restaurantes)
restaurantes_dataframe_pares
```

1. Generar una tabla que permita contar la presencia de cada tipo de cocina en cada ciudad.
2. Genera una tabla sólo para la ciudad de Valparaíso.



In [202]:
#Solución
data_restaurantes = {
    'ciudades': ['Valparaíso','Valparaíso','Valparaíso','Valparaíso','Valparaíso','Valparaíso','Santiago','Santiago','Santiago','Santiago','Santiago','Punta Arenas','Punta Arenas','Punta Arenas'],
    'culinaria': ['Chorrillana','Chorrillana','Charquicán','Pulmay','Tallarines','Chorrillana','Tallarines','Charquicán','Porotos','Chorrillana','Porotos','Porotos','Tallarines','Charquicán']
}
df_res = pd.DataFrame(data_restaurantes)

df_res

Unnamed: 0,ciudades,culinaria
0,Valparaíso,Chorrillana
1,Valparaíso,Chorrillana
2,Valparaíso,Charquicán
3,Valparaíso,Pulmay
4,Valparaíso,Tallarines
5,Valparaíso,Chorrillana
6,Santiago,Tallarines
7,Santiago,Charquicán
8,Santiago,Porotos
9,Santiago,Chorrillana


In [226]:
df_res.groupby(['ciudades']).count()

Unnamed: 0_level_0,culinaria
ciudades,Unnamed: 1_level_1
Punta Arenas,3
Santiago,5
Valparaíso,6


In [230]:
# Parte 1
df_res.pivot_table(index = 'ciudades', columns = 'culinaria', aggfunc = 'size', fill_value = 0)

culinaria,Charquicán,Chorrillana,Porotos,Pulmay,Tallarines
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Punta Arenas,1,0,1,0,1
Santiago,1,1,2,0,1
Valparaíso,1,3,0,1,1


In [228]:
df_res.groupby(['ciudades','culinaria']).size().to_frame('presencia')

Unnamed: 0_level_0,Unnamed: 1_level_0,presencia
ciudades,culinaria,Unnamed: 2_level_1
Punta Arenas,Charquicán,1
Punta Arenas,Porotos,1
Punta Arenas,Tallarines,1
Santiago,Charquicán,1
Santiago,Chorrillana,1
Santiago,Porotos,2
Santiago,Tallarines,1
Valparaíso,Charquicán,1
Valparaíso,Chorrillana,3
Valparaíso,Pulmay,1


In [232]:
valpo = df_res[df_res['ciudades'] == 'Valparaíso'][['culinaria']]

In [241]:
valpo = df_res.pivot_table(index = 'ciudades', columns = 'culinaria', aggfunc = 'size', fill_value = 0).loc['Valparaíso']

culinaria
Charquicán     1
Chorrillana    3
Porotos        0
Pulmay         1
Tallarines     1
Name: Valparaíso, dtype: int64


## <font color='green'>**Fin ejercicio 3**</font>
