# <font color='blue'>**Librería Pandas - Parte 2**</font>

In [None]:
import numpy as np
import pandas as pd

# <font color='blue'>**Edición de Series**</font>

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a las etiquetas.



In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

In [None]:
s[0] = -1
s["b"] = -2
s

Podemos asignar un valor a un rango, definido por índices o por etiquetas, asignando el valor a cada uno de los elementos involucrados en el rango.

In [None]:
s[1:3] = 0
s

In [None]:
s["b":"d"]
s

Si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye.

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión.

In [None]:
s[1:3] = [0, 1]
s

In [None]:
s["b":"d"] = [10, 11, 12]
s

Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor.

In [None]:
s["f"] = 0
s

Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en la serie, se devolverá un error.

Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes.

In [None]:
s["f":"h"] = 0
s

Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso se seleccionan los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente.

In [None]:
s[["c", "a"]] = [1, 2]
s

In [None]:
s[[1, 0]] = [20, 21]
s

## <font color='blue'>**Eliminación de elementos en una Serie**</font>

El método **pandas.Series.drop** devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

In [None]:
r = s.drop("b")
r

En este ejemplo se ha pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También se puede pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas.

In [None]:
r = s.drop(["d", "a"])
r

Las etiquetas no tienen que estar en orden.

El argumento **inplace = True** realiza la eliminación inplace (modificando directamente la serie).

Este método exige el uso de etiquetas para seleccionar los elementos a eliminar. Esto significa que si en un momento dado necesitamos eliminar uno o más elementos por su índice, deberemos convertirlos en sus correspondientes etiquetas, lo que resulta extremadamente sencillo seleccionando los elementos adecuados del index.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

Si se desea eliminar los elementos cuyos índices son 1 y 3, basta utilizar el atributo *index* para que devuelve todas las etiquetas.

In [None]:
s.index[[1, 3]]

In [None]:
s.drop(s.index[[1, 3]])

Otra forma para eliminar un elemento de una serie es el método **pandas.Series.pop**. Al igual que con el método drop, éste solo acepta una etiqueta y devuelve el valor correspondiente a dicha etiqueta, eliminándolo de la serie in-place.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s.pop("b")
s

Si la etiqueta no se encuentra en el index, el método devolverá un error.

## <font color='blue'>**Método where**</font>

El método **pandas.Series.where** permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. Los valores que no la cumplan son sustituidos por un valor (NaN por defecto).

In [None]:
s = pd.Series(np.arange(0,10))
s

Por ejemplo, filtrar los elementos de $s$ que sean pares.

In [None]:
s.where(s % 2 == 0)

Los valores que no cumplen la condición son sustituidos por NaN. Es posible modificar este valor de reemplazo pasando al método como segundo argumento el valor que se quiere fijar.

In [None]:
s.where(s % 2 == 0, -1)

# <font color='blue'>**Edición de Dataframes**</font>

Existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos **loc** o **iloc**, en función de que queramos usar sus etiquetas o índices.



In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[1, 2] = -1
df

Es posible modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["A"] = [10, 20, 30, 40]
df

En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]]
df

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = -1
df

También es posible insertar datos en una columna o fila inexistente, en cuyo caso se crea y se le asignan los valores en cuestión.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["D"] = [10, 20, 30, 40]
df

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["e"] = [10, 20, 30]
df

## <font color='blue'>**Método where**</font>

De forma semejante a las series, el método de los dataframes **where** filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es NaN.

In [None]:
df = pd.DataFrame(np.arange(12).reshape(-1, 3), columns = ["A", "B", "C"])
df

Filtrar los valores múltiplos de 2:

In [None]:
df.where(df % 2 == 0)

Todos aquellos valores que no son múltiplo de 2 son sustituidos por NaN. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [None]:
df.where(df % 2 == 0, -df)

## <font color='blue'>**Eliminación de elementos en un dataframe**</font>

El método **pandas.DataFrame.drop** elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

El primer criterio consiste en indicar la lista de etiquetas a eliminar y el eje al que pertenecen.

In [None]:
df = pd.DataFrame(np.arange(16).reshape([4, 4]), 
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C", "D"])
df

Eliminar las filas cuyas etiquetas son "a" y "c".

In [None]:
df.drop(["a", "c"], axis = 0)

In [None]:
df.drop(["a", "c"])

Obsérvese que lo que se muestra es el resultado de eliminar las filas indicadas del dataframe. Éste no se modifica salvo que utilicemos el argumento **inplace = True**.

Para eliminar columnas, habría que indicar el eje correspondiente.

In [None]:
df.drop(["B", "D"], axis = 1)

Otra alternativa para especificar si se están eliminando filas o columnas es utilizar directamente los parámetros **index** y **columns**. Así, otra forma de eliminar las filas "a" y "c" sería la siguiente:



In [None]:
df.drop(index = ["a", "c"])

In [None]:
df.drop(columns = ["B", "D"])

## <font color='green'>**Ejercicio 1**</font>

En la liga del diplomado de ciencia de datos juegan 6 equipos: Equipo A, Equipo B, Equipo C, Equipo D, Equipo E y el **Equipo de Profes** (Campeón invicto).

La imagen muestra la tabla resumen con los resultados de la liga.

<img src='https://drive.google.com/uc?export=view&id=1xW3fW4RrTim0N6hGjT51QxBOW-e36if8' width="800" align="center" style="margin-right: 20px">

1. Generar el dataframe tabla_posiciones con la información de la tabla anterior.
2. Determinar para cada equipo la diferencia de goles (goles a favor -  goles en contra) y agregar esta información al dataframe.
3. Determinar la posición de cada equipo en la liga y presentar la información ordenada.
4. Durante la confrontación entre el Equipo A y el **Equipo de Profes** que fue ganada por A. El equipo A tenía más jugadores en cancha que los reglamentarios (tramposos!!!), por lo que la comisión disciplinaria decidió: i) descontar los puntos al equipo A y entregarlos (justamente) al **Equipo de Profes**, ii) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
5. El premio al fair play se entrega al equipo con mejor comportamiento, para ello, se deben sumar las tarjetas acumuladas (tanto amarillas como rojas) en donde a las tarjetas rojas se les aplica un castigo multiplicándolas por 2, en caso de empate se selecciona al con menor número de tarjetas rojas, si se mantiene el empate el premio es para el equipo con menor número de tarjetas totales. Cree una columna fair play con el indicador descrito y determine el ganador del premio.
6. El último lugar de la tabla desciende de la liga y por lo tanto debe ser eliminado del dataframe.


In [59]:
#Parte 1
dic1 = {'Puntos': [30, 25, 27, 17, 19, 23], 'Goles a favor': [65, 45, 60, 30, 25, 45], 'Goles en contra': [10, 15, 20, 60, 30, 20], 'Tarjetas Amarillas': [7, 2, 4, 4, 9, 4], 'Tarjetas Rojas': [3,2,2,4,5,1]}
indices = ['Equipo A', 'Equipo B', 'Equipo Profes', 'Equipos C','Equipos D', 'Equipo E']

tabla_posiciones = pd.DataFrame(dic1, index = indices)
print(tabla_posiciones)

               Puntos  Goles a favor  Goles en contra  Tarjetas Amarillas  \
Equipo A           30             65               10                   7   
Equipo B           25             45               15                   2   
Equipo Profes      27             60               20                   4   
Equipos C          17             30               60                   4   
Equipos D          19             25               30                   9   
Equipo E           23             45               20                   4   

               Tarjetas Rojas  
Equipo A                    3  
Equipo B                    2  
Equipo Profes               2  
Equipos C                   4  
Equipos D                   5  
Equipo E                    1  


In [60]:
tabla_posiciones['Diferencia de goles'] = tabla_posiciones['Goles a favor'] - tabla_posiciones['Goles en contra']
print(tabla_posiciones)

               Puntos  Goles a favor  Goles en contra  Tarjetas Amarillas  \
Equipo A           30             65               10                   7   
Equipo B           25             45               15                   2   
Equipo Profes      27             60               20                   4   
Equipos C          17             30               60                   4   
Equipos D          19             25               30                   9   
Equipo E           23             45               20                   4   

               Tarjetas Rojas  Diferencia de goles  
Equipo A                    3                   55  
Equipo B                    2                   30  
Equipo Profes               2                   40  
Equipos C                   4                  -30  
Equipos D                   5                   -5  
Equipo E                    1                   25  


In [66]:
tabla_posiciones.sort_values('Puntos', ascending = False, inplace = True)
tabla_posiciones['Posiciones'] = list(range(1, len(indices) + 1))

In [67]:
# Parte 1
tabla_posiciones.loc['Equipo A', 'Puntos'] -= 3
tabla_posiciones.loc['Equipo Profes', 'Puntos'] += 3

# Parte 2
tabla_posiciones.loc['Equipo Profes', 'Goles a favor'] += 3

In [68]:
# Nueva tabla
tabla_posiciones.sort_values('Puntos', ascending = False, inplace = True)
tabla_posiciones

Unnamed: 0,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de goles,Posiciones
Equipo Profes,33,66,20,4,2,40,1
Equipo B,25,45,15,2,2,30,3
Equipo A,24,65,10,7,3,55,2
Equipo E,23,45,20,4,1,25,4
Equipos D,19,25,30,9,5,-5,5
Equipos C,17,30,60,4,4,-30,6


## <font color='green'>**Fin ejercicio 1**</font>

# <font color='blue'>**Unión de series y dataframes**</font>

Muchas veces nos encontramos con que los datos a analizar están repartidos entre dos o más bloques de datos, lo que nos obliga a unirlos, bien concatenándolos, o bien realizando un "join" entre las estructuras (uniones del mismo tipo que las realizadas en bases de datos).

## <font color='blue'>**Unión de series**</font>


## <font color='blue'>**Función concat**</font>

Un caso con el que nos encontramos con relativa frecuencia es aquel en el que queremos unir una serie a otra.

In [2]:
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
r = pd.Series([10, 11, 12], index = ["f", "g", "h"])

Si deseamos unir $r$ y $s$ en una nueva serie, podemos usar la función **pandas.concat**. Esta función permite especificar el eje a lo largo del cual unir los diferentes objetos (pueden ser series o dataframes). Por defecto, la concatenación se realiza a lo largo del eje 0.

In [3]:
t = pd.concat([s, r])
print(type(t))
t

<class 'pandas.core.series.Series'>


a     1
b     2
c     3
d     4
e     5
f    10
g    11
h    12
dtype: int64

El resultado es una serie.

In [5]:
a = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
b = pd.Series([10, 11, 12], index = ["a", "b", "f"])
print(a)
print( )
print(b)

a    1
b    2
c    3
d    4
e    5
dtype: int64

a    10
b    11
f    12
dtype: int64


Si especificamos como eje de concatenación el eje 1, pandas alineará los valores con idénticas etiquetas. En el siguiente ejemplo, las series $a$ y $b$ tienen algunas etiquetas comunes (y otras no). El resultado incluye todas las etiquetas asignando el valor NaN ("Not a Number") a aquellos valores desconocidos.



In [6]:
pd.concat([a,b], axis = 1)

Unnamed: 0,0,1
a,1.0,10.0
b,2.0,11.0
c,3.0,
d,4.0,
e,5.0,
f,,12.0


In [None]:
type(pd.concat([a,b], axis = 1))

Como puede observarse, el resultado es un dataframe.

Por otro lado, las etiquetas del índice no tienen por qué ser diferentes, de forma que si se estuviesen concatenando series con etiquetas comunes en sus índices, el resultado sería equivalente a los vistos hasta ahora.

In [None]:
s = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
r = pd.Series([10, 11, 12], index = ["a", "c", "e"])
print(a)
print( )
print(b)

In [None]:
pd.concat([s, r])

En este ejemplo se han concatenado dos series que tienen dos etiquetas comunes ("a" y "c"), y se puede observar que las dos apariciones de cada una de ellas se incluyen en el resultado de la concatenación.

## <font color='blue'>**Método append**</font>

Otra alternativa es usar el método **pandas.Series.append**, versión simplificada de la función concat ya vista que devuelve la unión de la serie sobre la que se aplica con otra (u otras) series, pero solo a lo largo del eje 0.

In [None]:
a = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
b = pd.Series([10, 11, 12], index = ["f", "g", "h"])
print(a)
print( )
print(b)

In [None]:
c = a.append(b)
c

Si el argumento **ignore_index** toma el valor True, se ignoran las etiquetas de las series.

In [None]:
c = a.append(b, ignore_index = True)
c

## <font color='blue'>**Concatenación y unión de dataframes**</font>

Ésta es otra de las áreas en las que la variedad de opciones puede resultar confusa. A modo de resumen, digamos que pandas ofrece dos principales funciones con este objetivo: **pandas.concat** y **pandas.merge**.

* La función **concat** permite concatenar dataframes a lo largo de un determinado eje
* La función **merge** permite realizar uniones (joins) entre dataframes tal y como se realizan en bases de datos. Esta función también está disponible como método: **pandas.DataFrame.merge**

Hay una tercera función que está disponible solo como método: **pandas.DataFrame.append**. El método **append** ofrece una funcionalidad semejante a la de la función concat pero reducida. Así, por ejemplo, solo permite realizar concatenaciones a lo largo del eje 0 (es decir, verticalmente).

## <font color='blue'>**Función concat**</font>

La función **pandas.concat** es la responsable de concatenar dos o más dataframes (y de todas las estructuras proveídas por pandas) a lo largo de un eje, con soporte a lógica de conjuntos a la hora de gestionar etiquetas en ejes no coincidentes.

In [None]:
df1 = pd.DataFrame(np.arange(9).reshape([3, 3]),
                   index = ["a", "b", "d"],
                   columns = ["A", "B", "C"])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape([4, 3]),
                   index = ["a", "b", "c", "e"],
                   columns = ["B", "C", "D"])
df2

Si pasamos a la función concat ambos dataframes como primer argumento (en forma de lista), obtenemos el siguiente resultado:

In [None]:
pd.concat([df1, df2])

Por defecto, la concatenación se ha realizado a lo largo del eje 0 (eje vertical), uniendo los índices de fila de ambos dataframes, y alineando las columnas por su etiqueta. Los valores para los que no hay datos se han rellenado con NaN.

Si especificamos que la concatenación se realice a lo largo del eje 1 (eje horizontal), el resultado es el siguiente:

In [None]:
pd.concat([df1, df2], axis = 1)

De modo semejante al primer ejemplo, se han introducido NaN's donde no había datos, y se han alineado las filas por su etiqueta.

Estos dos ejemplos vistos son tipo **"Outer"** (opción por defecto), considerando todas las etiquetas de los dos dataframes aun cuando no sean comunes a ambos. Pero si especificamos el argumento **join = "Inner"**, los resultados pasan a considerar solo las etiquetas comunes.

In [None]:
pd.concat([df1, df2], join = "inner")

Incluye solo las columnas B y C comunes a ambos dataframes. Y para el segundo ejemplo tenemos:

In [None]:
pd.concat([df1, df2], axis = 1, join = "inner")

Incluyendo solo las filas a y b comunes a ambos dataframes.

El parámetro **ignore_index** controla el índice a asignar al eje a lo largo del cuál se realiza la concatenación. Si este parámetro toma el valor False (por defecto), el eje de concatenación mantiene las etiquetas de los dataframes originales. Si toma el valor True, se ignoran dichas etiquetas y el resultado de la concatenación recibe un nuevo índice automático numérico. 

In [None]:
pd.concat([df1, df2], axis = 1, join = "inner", ignore_index = True)

## <font color='blue'>**Método append**</font>

El método **pandas.DataFrame.append** es un atajo de la función concat que ofrece funcionalidad semejante pero limitada: no permite especificar el eje de concatenación (siempre es el eje 0) ni el tipo de "join" (siempre es tipo "Outer").

In [None]:
df1 = pd.DataFrame(np.arange(9).reshape([3, 3]),
                   index = ["a", "b", "d"],
                   columns = ["A", "B", "C"])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12).reshape([4, 3]),
                   index = ["a", "b", "c", "e"],
                   columns = ["B", "C", "D"])
df2

In [None]:
df1.append(df2)

Al igual que ocurría con la función **concat**, el parámetro ignore_index nos permite controlar las etiquetas que recibe el índice del resultado: las de los dataframes originales (con ignore_index = False, opción por defecto), o uno nuevo automático (con ignore_index = True).

## <font color='blue'>**Función Merge**</font>

La función **pandas.merge** nos permite realizar "joins" entre tablas. El join es realizado sobre las columnas o sobre las filas. En el primer caso, las etiquetas de las filas son ignoradas. En cualquier otro caso (joins realizado entre etiquetas de filas, o entre etiquetas de filas y de columnas), las etiquetas de filas se mantienen.


In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "feb", "mar", "may"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "Mes": ["feb", "ene", "mar", "abr"],
    "Costos": [7, 6, 8, 5]
})
df2

Ambos dataframes tienen una columna común ("Month") y varias filas comunes ("ene", "feb" y "mar"). Obsérvese que en df2 las filas no están ordenadas y que, en df1, el mes de enero tiene índice 0 mientras que, en df2, el mes de enero tiene índice 1.

Si aplicamos la función merge a estos dataframes con los valores por defecto, obtenemos el siguiente resultado.

In [None]:
pd.merge(df1, df2)

Esos valores por defecto suponen que el join se realiza sobre las columnas comunes y tipo "inner" (considerando solo las filas con etiquetas comunes).

Si especificamos que el join sea de tipo "outer", lo que definimos con el parámetro how, el resultado considerará todas las etiquetas presentes en ambos dataframes.

In [None]:
pd.merge(df1, df2, how = "outer")

Se rellena con NaN's los valores inexistentes. Otras opciones para el parámetro how son "left" y "right" (además de la opción por defecto, "outer").

Por defecto, el join se realiza entre las columnas comunes. Esto es, sin embargo, controlable usando el parámetro **on** y especificando la columna o columnas a usar.

In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "ene", "feb", "feb"],
    "Producto": ["A", "B", "A", "B"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "Mes": ["ene", "ene", "feb", "feb"],
    "Producto": ["A", "B", "A", "B"],
    "Costo": [7, 6, 8, 5]
})
df2

Hay dos columnas comunes, lo que supone que el resultado de un merge por defecto sería el siguiente:

In [None]:
pd.merge(df1, df2)

Es decir, para cada combinación de Mes-Producto se añadirían los valores de los campos de ventas y costo. Si se quiere que el join se realice solo por uno de los campos, Producto, por ejemplo, bastaría con especificarlo con el parámetro on.

In [None]:
pd.merge(df1, df2, on = "Producto")

Además del campo utilizado para realizar el join ("Producto"), al existir un campo común a ambos dataframes ("Mes") que no se desea usar para el join, pandas añade un sufijo (configurable) a este campo en ambas tablas para poder diferenciarlo.

También podría ocurrir que ambos dataframes no tuviesen columnas comunes (columnas con el mismo nombre) pero que, aun así, quisiéramos realizar el join por algunas de ellas. Por ejemplo:

In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "feb", "mar", "may"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "NombreMes": ["feb", "ene", "mar", "abr"],
    "Costos": [7, 6, 8, 5]
})
df2

Al no haber columnas comunes, la ejecución de la función merge devolvería un error. En este caso podemos usar los parámetros **left_on** y **right_on** para especificar el campo a usar en la tabla de la izquierda del join y en la de la derecha, respectivamente.

In [None]:
pd.merge(df1, df2, left_on = "Mes", right_on = "NombreMes")

## <font color='blue'>**Join por filas**</font>

Si queremos que el join considere las filas -y no las columnas- de alguno de los dataframes para realizar el join, podemos usar los parámetros **left_index** y **right_index**.


In [None]:
df1 = pd.DataFrame({
    "Mes": ["ene", "feb", "mar", "may"],
    "Ventas": [14, 8, 12, 17]
})
df1

In [None]:
df2 = pd.DataFrame({
    "Compras": [5, 9, 11, 2, 6]},
    index = ["ene", "feb", "mar", "abr", "may"]
)
df2

La ejecución de la función **merge** no sería posible -devolvería un error- pues no hay columnas columnes. En este caso querríamos que para el dataframe df1 se considerase la columna "Mes" -usando el parámetro left_on- y para el dataframe df2 el índice -usando el parámetro right_index-, de la siguiente forma:

In [None]:
pd.merge(df1, df2, left_on = "Mes", right_index = True)

# <font color='blue'>**Operaciones con estructuras pandas**</font>

Al basarse la bibliteca **pandas** en **NumPy**, todas las funciones universales de esta última funcionan con pandas, pero con una particularidad: al aplicar operaciones unarias se conservan las etiquetas de filas y columnas, y en funciones binarias, se van a alinear las filas y columnas de las estructuras involucradas por sus etiquetas.

## <font color='blue'>**Operaciones con series**</font>

Si aplicamos una función unaria a una serie, el resultado es otra serie que conserva los índices de la original.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
r

In [None]:
print(type(np.square(r)))
np.square(r)

Por otro lado, los operadores aritméticos que involucran dos o más series van a alinear las etiquetas antes de ejecutarse.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

In [None]:
r + s

En este ejemplo, se han sumado dos series cuyas etiquetas no son todas comunes. Pandas rellena los valores no coincidentes con NaN.

Si se utiliza el método **pandas.Series.add** se asigna a la serie sobre la que se aplica el método el resultado de la suma.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
r.add(s)

Usando este método es posible especificar el valor a usar para rellenar los elementos desconocidos usando el parámetro **fill_value**.



In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

In [None]:
r.add(s, fill_value = 0)

Con este atributo, no estamos simplemente sustituyendo los NaN del resultado por el valor indicado, sino que estamos usando dicho valor como alternativa a los valores de las series originales que no existiesen.

Otras funciones son:

* **pandas.Series.sub**, que resta una serie a otra, elemento por elemento
* **pandas.Series.mul**, que multipica una serie por otra, elemento por elemento
* **pandas.Series.div**, que divide una serie por otra, elemento por elemento
* **pandas.Series.round**, que redondea los elementos de una serie al número de decimales indicado.

En la documentación oficial está el listado completo de funciones disponibles para las series, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**Operaciones con dataframes**</font>

Las operaciones binarias alinearán los datos de los dataframes involucrados según sus etiquetas de filas y columnas antes de ejecutarse.

In [None]:
df1 = pd.DataFrame({"A": [2, 4, 2],
                    "B": [1, 0, 4],
                    "C": [7, 3, 4],
                    "D": [3, 1, 5]},
                   index = ["ene", "feb", "mar"])
df1

In [None]:
df2 = pd.DataFrame({"A": [3, 5, 2],
                    "C": [1, 2, 3],
                    "D": [4, 3, 4],
                    "E": [6, 3, 1]},
                   index = ["feb", "mar", "abr"])
df2

In [None]:
df1 + df2

Pandas inserta NaN's en aquellas combinaciones de etiquetas para las que no hay un valor en ambos dataframes.

La alineación se produce con independencia del orden en el que las etiquetas aparezcan en los índices.

Podemos realizar la misma operación y asignar el resultado a uno de los dataframes con el método **pandas.DataFrame.add**.

In [None]:
df1.add(df2)

Con este método, de forma semejante a como ocurría con las series, es posible establecar un valor predeterminado para aquellos valores que no se encuentren en uno de los dataframes usando el parámetro **fill_value**.

In [None]:
df1.add(df2, fill_value = 0)

Ahora, el valor correspondiente a A-Abr no es un NaN, sino 2 (valor que podemos encontrar en el dataframe df2). Aquellas combinaciones de etiquetas para las que no existe valor alguno en ninguno de los dos dataframes siguen recibiendo un NaN.

Se muestra a continuación un listado con algunas operaciones básicas disponibles como métodos de dataframes:

* **pandas.DataFrame.add**: suma los dos dataframes, elemento por elemento
* **pandas.DataFrame.sub**: resta a un dataframe otro dataframe, elemento por elemento
* **pandas.DataFrame.mul**: multiplica un dataframe por otro, elemento por elemento
* **pandas.DataFrame.div**: divide un dataframe por otro, elemento por elemento
* **pandas.DataFrame.mod**: devuelve el resultado de calcular el módulo de un dataframe y otro dataframe, elemento por elemento
* **pandas.DataFrame.dot**: devuelve la multiplicación de las dos matrices representadas por los dos dataframes
* **pandas.DataFrame.abs**: devuelve una copia del dataframe conteniendo el valor absoluto de cada uno de sus valores

Podemos encontrar en la documentación oficial de pandas el listado completo de funciones disponibles, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.
.

## <font color='blue'>**Métodos de agregación y estadística**</font>

Los dataframes poseen un útil método que devuelve información estadística sobre los valores contenidos en él: **pandas.DataFrame.describe**:

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Limite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
index = ["ene", "feb", "mar", "abr"]
)
ventas

In [None]:
ventas.describe()

Este método devuelve el número de elementos no nulos por columna, el valor medio, la desviación estándar, el valor mínimo y el máximo, y los valores correspondientes a los percentiles 25, 50 y 75.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

**pandas.DataFrame.mean**, devuelve la media aritmética de los valores del dataframe a lo largo de un determinado eje (eje 0 -vertical- por defecto):

In [None]:
df.mean()

In [None]:
df.mean(axis = 1)

* **pandas.DataFrame.median**: Devuelve la mediana de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.mode**: Devuelve la moda de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.std**: Devuelve la desviación estándar de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.var**: Devuelve la varianza de los valores del dataframe a lo largo de un determinado eje
* **pandas.DataFrame.pct_change**: Devuelve el porcentaje de cambio de un valor con respecto al de la fila anterior (también puede aplicarse a columnas usando el parámetro axis):

In [None]:
df = pd.DataFrame({"A": [3, 5, 2, 4],
                    "B": [1, 2, 3, 3],
                    "C": [4, 3, 4, 6],
                    "D": [6, 3, 1, 3]},
                   index = ["ene", "feb", "mar", "abr"])
df

In [None]:
df.pct_change()

Para los valores de la primera fila, al no existir una anterior con respecto a la que realizar el cálculo, reciben un valor NaN por defecto. En todo caso, es posible regular el comportamiento del método al respecto de los valores NaN con el parámetro **fill_method**.

**pandas.DataFrame.nunique**: Devuelve el número de elementos distintos a lo largo de un determinado eje. El parámetro dropna controla si se incluyen los NaN en el recuento o no.

In [None]:
df.nunique()

## <font color='blue'>**Operaciones entre dataframes y series**</font>

Podemos operar entre un dataframe y una serie.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

In [None]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "C", "D"])
s

In [None]:
df + s

La operación se ha realizado **"row-wise"**, aplicando la suma fila por fila, tras haberse alineado el dataframe y la serie según las etiquetas del índice de columnas.

En el caso de que las columnas no sean completamente coincidentes, se rellenan los elementos desconocidos con NaN.

In [None]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "E", "D"])
df + s

Es posible usar los métodos vistos en la sección anterior para operar también entre dataframes y series, pudiendo especificar el eje a lo largo del cual quiere realizarse la operación.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

In [None]:
s = pd.Series([2, 1, 0], index = ["ene", "feb", "mar"])
s

In [None]:
df.add(s, axis = 0)

## <font color='green'>**Ejercicio 2**</font>

Para cada integrante del grupo 

# <font color='blue'>**Reindexación**</font>

Creación de una copia de una estructura pandas -una serie o un dataframe- en base a un nuevo índice.

# <font color='blue'>**Reindexación de series**</font>

El método básico para la reindexación de series es **pandas.Series.reindex**. Este método devuelve una copia de una serie basándose en el índice modificado de la serie original.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

Se trata de una serie cuyas etiquetas son letras no consecutivas. Es posible generar una copia reindexada de esta serie de la siguiente forma:



In [None]:
r = s.reindex(["g", "c", "a", "j", "f"])
r

El primer argumento siempre es el nuevo índice. En el caso anterior se trata de una versión desordenada del índice original, por lo que la serie generada es también una versión desordenada de la original.

Si el nuevo índice es un subconjunto del original, la serie generada no contendrá todos los valores de la serie de la que se patió, tan solo los incluidos en el nuevo índice. En el siguiente ejemplo, el nuevo índice no incluye la etiqueta "a" por lo que la serie generada no incluye el valor correspondiente (1):

In [None]:
r = s.reindex(["g", "c", "j", "f"])
r

Por el contrario, si en el nuevo índice se incluyen etiquetas no incluidas en el índice original, la nueva serie incluirá dicha etiqueta pero el valor asignado a ella recibe el valor por defecto NaN. En este próximo ejemplo incluimos la etiqueta "e" (no presente en el índice original) en el nuevo índice:

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"])
r

Este valor de relleno ("NaN") es personalizable usando el parámetro **fill_value**. Si repetimos las instrucciones anteriores especificando que el valor de relleno sea, por ejemplo, 0:

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], fill_value = 0)
r

Una alternativa a fijar el valor de relleno por defecto es aplicar "lógica de relleno", rellenando los valores inexistentes con otro valor que sí exista. Tenemos tres opciones...

## <font color='blue'>**Forward fill**</font>

La primera opción consiste en rellenar los valores inexistentes "hacia adelante", haciendo que los valores existentes rellenen los valores inexistentes que los sigan. O, en otras palabras, rellenar los valores inexistentes con el primer valor existente que los precedan:

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], method = "ffill")
r

En este caso, el valor correspondiente a la etiqueta "e" se rellena con el valor de la etiqueta anterior "c". Pero no la anterior en el nuevo índice, sino la anterior en el índice original. Veámoslos con otro ejemplo:

In [None]:
r = s.reindex(["g", "c", "m", "a", "j", "f"], method = "ffill")
r

Ahora, la etiqueta nueva es "m", siendo precedida en el índice original por la "j" (si se ordenan alfabéticamente), por lo que el valor que recibe r["m"] es el que tenía r["j"]: 5.

## <font color='blue'>**Backward fill**</font>

En este otro caso, los valores inexistentes se rellenan "hacia atrás", con el primer valor existente que los siga.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], method = "bfill")
r

Nuevamente, la etiqueta no existente en el índice original es "e", y el valor que se le asigna es el correspondiente a la etiqueta que seguía a "e" en dicho índice (si se ordenan alfabéticamente): "f". Por lo tanto, se asigna a r["e"] el valor de r["f"]: 3.

## <font color='blue'>**Nearest (el más cercano)**</font>

La tercera opción asigna a cada valor desconocido el valor más próximo en la serie original. Para ver esta opción en funcionamiento necesitamos partir de una serie cuyo índice sea numérico (la operación "sustracción" en la que se basa esta tercera opción no está soportada entre cadenas de texto).

In [None]:
s = pd.Series([100, 200, 300, 400, 500], index = [10, 20, 30, 40, 50])
s

Una serie cuyo índice está formado por múltiplos de 10. Generemos ahora una copia del mismo con el índice [20, 40, 19] aplicando como método de relleno "nearest".

In [None]:
r = s.reindex([20, 40, 19], method = "nearest")
r

El método ha incluido el índice 19 y le ha asignado el valor del índice más próximo (20), es decir, el valor de s[20] (200).

In [None]:
r = s.reindex([20, 40, 11], method = "nearest")
r

En este caso, el índice más próximo es 10, y el valor asignado es, por lo tanto, s[10]: 100.

# <font color='blue'>**Reindexación de dataframes**</font>

El método **pandas.DataFrame.reindex** ofrece una funcionalidad semejante a la disponible para series con la particularidad de que, en este caso, podemos reindexar por filas y/o por columnas. Por defecto, este método acepta una secuencia de etiquetas que determinarán qué filas se incluyen y en qué orden (es decir, por defecto la reindexación se aplica al eje 0).

In [None]:
df = pd.DataFrame(np.arange(15).reshape([5, 3]),
                  index = ["a", "b", "c", "d", "e"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.reindex(["d", "b"])

En este ejemplo, partimos de un dataframe cuyo índice de filas tiene las etiquetas "a", "b", "c", "d" y "e", y hemos indicado como nuevo índice las etiquetas "d" y "b" (en este orden), y son estas filas (en ese orden) las que se devuelven como resultado.

Este método permite especificar las etiquetas de filas como hemos visto, pasándoselas al método como primer argumento, o con el parámetro **index**.

In [None]:
df.reindex(index = ["d", "b"])

El parámetro **columns**, por su parte, permite especificar el nuevo índice de columnas:



In [None]:
df.reindex(columns = ["A", "C"])

Si utilizamos ambos parámetros al mismo tiempo, imponemos simultáneamente el nuevo índice para filas y columnas.

In [None]:
df.reindex(index = ["a", "c", "f"], columns = ["A", "D", "C"])

Podemos asignar a los valores inexistentes un valor concreto usando el parámetro **fill_value**, o podemos aplicar "lógica de relleno" con el parámetro **method**, permitiéndonos rellenar los valores inexistentes hacia adelante o hacia atrás.

Y, por supuesto, si los nuevos índices contienen los mismos elementos que los índices originales pero en otro orden, el resultado del método será equivalente al original ordenado según el nuevo criterio.

In [None]:
df.reindex(index = ["a", "c", "b", "e", "d"], columns = ["B", "C", "A"])

## <font color='blue'>**Método set_index**</font>

El método **pandas.DataFrame.set_index** fija una columna del dataframe como índice, descartando el índice existente.

In [None]:
df = pd.DataFrame({
    "año": [2016, 2017, 2018],
    "mes": ["ene", "sep", "jun"],
    "ventas": [87, 34, 112]
})
df

Vemos que se ha asignado un índice automático. Si ejecutamos el método set_index indicando como argumento el campo "mes".

In [None]:
df.set_index("mes")

Se fija dicha columna como índice y se elimina del conjunto de características. Aunque esta eliminación es el comportamiento por defecto, podemos controlarlo con el parámetro drop.

In [None]:
df.set_index("mes", drop = False)

# <font color='blue'>**Multi-indexación**</font>

Hasta ahora hemos visto series y dataframes pandas con índices sencillos, pero pueden tener también índices jerárquicos o multi-índices, lo que abre la puerta a sofisticados procesos de manipulación y análisis de datos.

Podemos imaginarnos un multi-índice como un índice en el que cada valor es una tupla única de elementos. Es posible crear estos multi-índices y extraerlos posteriormente de varias formas.

## <font color='blue'>**Creación de multi-índices**</font>

Podemos crear un multi-índice de cuatro formas distintas:

* A partir de una lista de arrays, usando el método **pd.MultiIndex.from_arrays()**
* A partir de un array de tuplas, usando el método **pd.MultiIndex.from_tuples()**
* A partir del producto cartesiano de los valores de dos iterables, usando el método **pd.MultiIndex.from_product()**
* A partir de un DataFrame, usando el método **pd.MultiIndex.from_frame()**

## <font color='blue'>**Multi-índices a partir de una lista de arrays**</font>

El primer método es aquel en el que creamos el multi-índice indicando cada una de las columnas que lo van a formar.

In [None]:
index = pd.MultiIndex.from_arrays(
    [
        [2018, 2018, 2018, 2019, 2019, 2019],
        ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index

El parámetro **names** permite especificar los nombres de los niveles del índice jerárquico.

Al llevar este multi-índice a un dataframe se obtiene el siguiente resultado:

In [None]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

## <font color='blue'>**Multi-índices a partir de un array de tuplas**</font>

En este segundo método indicamos los valores del multi-índice valor por valor, siendo éstos tuplas.


In [None]:
index = pd.MultiIndex.from_tuples(
    [
    (2018, "España"),
    (2018, "Portugal"),
    (2018, "Francia"),
    (2019, "España"),
    (2019, "Portugal"),
    (2019, "Francia")
    ],
    names = ["Año", "País"])
index

Seguimos teniendo a nuestra disposición el parámetro names para especificar los nombres de los niveles.

Si creamos nuestro DataFrame vemos que el resultado es el mismo que el que habíamos obtenido:

In [None]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

## <font color='blue'>**Multi-índices por producto cartesiano de arrays**</font>

El tercer método nos permite especificar los valores (únicos) de los diferentes niveles, creándose el índice jerárquico como resultado del producto escalar de los valores. Por ejemplo:


In [None]:
index = pd.MultiIndex.from_product(
    [
        [2018, 2019],
        ["España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index

Nuevamente, el parámetro names nos permite dar nombre a los niveles.

El resultado de llevar este índice a nuestro DataFrame es el ya conocido:

In [None]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

## <font color='blue'>**Multi-índices a partir de un DataFrame**</font>

Por último, podemos crear el multi-índice a partir de un DataFrame en el que cada columna coincide con una columna del multi-índice.

In [None]:
df = pd.DataFrame({
    "Año":[2018, 2018, 2018, 2019, 2019, 2019],
    "País": ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
})
df

Ahora podemos crear el índice:



In [None]:
index = pd.MultiIndex.from_frame(df)
index

DataFrame con índice jerárquico:

In [None]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

## <font color='blue'>**Extracción de un nivel del índice**</font>

Trabajando con un DataFrame o una Serie pandas con multi-índice, es posible extraer los valores de un nivel del índice con el método **.get_level_values()**. El parámetro que deberemos pasar a este método será o el número del nivel o su nombre -si es que el índice ha recibido nombres-.

In [None]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

La columna de etiquetas del multi-índice situada en el extremo izquierdo es la que recibe el número (el índice) 0. Por lo tanto:

In [None]:
data.index.get_level_values(0)

De forma semejante:

In [None]:
data.index.get_level_values(1)

Si pasamos como argumento el nombre de la columna del índice obtenemos resultados semejantes:

In [None]:
data.index.get_level_values("Año")

In [None]:
data.index.get_level_values("País")

## <font color='blue'>**Selección con multi-índices**</font>

El trabajar con estructuras pandas con multi-índices nos ofrece nuevos métodos de selección de datos.

In [None]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Podemos extraer las filas correspondientes al año 2018 con la siguiente expresión:

In [None]:
data.loc[2018]

O extraer el valor del campo "Ventas" correspondiente al año 2018 y el país "España" con la siguiente expresión:

In [None]:
data.loc[(2018, "España")]

## <font color='blue'>**Aplicación de funciones estadísticas**</font>

Usando multi-índices, también es posible aplicar funciones estadísticas al DataFrame o a la Serie especificando el nivel de la jerarquía al que aplicarlas.

In [None]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Podemos calcular el valor medio de las ventas, como ya sabemos con el método .mean():

In [None]:
data.mean()

Pero si especificamos el nivel al que queremos aplicarlo, el DataFrame se agrega según los valores de dicho nivel antes de realizar la operación.

In [None]:
data.mean(level = "Año")

O el valor medio por país:

In [None]:
data.mean(level = "País")