# **Obtención y preparación de datos**

# OD21. Operaciones

Al basarse la bibliteca **pandas** en **NumPy**, todas las funciones universales de esta última funcionan con pandas, pero con una particularidad: al aplicar operaciones unarias se conservan las etiquetas de filas y columnas, y en funciones binarias, se van a alinear las filas y columnas de las estructuras involucradas por sus etiquetas.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**Operaciones con series**</font>

Si aplicamos una función unaria a una serie, el resultado es otra serie que conserva los índices de la original.

In [2]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
r

a    1
b    2
c    3
d    4
dtype: int64

In [3]:
print(type(np.square(r))) #np.square es una función preestablecida en numpy
np.square(r) 

<class 'pandas.core.series.Series'>


a     1
b     4
c     9
d    16
dtype: int64

Por otro lado, los operadores aritméticos que involucran dos o más series van a alinear las etiquetas antes de ejecutarse.

In [4]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

a    1
b    2
c    3
d    4
dtype: int64

b    1
c    2
d    3
e    4
dtype: int64


In [5]:
r + s #NaN cuando no están en ambas series

a    NaN
b    3.0
c    5.0
d    7.0
e    NaN
dtype: float64

En este ejemplo, se han sumado dos series cuyas etiquetas no son todas comunes. Pandas rellena los valores no coincidentes con NaN.

Si se utiliza el método **pandas.Series.add** se asigna a la serie sobre la que se aplica el método el resultado de la suma.

In [6]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
r.add(s) #r y s se suman por index, deja como NaN cuando el index está solo en una de las series

a    NaN
b    3.0
c    5.0
d    7.0
e    NaN
dtype: float64

Usando este método es posible especificar el valor a usar para rellenar los elementos desconocidos usando el parámetro **fill_value**.



In [7]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

a    1
b    2
c    3
d    4
dtype: int64

b    1
c    2
d    3
e    4
dtype: int64


In [8]:
r.add(s, fill_value = 0) #suma los index de ambas series

a    1.0
b    3.0
c    5.0
d    7.0
e    4.0
dtype: float64

Con este atributo, no estamos simplemente sustituyendo los NaN del resultado por el valor indicado, sino que estamos usando dicho valor como alternativa a los valores de las series originales que no existiesen.

Otras funciones son:

* **pandas.Series.sub**, que resta una serie a otra, elemento por elemento
* **pandas.Series.mul**, que multipica una serie por otra, elemento por elemento
* **pandas.Series.div**, que divide una serie por otra, elemento por elemento
* **pandas.Series.round**, que redondea los elementos de una serie al número de decimales indicado.

En la documentación oficial está el listado completo de funciones disponibles para las series, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**Operaciones con dataframes**</font>

Las operaciones binarias alinearán los datos de los dataframes involucrados según sus etiquetas de filas y columnas antes de ejecutarse.

In [9]:
df1 = pd.DataFrame({"A": [2, 4, 2],
                    "B": [1, 0, 4],
                    "C": [7, 3, 4],
                    "D": [3, 1, 5]},
                   index = ["ene", "feb", "mar"])
df1

Unnamed: 0,A,B,C,D
ene,2,1,7,3
feb,4,0,3,1
mar,2,4,4,5


In [10]:
df2 = pd.DataFrame({"A": [3, 5, 2],
                    "C": [1, 2, 3],
                    "D": [4, 3, 4],
                    "E": [6, 3, 1]},
                   index = ["feb", "mar", "abr"])
df2

Unnamed: 0,A,C,D,E
feb,3,1,4,6
mar,5,2,3,3
abr,2,3,4,1


In [11]:
df1 + df2 #suma solo los elementos que coinciden tanto en filas como en columnas

Unnamed: 0,A,B,C,D,E
abr,,,,,
ene,,,,,
feb,7.0,,4.0,5.0,
mar,7.0,,6.0,8.0,


Pandas inserta NaN's en aquellas combinaciones de etiquetas para las que no hay un valor en ambos dataframes.

La alineación se produce con independencia del orden en el que las etiquetas aparezcan en los índices.

Podemos realizar la misma operación y asignar el resultado a uno de los dataframes con el método **pandas.DataFrame.add**.

In [12]:
df1.add(df2) #otra forma de expresarlo

Unnamed: 0,A,B,C,D,E
abr,,,,,
ene,,,,,
feb,7.0,,4.0,5.0,
mar,7.0,,6.0,8.0,


Con este método, de forma semejante a como ocurría con las series, es posible establecar un valor predeterminado para aquellos valores que no se encuentren en uno de los dataframes usando el parámetro **fill_value**.

In [13]:
df1.add(df2, fill_value = 0) #aqui no hay registro para el cruce de Abr-B y ene-E

Unnamed: 0,A,B,C,D,E
abr,2.0,,3.0,4.0,1.0
ene,2.0,1.0,7.0,3.0,
feb,7.0,0.0,4.0,5.0,6.0
mar,7.0,4.0,6.0,8.0,3.0


Ahora, el valor correspondiente a A-Abr no es un NaN, sino 2 (valor que podemos encontrar en el dataframe df2). Aquellas combinaciones de etiquetas para las que no existe valor alguno en ninguno de los dos dataframes siguen recibiendo un NaN.

Se muestra a continuación un listado con algunas operaciones básicas disponibles como métodos de dataframes:

* **pandas.DataFrame.add**: suma los dos dataframes, elemento por elemento
* **pandas.DataFrame.sub**: resta a un dataframe otro dataframe, elemento por elemento
* **pandas.DataFrame.mul**: multiplica un dataframe por otro, elemento por elemento
* **pandas.DataFrame.div**: divide un dataframe por otro, elemento por elemento
* **pandas.DataFrame.mod**: devuelve el resultado de calcular el módulo de un dataframe y otro dataframe, elemento por elemento
* **pandas.DataFrame.dot**: devuelve la multiplicación de las dos matrices representadas por los dos dataframes
* **pandas.DataFrame.abs**: devuelve una copia del dataframe conteniendo el valor absoluto de cada uno de sus valores

Podemos encontrar en la documentación oficial de pandas el listado completo de funciones disponibles, pinche <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.
.

## <font color='blue'>**Métodos de agregación y estadística**</font>

Los dataframes poseen un útil método que devuelve información estadística sobre los valores contenidos en él: **pandas.DataFrame.describe**:

In [14]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Limite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
index = ["ene", "feb", "mar", "abr"]
)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Limite,Cambio
ene,41,17,66,No,1.43
feb,32,54,54,Si,1.16
mar,56,6,49,No,-0.67
abr,18,78,66,No,0.77


In [15]:
ventas.describe()

Unnamed: 0,Entradas,Salidas,Valoración,Cambio
count,4.0,4.0,4.0,4.0
mean,36.75,38.75,58.75,0.6725
std,15.945219,33.260337,8.616844,0.935107
min,18.0,6.0,49.0,-0.67
25%,28.5,14.25,52.75,0.41
50%,36.5,35.5,60.0,0.965
75%,44.75,60.0,66.0,1.2275
max,56.0,78.0,66.0,1.43


Este método devuelve el número de elementos no nulos por columna, el valor medio, la desviación estándar, el valor mínimo y el máximo, y los valores correspondientes a los percentiles 25, 50 y 75.

In [16]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

Unnamed: 0,A,B,C,D
ene,3,1,4,6
feb,5,2,3,3
mar,2,3,4,1


**pandas.DataFrame.mean**, devuelve la media aritmética de los valores del dataframe a lo largo de un determinado eje (eje 0 -vertical- por defecto):

In [17]:
df.mean() #media por columna

A    3.333333
B    2.000000
C    3.666667
D    3.333333
dtype: float64

In [18]:
df.mean(axis = 1) #media por fila

ene    3.50
feb    3.25
mar    2.50
dtype: float64

* **pandas.DataFrame.median**: Devuelve la mediana de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.mode**: Devuelve la moda de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.std**: Devuelve la desviación estándar de los valores del dataframe a lo largo de un determinado eje.
* **pandas.DataFrame.var**: Devuelve la varianza de los valores del dataframe a lo largo de un determinado eje
* **pandas.DataFrame.pct_change**: Devuelve el porcentaje de cambio de un valor con respecto al de la fila anterior (también puede aplicarse a columnas usando el parámetro axis):

In [19]:
df = pd.DataFrame({"A": [3, 5, 2, 4],
                    "B": [1, 2, 3, 3],
                    "C": [4, 3, 4, 6],
                    "D": [6, 3, 1, 3]},
                   index = ["ene", "feb", "mar", "abr"])
df

Unnamed: 0,A,B,C,D
ene,3,1,4,6
feb,5,2,3,3
mar,2,3,4,1
abr,4,3,6,3


In [20]:
df.pct_change() #formula (pos_actual-pos_ant)/pos_ant

Unnamed: 0,A,B,C,D
ene,,,,
feb,0.666667,1.0,-0.25,-0.5
mar,-0.6,0.5,0.333333,-0.666667
abr,1.0,0.0,0.5,2.0


Para los valores de la primera fila, al no existir una anterior con respecto a la que realizar el cálculo, reciben un valor NaN por defecto. En todo caso, es posible regular el comportamiento del método al respecto de los valores NaN con el parámetro **fill_method**.

In [21]:
df.mode(axis=1)

Unnamed: 0,0,1,2,3
ene,1.0,3.0,4.0,6.0
feb,3.0,,,
mar,1.0,2.0,3.0,4.0
abr,3.0,,,


<font color='red'>Para los índices feb y abr, existen valores que se repiten por lo que éstos aparecen en la primera columna, sin embargo ene y mar no tienen valores repetidos, por ende cada uno se ellos tienen la misma frecuencia, es decir, se muestran como la moda</font>

In [22]:
df.std(axis=1) #el resultado es una serie de la desviacón estándar por filas

ene    2.081666
feb    1.258306
mar    1.290994
abr    1.414214
dtype: float64

In [23]:
df.var(axis=1)  #el resultado es una serie para la varianza de las filas (var = std**2)

ene    4.333333
feb    1.583333
mar    1.666667
abr    2.000000
dtype: float64

In [24]:
df.median(axis=1)#la mediana por fila

ene    3.5
feb    3.0
mar    2.5
abr    3.5
dtype: float64

**pandas.DataFrame.nunique**: Devuelve el número de elementos distintos a lo largo de un determinado eje. El parámetro dropna controla si se incluyen los NaN en el recuento o no.

In [25]:
df.nunique() #elementos únicos y su cantidad (set funciona en lógica de conjuntos)

A    4
B    3
C    3
D    3
dtype: int64

## <font color='blue'>**Operaciones entre dataframes y series**</font>

Podemos operar entre un dataframe y una serie.

In [26]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

Unnamed: 0,A,B,C,D
ene,3,1,4,6
feb,5,2,3,3
mar,2,3,4,1


In [27]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "C", "D"])
s

A    2
B    1
C    0
D    2
dtype: int64

In [28]:
df + s #se suma el elemento de cada index de la serie en la columna del dataframe

Unnamed: 0,A,B,C,D
ene,5,2,4,8
feb,7,3,3,5
mar,4,4,4,3


La operación se ha realizado **"row-wise"**, aplicando la suma fila por fila, tras haberse alineado el dataframe y la serie según las etiquetas del índice de columnas.

En el caso de que las columnas no sean completamente coincidentes, se rellenan los elementos desconocidos con NaN.

<font color="red">caso de sumar un index de Series que coincida con el index del dataframe</font>

In [43]:
s2 = pd.Series([2, 1, 0], index = ["ene", "feb", "mar"])
df.add(s2) #se suma como columna los index de la serie cuando no coinciden con el index del dataframe (ojo, axis=0)

Unnamed: 0,A,B,C,D,ene,feb,mar
ene,,,,,,,
feb,,,,,,,
mar,,,,,,,


In [44]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "E", "D"])
df + s

Unnamed: 0,A,B,C,D,E
ene,5.0,2.0,,8.0,
feb,7.0,3.0,,5.0,
mar,4.0,4.0,,3.0,


<font color="red">No es posible usar .add para una serie y un dataframe y usar la opción fill_value, arroja **Error**</font>

In [47]:
df.add(s, fill_value=0) #Error

NotImplementedError: ignored

Es posible usar los métodos vistos en la sección anterior para operar también entre dataframes y series, pudiendo especificar el eje a lo largo del cual quiere realizarse la operación.

In [48]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

Unnamed: 0,A,B,C,D
ene,3,1,4,6
feb,5,2,3,3
mar,2,3,4,1


In [49]:
s = pd.Series([2, 1, 0], index = ["ene", "feb", "mar"])
s

ene    2
feb    1
mar    0
dtype: int64

In [32]:
df.add(s, axis = 0) #se especifica axis=0

Unnamed: 0,A,B,C,D
ene,5,3,6,8
feb,6,3,4,4
mar,2,3,4,1
