# **Obtención y preparación de datos**

# OD21. Operaciones

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">

##<font color='blue'>__Contenido opcional__</font>

Al basarse la bibliteca **pandas** en **NumPy**, todas las funciones universales de esta última funcionan con pandas, pero con una particularidad: al aplicar __operaciones unarias__ se conservan las etiquetas de filas y columnas, y en funciones binarias, se van a alinear las filas y columnas de las estructuras involucradas por sus etiquetas.

Nota: Se define como __operación unaria__ aquella operación matemática que sólo necesita el operador y un único operando (argumento) para que se pueda calcular un valor. Por ejemplo, la función valor absoluto $| |$ es un operador unario, porque sólo necesita un argumento.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**Operaciones con series**</font>

Si aplicamos una función unaria a una serie, el resultado es otra serie que conserva los índices de la original.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
r

In [None]:
print(type(np.square(r)))
np.square(r)

Por otro lado, los operadores aritméticos que involucran dos o más series van a alinear las etiquetas antes de ejecutarse.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print()
print(s)

In [None]:
r + s

En este ejemplo, se han sumado dos series cuyas etiquetas no son todas comunes. Pandas rellena los valores no coincidentes con `NaN`.

Si se utiliza el método `pandas.Series.add` se asigna a la serie sobre la que se aplica el método el resultado de la suma.

In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
r.add(s)

Usando este método es posible especificar el valor a usar para rellenar los elementos desconocidos usando el parámetro `fill_value`.



In [None]:
r = pd.Series([1, 2, 3, 4], index = ["a", "b", "c", "d"])
s = pd.Series([1, 2, 3, 4], index = ["b", "c", "d", "e"])
print(r)
print( )
print(s)

In [None]:
r.add(s, fill_value = 0)

Con este atributo, no estamos simplemente sustituyendo los `NaN` del resultado por el valor indicado, sino que estamos usando dicho valor como alternativa a los valores de las series originales que no existiesen.

Otras funciones son:

* `pandas.Series.sub`, que resta una serie a otra, elemento por elemento
* `pandas.Series.mul`, que multipica una serie por otra, elemento por elemento
* `pandas.Series.div`, que divide una serie por otra, elemento por elemento
* pandas.Series.roun*, que redondea los elementos de una serie al número de decimales indicado.

En la documentación oficial está el listado completo de [funciones disponibles para las series](https://pandas.pydata.org/pandas-docs/stable/reference/series.html).

## <font color='blue'>**Operaciones con dataframes**</font>

Las operaciones binarias alinearán los datos de los dataframes involucrados según sus etiquetas de filas y columnas antes de ejecutarse.

In [None]:
df1 = pd.DataFrame({"A": [2, 4, 2],
                    "B": [1, 0, 4],
                    "C": [7, 3, 4],
                    "D": [3, 1, 5]},
                   index = ["ene", "feb", "mar"])
df1

In [None]:
df2 = pd.DataFrame({"A": [3, 5, 2],
                    "C": [1, 2, 3],
                    "D": [4, 3, 4],
                    "E": [6, 3, 1]},
                   index = ["feb", "mar", "abr"])
df2

In [None]:
df1 + df2

Pandas inserta `NaN` en aquellas combinaciones de etiquetas para las que no hay un valor en ambos dataframes.

La alineación se produce con independencia del orden en el que las etiquetas aparezcan en los índices.

Podemos realizar la misma operación y asignar el resultado a uno de los dataframes con el método `pandas.DataFrame.add`.

In [None]:
df1.add(df2)

Con este método, de forma semejante a como ocurría con las series, es posible establecar un valor predeterminado para aquellos valores que no se encuentren en uno de los dataframes usando el parámetro `fill_value`.

In [None]:
df1.add(df2, fill_value = 0)

Ahora, el valor correspondiente a "A"-"abr" no es un `NaN`, sino 2 (valor que podemos encontrar en el dataframe df2). Aquellas combinaciones de etiquetas para las que no existe valor alguno en ninguno de los dos dataframes siguen recibiendo un `NaN`.

Se muestra a continuación un listado con algunas operaciones básicas disponibles como métodos de dataframes:

* `pandas.DataFrame.add`: suma los dos dataframes, elemento por elemento
* `pandas.DataFrame.sub`: resta a un dataframe otro dataframe, elemento por elemento
* `pandas.DataFrame.mul`: multiplica un dataframe por otro, elemento por elemento
* `pandas.DataFrame.div`: divide un dataframe por otro, elemento por elemento
* `pandas.DataFrame.mod`: devuelve el resultado de calcular el módulo de un dataframe y otro dataframe, elemento por elemento
* `pandas.DataFrame.dot`: devuelve la multiplicación de las dos matrices representadas por los dos dataframes
* `pandas.DataFrame.abs`: devuelve una copia del dataframe conteniendo el valor absoluto de cada uno de sus valores

Podemos encontrar en la documentación oficial de pandas el listado completo de [funciones disponibles para los dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html).

## <font color='blue'>**Métodos de agregación y estadística**</font>

Los dataframes poseen un útil método que devuelve información estadística sobre los valores contenidos en él: `pandas.DataFrame.describe`:

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Limite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
index = ["ene", "feb", "mar", "abr"]
)
ventas

In [None]:
ventas.describe()

Este método devuelve el número de elementos no nulos por columna, el valor medio, la desviación estándar, el valor mínimo y el máximo, y los valores correspondientes a los percentiles 25, 50 y 75.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

`pandas.DataFrame.mean`, devuelve la media aritmética de los valores del dataframe a lo largo de un determinado eje (eje 0 -vertical- por defecto):

In [None]:
df.mean()

In [None]:
df.mean(axis = 1)

* `pandas.DataFrame.median`: Devuelve la mediana de los valores del dataframe a lo largo de un determinado eje.
* `pandas.DataFrame.mode`: Devuelve la moda de los valores del dataframe a lo largo de un determinado eje.
* `pandas.DataFrame.std`: Devuelve la desviación estándar de los valores del dataframe a lo largo de un determinado eje.
* `pandas.DataFrame.var`: Devuelve la varianza de los valores del dataframe a lo largo de un determinado eje
* `pandas.DataFrame.pct_change`: Devuelve el porcentaje de cambio de un valor con respecto al de la fila anterior (también puede aplicarse a columnas usando el parámetro `axis`):

In [None]:
df = pd.DataFrame({"A": [3, 5, 2, 4],
                    "B": [1, 2, 3, 3],
                    "C": [4, 3, 4, 6],
                    "D": [6, 3, 1, 3]},
                   index = ["ene", "feb", "mar", "abr"])
df

In [None]:
df.pct_change()

Para los valores de la primera fila, al no existir una anterior con respecto a la que realizar el cálculo, reciben un valor `NaN` por defecto. En todo caso, es posible regular el comportamiento del método al respecto de los valores NaN con el parámetro `fill_method`.

`pandas.DataFrame.nunique`: Devuelve el número de elementos distintos a lo largo de un determinado eje. El parámetro dropna controla si se incluyen los `NaN` en el recuento o no.

In [None]:
df.nunique()

## <font color='blue'>**Operaciones entre dataframes y series**</font>

Podemos operar entre un dataframe y una serie.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

In [None]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "C", "D"])
s

In [None]:
df + s

La operación se ha realizado **"row-wise"**, aplicando la suma fila por fila, tras haberse alineado el dataframe y la serie según las etiquetas del índice de columnas.

En el caso de que las columnas no sean completamente coincidentes, se rellenan los elementos desconocidos con `NaN`.

In [None]:
s = pd.Series([2, 1, 0, 2], index = ["A", "B", "E", "D"])
df + s

Es posible usar los métodos vistos en la sección anterior para operar también entre dataframes y series, pudiendo especificar el eje a lo largo del cual quiere realizarse la operación.

In [None]:
df = pd.DataFrame({"A": [3, 5, 2],
                    "B": [1, 2, 3],
                    "C": [4, 3, 4],
                    "D": [6, 3, 1]},
                   index = ["ene", "feb", "mar"])
df

In [None]:
s = pd.Series([2, 1, 0], index = ["ene", "feb", "mar"])
s

In [None]:
df.add(s, axis = 0)

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">