### Operaciones con datos

Como ya hemos visto, la librería Pandas está construida sobre la base de NumPy, que sirve de soporte para Series y DataFrames. Una de las características claves de NumPy era su capacidad para ejecutar operaciones y funciones matemáticas directamente sobre sus _arrays_, de forma rápida y sencilla. Pandas aprovecha también estas capacidades y las extiende para adaptarse a las funcionalidades de Series y DataFrames.

#### Operaciones binarias. Alineación de índices.

Podemos aplicar los operadores aritméticos comunes a Series y DataFrames, como hacemos con los _arrays_ en NumPy. Solo que en el caso de Pandas, antes de efectuar la operación se _alinean_ los índices de las dos estruturas de datos sobre las que se esté trabajando.

¿En qué consiste esa _alineación_? Ya sabes que tanto Series como DataFrames en Pandas tienen índices. Pueden ser los índices posicionales que se crean automáticamente por defecto, o bien etiquetas especificadas de forma explícita por nosotros.

Cuando utilizamos dos variables (Series o DataFrames) en una de estas operaciones, lo primero que va a hacer la librería Pandas de forma automática es _alinear_ o _emparejar_ los elementos de ambas variables que tengan el mismo índice. Mira el siguiente ejemplo.

In [None]:
# Definimos dos series
fruta_kg = Series({'peras': 2, 'manzanas': 1, 'naranjas': 3})

fruta_precio = Series({'manzanas': 1.95, 'naranjas': 1.90, 'peras': 1.50, 'uva': 2.60})

# Multiplicamos
fruta_kg * fruta_precio

manzanas    1.95
naranjas    5.70
peras       3.00
uva          NaN
dtype: float64

Antes de realizar la multiplicación, Pandas ha _alineado_ los elementos de ambas Series utilizando sus índices, de manera que la operación se aplique entre los pares de elementos correctos. El resultado incluye todos los índices que aparecen en cualquiera de las dos Series. ¿Pero qué pasa con los elementos que están solo en una de las variables (como la uva en el ejemplo)? En estos casos, Pandas da como resultado un valor especial:`NaN`.

> **Importante** El valor **`NaN`** (_Not a Number_) es la forma que tiene Pandas de indicar que  faltan datos o que no se ha podido calcular el valor. En general, es un valor intercambiable con `None`, y es similar al valor `NA` (_not available_) de R. Cualquier operación con `NaN` devuelve otro `NaN`.

In [None]:
# Si intentas sumar (o restar, multiplicar, dividir, etc)
# un número con un valor no definido o ausente (NaN)
# el resultado tampoco está definido
1 + np.NaN

nan

Un poco más adelante te explicamos distintas formas de tratar con estos valores.

Si operamos con DataFrames ocurre lo mismo, con la diferencia de que la _alineación_ de índices ocurre tanto para filas como para columnas.

In [None]:
# Preparamos un DataFrame con precios de dos tiendas
df_precio_fruta = DataFrame({
                'tienda_1' : [1.95, 1.90, 1.50, 2.60],
                'tienda_2' : [1.80, 1.95, 1.60, 2.40]
                },
                index = ["manzanas","naranjas","peras","uvas"])

# y otro DataFrame con la compra en cada una de las tiendas
lista_compra_1 = Series({"peras" : 1.5, "naranjas" : 3})
lista_compra_2 = Series({"manzanas" : 1})

df_lista_compra = DataFrame({
                    'tienda_1' : lista_compra_1,
                    'tienda_2' : lista_compra_2
        })

# y operamos con ambos DataFrames
df_precio_fruta * df_lista_compra

Unnamed: 0,tienda_1,tienda_2
manzanas,,1.8
naranjas,5.7,
peras,2.25,
uvas,,


También podemos utilizar un objeto Series para operar sobre todas las filas o todas las columnas de un DataFrame. En estos casos, Pandas aplica el mismo mecanismo de propagación o _broadcasting_ que veíamos con las operaciones de arrays en NumPy.

In [None]:
lista_compra = Series({"peras" : 1.5, "naranjas" : 3, "manzanas" : 1})
# Multiplicamos la lista de la compra por los precios de cada tienda
df_precio_fruta.multiply(lista_compra, axis=0)

Unnamed: 0,tienda_1,tienda_2
manzanas,1.95,1.8
naranjas,5.7,5.85
peras,2.25,2.4
uvas,,


Como ves, en este caso no hemos utilizado directamente el operador de multiplicación '`*`', sino el método `multiply()`. El motivo es que el comportamiento por defecto es efectuar la operación por filas. En este caso, nosotros queríamos multiplicar cada columna del DataFrame por el objeto Series. Para ello, los métodos equivalentes a los operadores matemáticos incluyen un argumento `axis` que nos permite indicar si queremos propagar la operación por filas (opción por defecto) o por columnas del DataFrame (indicando '`axis = 0`').

En la tabla siguiente tienes un resumen de los principales operadores y sus métodos equivalentes para Series y DataFrames.

|  Operador  | Método para Series/DataFrame |
|:----------:|:-----------------------------|
| `+`        | `add()`                      |
| `-`        | `sub(), substract()`         |
| `*`        | `mul(), multiply()`          |
| `/`        | `div(), divide()`            |
| `//`       | `floordiv()`                 |
| `%`        | `mod()`                      |
| `**`       | `pow()`                      |
| `+`        | `add()`                      |


#### Utilizando funciones matemáticas universales

Ya viste que la librería NumPy incluye un gran número de funciones mátemáticas, adaptadas especialmente para trabajar con arrays. 

Al estar construido sobre las bases de NumPy, Pandas nos permite utilizar todo este catálogo de funciones matemáticas universales _vectorizadas_ directamente sobre Series y DataFrames (vuelve a consular la sección correspondiente de NumPy para ver un listado más completo de las funciones disponibles).

In [None]:
import numpy as np

s1 = Series([1, 2, 3, 4])

# Podemos aplicar cualquiera de las funciones universales de NumPy
# sobre un objeto Series
np.sqrt(s1)

NameError: name 'Series' is not defined

In [None]:
df1 = DataFrame({
    "x" : s1,
    "y" : np.tanh(s1)
})

# o sobre un DataFrame
np.log(df1)

Unnamed: 0,x,y
0,0.0,-0.272341
1,0.693147,-0.036635
2,1.098612,-0.004958
3,1.386294,-0.000671
