In [7]:
import numpy as np
import pandas as pd

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
 "year": [2000, 2001, 2002, 2001, 2002, 2003],
 "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)
               

Aritmética y alineación de datos

Pandas puede simplificar mucho el trabajo con objetos que tienen índices diferentes. Por ejemplo, al sumar objetos, si algún par de índices no es el mismo, el índice respectivo en el
resultado será la unión de los pares de índices. Veamos un ejemplo:

In [8]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [9]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
 index=["a", "c", "e", "f", "g"])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [10]:
s1 + s2


a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

La alineación interna de los datos introduce valores perdidos en las ubicaciones de las etiquetas que no se solapan. Los valores perdidos se propagarán en los cálculos aritméticos
posteriores.
En el caso de un DataFrame , la alineación se realiza tanto en las filas como en las columnas:

In [11]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
 index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])

In [12]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [13]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


Como las columnas "c" y "e" no se encuentran en ambos objetos DataFrame, aparecen como ausentes en el resultado. Lo mismo ocurre con las filas con etiquetas que no son comunes a
ambos objetos.
Si añade objetos DataFrame sin etiquetas de columna o fila en común, el resultado contendrá todos nulos:

In [14]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [15]:
df2

Unnamed: 0,B
0,3
1,4


In [16]:
df1 + df2


Unnamed: 0,A,B
0,,
1,,


Métodos aritméticos con valores de relleno
En operaciones aritméticas entre objetos indexados de forma diferente, es posible que desee rellenar con un valor especial, como 0, cuando una etiqueta de eje se encuentra en un
objeto pero no en el otro. He aquí un ejemplo en el que establecemos un valor particular como NA (nulo) asignándole np.nan:

In [17]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
 columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
 columns=list("abcde")) 


In [18]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [19]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [20]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Utilizando el método add en df1, se pasa df2 y un argumento a fill_value , que sustituye el valor pasado por cualquier valor que falte en la operación:

In [21]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Véase en la siguiente tabla un listado de los métodos Series y DataFrame para aritmética. Cada uno tiene una contrapartida, que empieza por la letra r , que tiene los
argumentos invertidos. Por lo tanto, estas dos sentencias son equivalentes:

In [22]:
df1.rdiv(1)


Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Al reindexar una Serie o un DataFrame , también puede especificar un valor de relleno (fill value) diferente

In [23]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


Operaciones entre DataFrame y Series
Al igual que con las matrices NumPy de diferentes dimensiones, también se define la aritmética entre DataFrame y Series. En primer lugar, como ejemplo , considere la diferencia
entre una matriz bidimensional y una de sus filas:

In [24]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [25]:
arr[0]


array([0., 1., 2., 3.])

In [26]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Cuando restamos arr[0] de arr , la resta se realiza una vez por cada fila. Esto se denomina difusión y se explica con más detalle en lo que se refiere a las matrices generales
de NumPy Avanzado. Las operaciones entre un DataFrame y una Serie son similares

In [32]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
 columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

In [27]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [33]:
import numpy as np
import pandas as pd

series


b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

Por defecto, la aritmética entre el DataFrame y la Series coincide con el índice de la Series en las columnas del DataFrame , difundiéndose por las filas:

In [34]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Si no se encuentra un valor de índice ni en las columnas del DataFrame ni en el índice de la Series , los objetos se reindexarán para formar la unión:

In [35]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2 

b    0
e    1
f    2
dtype: int64

In [36]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Si, en cambio,se desea trabajar sobre las columnas, coincidiendo en las filas, debe utilizar
uno de los métodos aritméticos y especificar que coincida sobre el índice. Por ejemplo:


In [37]:
series3 = frame["d"]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [38]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [39]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


El eje que se pasa es el eje sobre el que se va a realizar la comparación. En este caso nosreferimos a coincidir en el índice de fila del DataFrame (axis="index") y trabajará a
través de las columnas.

Aplicación y asignación de funciones

Los ufuncs de NumPy (métodos de array por elementos) también funcionan con objetos pandas:

In [40]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
 columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,0.611541,0.750765,0.016127
Ohio,-0.254704,-1.182508,0.684989
Texas,0.790869,-0.660507,1.60408
Oregon,-1.118034,0.391948,-0.142935


In [41]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.611541,0.750765,0.016127
Ohio,0.254704,1.182508,0.684989
Texas,0.790869,0.660507,1.60408
Oregon,1.118034,0.391948,0.142935


Otra operación frecuente es aplicar una función en arrays unidimensionales a cada columna
o fila. El método apply de DataFrame hace exactamente esto:

In [42]:
def f1(x):
 return x.max() - x.min()
frame.apply(f1)

b    1.908902
d    1.933273
e    1.747014
dtype: float64

Aquí la función f , que calcula la diferencia entre el máximo y el mínimo de una Series, se invoca una vez en cada columna de frame . El resultado es una Series que tiene como
índice las columnas de frame . Si se pasa axis="columns" al método apply , la función se invocará una vez por fila. Una forma útil de pensar en esto es como "aplicar a través de
las columnas":

In [43]:
frame.apply(f1, axis="columns")

Utah      0.734638
Ohio      1.867497
Texas     2.264587
Oregon    1.509981
dtype: float64

Muchos de los estadísticos de array más comunes (como suma y media) son métodos de DataFrame, por lo que no es necesario utilizar apply . No es necesario que la función
pasada a apply devuelva un valor escalar; también puede devolver una Serie con múltiples valores:

In [44]:
import pandas as pd

def f2(x):
 return pd.Series([x.min(), x.max()], index=["min", "max"])
frame.apply(f2)

Unnamed: 0,b,d,e
min,-1.118034,-1.182508,-0.142935
max,0.790869,0.750765,1.60408
