In [7]:
import numpy as np
import pandas as pd

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
 "year": [2000, 2001, 2002, 2001, 2002, 2003],
 "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)
               

Aritmética y alineación de datos

Pandas puede simplificar mucho el trabajo con objetos que tienen índices diferentes. Por ejemplo, al sumar objetos, si algún par de índices no es el mismo, el índice respectivo en el
resultado será la unión de los pares de índices. Veamos un ejemplo:

In [8]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [9]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
 index=["a", "c", "e", "f", "g"])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [10]:
s1 + s2


a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

La alineación interna de los datos introduce valores perdidos en las ubicaciones de las etiquetas que no se solapan. Los valores perdidos se propagarán en los cálculos aritméticos
posteriores.
En el caso de un DataFrame , la alineación se realiza tanto en las filas como en las columnas:

In [11]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
 index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])

In [12]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [13]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


Como las columnas "c" y "e" no se encuentran en ambos objetos DataFrame, aparecen como ausentes en el resultado. Lo mismo ocurre con las filas con etiquetas que no son comunes a
ambos objetos.
Si añade objetos DataFrame sin etiquetas de columna o fila en común, el resultado contendrá todos nulos:

In [14]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [15]:
df2

Unnamed: 0,B
0,3
1,4


In [16]:
df1 + df2


Unnamed: 0,A,B
0,,
1,,


Métodos aritméticos con valores de relleno
En operaciones aritméticas entre objetos indexados de forma diferente, es posible que desee rellenar con un valor especial, como 0, cuando una etiqueta de eje se encuentra en un
objeto pero no en el otro. He aquí un ejemplo en el que establecemos un valor particular como NA (nulo) asignándole np.nan:

In [17]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
 columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
 columns=list("abcde")) 


In [18]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [19]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [20]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Utilizando el método add en df1, se pasa df2 y un argumento a fill_value , que sustituye el valor pasado por cualquier valor que falte en la operación:

In [21]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Véase en la siguiente tabla un listado de los métodos Series y DataFrame para aritmética. Cada uno tiene una contrapartida, que empieza por la letra r , que tiene los
argumentos invertidos. Por lo tanto, estas dos sentencias son equivalentes:

In [22]:
df1.rdiv(1)


Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


Al reindexar una Serie o un DataFrame , también puede especificar un valor de relleno (fill value) diferente

In [23]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


Operaciones entre DataFrame y Series
Al igual que con las matrices NumPy de diferentes dimensiones, también se define la aritmética entre DataFrame y Series. En primer lugar, como ejemplo , considere la diferencia
entre una matriz bidimensional y una de sus filas:

In [24]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [25]:
arr[0]


array([0., 1., 2., 3.])

In [26]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Cuando restamos arr[0] de arr , la resta se realiza una vez por cada fila. Esto se denomina difusión y se explica con más detalle en lo que se refiere a las matrices generales
de NumPy Avanzado. Las operaciones entre un DataFrame y una Serie son similares

In [32]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
 columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

In [27]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [33]:
import numpy as np
import pandas as pd

series


b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

Por defecto, la aritmética entre el DataFrame y la Series coincide con el índice de la Series en las columnas del DataFrame , difundiéndose por las filas:

In [34]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Si no se encuentra un valor de índice ni en las columnas del DataFrame ni en el índice de la Series , los objetos se reindexarán para formar la unión:

In [35]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2 

b    0
e    1
f    2
dtype: int64

In [36]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Si, en cambio,se desea trabajar sobre las columnas, coincidiendo en las filas, debe utilizar
uno de los métodos aritméticos y especificar que coincida sobre el índice. Por ejemplo:


In [37]:
series3 = frame["d"]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [38]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [39]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


El eje que se pasa es el eje sobre el que se va a realizar la comparación. En este caso nosreferimos a coincidir en el índice de fila del DataFrame (axis="index") y trabajará a
través de las columnas.

Aplicación y asignación de funciones

Los ufuncs de NumPy (métodos de array por elementos) también funcionan con objetos pandas:

In [40]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
 columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,0.611541,0.750765,0.016127
Ohio,-0.254704,-1.182508,0.684989
Texas,0.790869,-0.660507,1.60408
Oregon,-1.118034,0.391948,-0.142935


In [41]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.611541,0.750765,0.016127
Ohio,0.254704,1.182508,0.684989
Texas,0.790869,0.660507,1.60408
Oregon,1.118034,0.391948,0.142935


Otra operación frecuente es aplicar una función en arrays unidimensionales a cada columna
o fila. El método apply de DataFrame hace exactamente esto:

In [42]:
def f1(x):
 return x.max() - x.min()
frame.apply(f1)

b    1.908902
d    1.933273
e    1.747014
dtype: float64

Aquí la función f , que calcula la diferencia entre el máximo y el mínimo de una Series, se invoca una vez en cada columna de frame . El resultado es una Series que tiene como
índice las columnas de frame . Si se pasa axis="columns" al método apply , la función se invocará una vez por fila. Una forma útil de pensar en esto es como "aplicar a través de
las columnas":

In [43]:
frame.apply(f1, axis="columns")

Utah      0.734638
Ohio      1.867497
Texas     2.264587
Oregon    1.509981
dtype: float64

Muchos de los estadísticos de array más comunes (como suma y media) son métodos de DataFrame, por lo que no es necesario utilizar apply . No es necesario que la función
pasada a apply devuelva un valor escalar; también puede devolver una Serie con múltiples valores:

In [44]:
import pandas as pd

def f2(x):
 return pd.Series([x.min(), x.max()], index=["min", "max"])
frame.apply(f2)

Unnamed: 0,b,d,e
min,-1.118034,-1.182508,-0.142935
max,0.790869,0.750765,1.60408


In [None]:
def my_format(x):
    return f"{x:.2f}"
frame.applymap(my_format)

  frame.applymap(my_format)


Unnamed: 0,b,d,e
Utah,-1.12,-0.89,-0.64
Ohio,-0.71,0.23,0.33
Texas,-0.52,-0.27,0.52
Oregon,-1.5,0.51,0.24


La razón del nombre `applymap` es que `Series` tiene un método `map` para aplicar una función `element-wise`:

In [None]:
frame["e"].map(my_format)

Utah      -0.64
Ohio       0.33
Texas      0.52
Oregon     0.24
Name: e, dtype: object

### Clasificación y ordenación
Ordenar un conjunto de datos por algún criterio es otra importante operación incorporada. Para ordenar lexicográficamente por etiqueta de fila o columna, utilice el método `sort_index`, que devuelve un nuevo objeto ordenado:

In [None]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [None]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

Con un `DataFrame`,  se puede ordenar por índice en cualquiera de los ejes:

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])

frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [None]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [None]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Por defecto, los datos se ordenan en orden ascendente, pero también pueden ordenarse en orden descendente:

In [None]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Para ordenar una `Serie` por sus valores, utilice su método `sort_values`:

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [None]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Los valores que faltan se ordenan por defecto al final de la serie:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [None]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

Los valores faltantes pueden ordenarse al principio utilizando la opción `na_position`:

In [None]:
obj.sort_values(na_position="first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

Al ordenar un DataFrame, puede utilizar los datos de una o varias columnas como claves de ordenación. Para ello, pase uno o más nombres de columna a `sort_values`:

In [None]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [None]:
frame.sort_values("b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


Para ordenar por varias columnas, pase una lista de nombres:

In [None]:
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


La clasificación `Ranking` asigna rangos desde uno hasta el número de puntos de datos válidos en una array, empezando por el valor más bajo. Los métodos `rank` para `Series` y `DataFrame` son el lugar donde buscar; por defecto, `rank` rompe los empates asignando a cada grupo el rango medio:

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [None]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

También se pueden asignar rangos según el orden en que se observan en los datos:

In [None]:
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

Aquí, en lugar de utilizar el rango medio 6,5 para las entradas 0 y 2, se han fijado en 6 y 7 porque la etiqueta 0 precede a la etiqueta 2 en los datos.

También puedes clasificar en orden descendente:

obj

In [None]:
obj.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

En ciencia de datos el método rank() puede usarse para identificar valores extremos, para identificar empates (duplicados), para ver la posibilidad de generar variables categóricas ordinales o que puede ser útil para aplicar modelos de aprendizaje automático que requieren entradas ordinales en lugar de valores numéricos continuos. 

Consulte la siguiente Tabla para ver una lista de los métodos de "desempate" (tie-breaking) disponibles.

<img src="tabla_6.png">

DataFrame puede calcular rangos sobre las filas o las columnas:

In [None]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [None]:
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### Índices de ejes con etiquetas duplicadas
Hasta ahora casi todos los ejemplos que hemos visto tienen etiquetas de eje únicas (valores de índice). Aunque muchas funciones de pandas (como reindex) requieren que las etiquetas sean únicas, no es obligatorio. Consideremos una pequeña serie con índices duplicados:

In [None]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

La propiedad `is_unique` del índice puede indicarle si sus etiquetas son únicas o no:

In [None]:
obj.index.is_unique

False

La selección de datos es una de las principales cosas que se comporta de forma diferente con los duplicados. La indexación de una etiqueta con varias entradas devuelve una Serie, mientras que las entradas únicas devuelven un valor escalar:

In [None]:
obj["a"]

a    0
a    1
dtype: int64

In [None]:
obj["c"]

np.int64(4)

Esto puede complicar su código, ya que el tipo de salida de la indexación puede variar en función de si una etiqueta se repite o no. La misma lógica se extiende a la indexación de filas (o columnas) en un DataFrame:

In [None]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                index=["a", "a", "b", "b", "c"])
df  

Unnamed: 0,0,1,2
a,1.295916,-0.006152,-1.079021
a,0.096536,-1.172914,0.332126
b,1.092571,-1.381474,0.296716
b,0.030995,-0.843567,1.418541
c,-0.126352,0.442508,0.532968


In [None]:
df.loc["b"]

Unnamed: 0,0,1,2
b,1.092571,-1.381474,0.296716
b,0.030995,-0.843567,1.418541


In [None]:
df.loc["c"]

0   -0.126352
1    0.442508
2    0.532968
Name: c, dtype: float64