In [3]:
import numpy as np
import pandas as pd

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
 "year": [2000, 2001, 2002, 2001, 2002, 2003],
 "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)
               

Indexación, selección y filtrado

La indexación de series ( obj[...] ) funciona de forma análoga a la indexación de arrays de NumPy, con la diferencia de que puedes utilizar los valores índice de la serie en lugar de sólo
enteros. He aquí algunos ejemplos:

In [None]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

In [None]:
obj["b"]

In [None]:
obj[1]

In [None]:
obj[2:4]


In [None]:
obj[["b", "a", "d"]]


In [None]:
obj[[1, 3]]

In [None]:
obj[obj < 2]

Aunque puede seleccionar datos por etiqueta de esta manera, la forma preferida de seleccionar valores de índice es con el operador especial loc :

In [None]:
obj.loc[["b", "a", "d"]]


La razón para preferir loc es el tratamiento diferente de los enteros cuando se indexa con [] . La indexación normal basada en [] tratará los enteros como etiquetas si el índice
contiene enteros, por lo que el comportamiento difiere dependiendo del tipo de datos del índice. Por ejemplo:

In [None]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])

In [None]:
obj1

In [None]:
obj2

In [None]:
obj1[[0, 1, 2]]


Al utilizar loc , la expresión obj.loc[[0, 1, 2]] fallará cuando el índice no contenga
enteros:

In [None]:
obj2.loc[[0, 1]]

Dado que el operador loc indexa exclusivamente con etiquetas, existe también un operador iloc que indexa exclusivamente con enteros para trabajar de forma consistente
tanto si el índice contiene enteros como si no:

In [None]:
obj1.iloc[[0, 1, 2]]

In [None]:
obj2.iloc[[0, 1, 2]]


Precaución: También se puede rebanar (slice) con etiquetas, pero funciona de forma diferente al rebanado(slicing) normal de Python, ya que el punto final es inclusivo:

In [None]:
obj2.loc["b":"c"]

La asignación de valores mediante estos métodos modifica la sección correspondiente de la Series :

In [None]:
obj2

In [None]:
obj2.loc["b":"c"] = 5
obj2

La indexación en un DataFrame recupera una o más columnas, ya sea con un único valor o con una secuencia:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
 index=["Ohio", "Colorado", "Utah", "New York"],
 columns=["one", "two", "three", "four"])
data

In [None]:
data["two"]

In [None]:
data[["three", "one"]]


Este tipo de indexación tiene algunos casos especiales. El primero es el corte (slicing) o la selección de datos con una array booleano:

In [None]:
data[:2]
# selecciona las primeras dos filas del DataFrame.

In [None]:
booleano_a= ali.to_numpy()
booleano_a

In [None]:
data[data["three"] > 5]

La sintaxis de selección de filas data[:2] se proporciona por comodidad. Si se pasa un único elemento o una lista al operador [] selecciona columnas.
Otro caso de uso es la indexación con un DataFrame booleano, como el producido por una comparación escalar. Considere un DataFrame con todos los valores booleanos producidos
por comparación con un valor escalar:

In [None]:
data < 5

Podemos utilizar este DataFrame para asignar el valor 0 a cada ubicación con el valor True, así:

In [None]:
data[data < 5] = 0
data

Selección en un DataFrame con loc e iloc

Al igual que Series , los DataFrame tiene atributos especiales loc e iloc para la indexación basada en etiquetas y en enteros, respectivamente. Como un DataFrame es
bidimensional, puede seleccionar un subconjunto de filas y columnas con notación tipo NumPy utilizando etiquetas de eje (loc) o enteros (iloc).

Como primer ejemplo, vamos a seleccionar una sola fila por etiqueta:

In [None]:
data

In [None]:
data.loc["Colorado"]

El resultado de seleccionar una sola fila es una Series con un índice que contiene las etiquetas de las columnas del DataFrame . Para seleccionar múltiples valores, creando un
nuevo DataFrame, se le pasa una secuencia de etiquetas:

In [None]:
data.loc[["Colorado", "New York"]]

Puede combinar la selección de filas y columnas en loc separando las selecciones con una coma:

In [None]:
data.loc["Colorado", ["two", "three"]]

A continuación, realizaremos algunas selecciones similares con enteros utilizando iloc:

In [None]:
data.iloc[2]

In [None]:
data.iloc[[2, 1]]

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

Ambas funciones de indexación funcionan con trozos (slices) además de con etiquetas individuales o listas de etiquetas:

In [None]:
data

In [None]:
data.loc[:"Utah", "two"]
# Devuelve los valores de la columna "two" 
# para todas las filas desde el inicio 
# hasta la fila con la etiqueta "Utah"

In [None]:
data.iloc[:, :3][data.three > 5]
# Muestra las filas que cumplen
# la condición data.three > 5 
# para las columnas 'one', 'two'
# y 'three'
# Para mayor claridad ejecute 
# data.iloc[:, :3] y luego
# data.iloc[:, :3][data.three > 5]

Los arrays Booleanos pueden ser usados con loc pero no iloc :
Considere lo siguiente:

In [None]:
data.three >= 2

In [None]:
data.loc[data.three >= 2]

Hay muchas formas de seleccionar y reordenar los datos contenidos en un objeto pandas. Para un DataFrame , la siguiente tabla proporciona un breve resumen de muchas de ellas.
Como se verá más adelante, hay una serie de opciones adicionales para trabajar con índices jerárquicos.

Errores en la indexación de números enteros

Trabajar con objetos pandas indexados por enteros puede ser un escollo para los nuevos usuarios ya que funcionan de forma diferente a las estructuras de datos incorporadas en
Python como listas y tuplas. Por ejemplo, es posible que no espere que el siguiente código genere un error

In [None]:
ser = pd.Series(np.arange(3.))

In [None]:
ser[-1]


En este caso, pandas podría "recurrir" a la indexación por enteros, pero es difícil hacer esto en general sin introducir errores sutiles en el código de usuario. Aquí tenemos un índice que
contiene 0, 1 y 2, pero pandas no quiere adivinar lo que quiere el usuario (indexación basada en etiquetas o basada en posiciones):

In [None]:
ser

En cambio, con un índice no entero, no existe tal ambigüedad:


In [None]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
ser2[-1]

Si tienes un índice de eje que contiene enteros, la selección de datos siempre estará orientada a etiquetas. Como se ha dicho anteriormente, si se utiliza loc (para etiquetas) o
iloc (para enteros) se obtendrá exactamente lo que se desea:


In [None]:
ser.iloc[-1]

Por otra parte, el corte (slicing) con números enteros siempre está orientado a números enteros:

In [None]:
ser[:2]

Como consecuencia de estos errores, es mejor preferir siempre la indexación con loc e
iloc para evitar ambigüedades.

Errores de la indexación encadenada
En la sección anterior vimos cómo se pueden hacer selecciones flexibles en un DataFrame utilizando loc e iloc . Estos atributos de indexación también se pueden utilizar para
modificar objetos DataFrame "in situ", pero hacerlo requiere cierto cuidado. Por ejemplo, en el ejemplo DataFrame anterior, podemos asignar a una columna o fila por
etiqueta o posición entera:

In [None]:
data

In [None]:
data.loc[:, "one"] = 1
data

In [None]:
data.iloc[2] = 5
data

In [None]:
data.loc[data["four"] > 5] = 3
data

Un error común para los nuevos usuarios de pandas es encadenar selecciones cuando se asignan de esta manera:

In [None]:
data

In [None]:
data.loc[data.three == 5]
# La condición data.three == 5 
# crea una Serie booleana que 
# tiene True para las filas 
# donde el valor en la columna "three" 
# es igual a 5 y False para las demás filas.

In [None]:
data.loc[data.three == 5]["three"] = 6

Dependiendo del contenido de los datos, esto puede imprimir una advertencia especial SettingWithCopyWarning , que le advierte de que está intentando modificar un valor
temporal (el resultado no vacío de data.loc[data.three == 5]) en lugar del DataFrame original data , que podría ser lo que pretendía. En este caso, data no se ha
modificado:

In [None]:
data


En estos casos, la solución consiste en reescribir la asignación encadenada para utilizar una única operación loc:

In [None]:
data.loc[data.three == 5, "three"] = 6
data


Aritmética y alineación de datos
Pandas puede simplificar mucho el trabajo con objetos que tienen índices diferentes. Por ejemplo, al sumar objetos, si algún par de índices no es el mismo, el índice respectivo en el
resultado será la unión de los pares de índices. Veamos un ejemplo:

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s1

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
 index=["a", "c", "e", "f", "g"])
s2

In [None]:
s1 + s2


La alineación interna de los datos introduce valores perdidos en las ubicaciones de las etiquetas que no se solapan. Los valores perdidos se propagarán en los cálculos aritméticos
posteriores.
En el caso de un DataFrame , la alineación se realiza tanto en las filas como en las columnas:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
 index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])

In [None]:
df1

In [None]:
df2

Como las columnas "c" y "e" no se encuentran en ambos objetos DataFrame, aparecen como ausentes en el resultado. Lo mismo ocurre con las filas con etiquetas que no son comunes a
ambos objetos.
Si añade objetos DataFrame sin etiquetas de columna o fila en común, el resultado contendrá todos nulos:

In [None]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1

In [None]:
df2

In [None]:
df1 + df2


Métodos aritméticos con valores de relleno
En operaciones aritméticas entre objetos indexados de forma diferente, es posible que desee rellenar con un valor especial, como 0, cuando una etiqueta de eje se encuentra en un
objeto pero no en el otro. He aquí un ejemplo en el que establecemos un valor particular como NA (nulo) asignándole np.nan:

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
 columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
 columns=list("abcde")) 


In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

Utilizando el método add en df1, se pasa df2 y un argumento a fill_value , que sustituye el valor pasado por cualquier valor que falte en la operación:

In [None]:
df1.add(df2, fill_value=0)

Véase en la siguiente tabla un listado de los métodos Series y DataFrame para aritmética. Cada uno tiene una contrapartida, que empieza por la letra r , que tiene los
argumentos invertidos. Por lo tanto, estas dos sentencias son equivalentes:

In [None]:
df1.rdiv(1)


Al reindexar una Serie o un DataFrame , también puede especificar un valor de relleno (fill value) diferente

In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

Operaciones entre DataFrame y Series
Al igual que con las matrices NumPy de diferentes dimensiones, también se define la aritmética entre DataFrame y Series. En primer lugar, como ejemplo , considere la diferencia
entre una matriz bidimensional y una de sus filas:

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr

In [None]:
arr[0]


In [None]:
arr - arr[0]

Cuando restamos arr[0] de arr , la resta se realiza una vez por cada fila. Esto se denomina difusión y se explica con más detalle en lo que se refiere a las matrices generales
de NumPy Avanzado. Las operaciones entre un DataFrame y una Serie son similares

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
 columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

In [None]:
frame

In [None]:
series


Por defecto, la aritmética entre el DataFrame y la Series coincide con el índice de la Series en las columnas del DataFrame , difundiéndose por las filas:

In [None]:
frame - series

Si no se encuentra un valor de índice ni en las columnas del DataFrame ni en el índice de la Series , los objetos se reindexarán para formar la unión:

In [None]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2 

In [None]:
frame + series2

Si, en cambio,se desea trabajar sobre las columnas, coincidiendo en las filas, debe utilizar
uno de los métodos aritméticos y especificar que coincida sobre el índice. Por ejemplo:


In [None]:
series3 = frame["d"]
frame

In [None]:
series3

In [None]:
frame.sub(series3, axis="index")

El eje que se pasa es el eje sobre el que se va a realizar la comparación. En este caso nosreferimos a coincidir en el índice de fila del DataFrame (axis="index") y trabajará a
través de las columnas.

Aplicación y asignación de funciones

Los ufuncs de NumPy (métodos de array por elementos) también funcionan con objetos pandas:

In [None]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
 columns=list("bde"),
 index=["Utah", "Ohio", "Texas", "Oregon"])
frame

In [None]:
np.abs(frame)

Otra operación frecuente es aplicar una función en arrays unidimensionales a cada columna
o fila. El método apply de DataFrame hace exactamente esto:

In [None]:
def f1(x):
 return x.max() - x.min()
frame.apply(f1)

Aquí la función f , que calcula la diferencia entre el máximo y el mínimo de una Series, se invoca una vez en cada columna de frame . El resultado es una Series que tiene como
índice las columnas de frame . Si se pasa axis="columns" al método apply , la función se invocará una vez por fila. Una forma útil de pensar en esto es como "aplicar a través de
las columnas":

In [None]:
frame.apply(f1, axis="columns")

Muchos de los estadísticos de array más comunes (como suma y media) son métodos de DataFrame, por lo que no es necesario utilizar apply . No es necesario que la función
pasada a apply devuelva un valor escalar; también puede devolver una Serie con múltiples valores: