## Chapter 5: Starting with Pandas

In [1]:
import numpy as np
import pandas as pd

`Series`: una serie es un objeto similar a una matriz unidimensional que contiene una
secuencia de valores. La serie más simple se forma a partir de una sola matriz de datos:

In [2]:
obj = pd.Series([4, 7, -5, 8])
obj

0    4
1    7
2   -5
3    8
dtype: int64

In [3]:
# se puede obtener la representación de arrays e index
obj.array

<PandasArray>
[4, 7, -5, 8]
Length: 4, dtype: int64

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# crear una serie con etiquetas
obj2 = pd.Series([4, 7, -5, 8], index=["d", "b", "a", "c"])
obj2

d    4
b    7
a   -5
c    8
dtype: int64

In [6]:
obj2["a"]

-5

In [7]:
obj2["d"] = 6
obj2

d    6
b    7
a   -5
c    8
dtype: int64

In [8]:
obj2[obj2 > 0]

d    6
b    7
c    8
dtype: int64

In [9]:
obj2 * 2

d    12
b    14
a   -10
c    16
dtype: int64

In [10]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c    2980.957987
dtype: float64

In [11]:
# otra forma de pensar acerca de un series es como un diccionario ordenado de
# longitud fija
"b" in obj2

True

In [12]:
# crear una serie a partir de un diccionario
sdata = {"Ohio": 35_000, "Texas": 71_000, "Oregon": 16_000, "Utha": 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utha       5000
dtype: int64

In [13]:
# una serie se puede volver a convertir a un diccioanrio
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utha': 5000}

In [14]:
"""
pasar un diccionario respeta el orden, se puede anular pasando un index
en el orden deseado
"""
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, states)
obj4 # California se agrega, pero su valor es NaN

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [15]:
pd.isna(obj4) # or obj4.insa()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [16]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Una caracterísitca útil es que se alinea  automáticamente por etiqueda de índice en operaciones aritméticas.

In [17]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utha       5000
dtype: int64

In [18]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [19]:
obj4 + obj3

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utha               NaN
dtype: float64

Tanto el objeto `Series` como su índice tienen un atributo `name`.

In [20]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [21]:
obj4.name = "population"
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [22]:
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

El índice de una serie se puede modificar con la asignación:

In [23]:
obj

0    4
1    7
2   -5
3    8
dtype: int64

In [24]:
obj.index = ["Bob", "Steven", "Jeff", "Ryan"]
obj

Bob       4
Steven    7
Jeff     -5
Ryan      8
dtype: int64

#### Marco de datos (DataFrame)
Un DataFrame representa una tabla rectangular de datos y contiene una colección
ordenada y con nombres de columna, cada una de las cuales puede ser un tipo de valor
diferente. El Dataframe tiene un índice de fila y columna; se puede considerar como
un diccionario de series que comparten el mismo índice.

Hay muchas maneras de crear un DataFrame, aunque una de las más comunes es usar un
diccionario:

In [25]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
       "year": [2000, 2001, 2002, 2001, 2002, 2003],
       "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [26]:
# el método head selecciona las primeras 5 filas
frame.head() # or frame.head(int)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [27]:
frame.tail() # retorna las últimas 5 filas

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame serán colocadas en
ese orden:

In [28]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Pasar una columna que no está contenida en el diccionario aparecera con valores fatantes.

In [29]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [30]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Se puede recuperar una columna por notación de diccionario o punto:

In [31]:
frame2["year"]

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [32]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

Se puede usar `iloc` y `loc` para recuperar las columnas:

In [33]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [34]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

Las columnas se pueden modificar por asignación:

In [35]:
frame2.debt = 16.5 # or frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [36]:
frame2.debt = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


Pasar una serie se añade según su index:

In [37]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, 5])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


Usar `del` para eliminar una columna. No se puede usar la notación de punto para alterar
una columna:

In [38]:
frame2["eastern"] = frame2["state"] == "Ohio" # columna de booleanos
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


Otra forma común de datos es un diccionario anidado de diccionarios:

In [39]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2003: 3.6},
              "Nevada": {2001: 2.4, 2002: 2.9}}

Si el diccionario anidado se pasa al DataFrame, Pandas interpretara las claves externas
como columnas y las claves internas como índices de fila.

In [40]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2003,3.6,
2002,,2.9


In [41]:
# transponer un DataFrame
frame3.T

Unnamed: 0,2000,2001,2003,2002
Ohio,1.5,1.7,3.6,
Nevada,,2.4,,2.9


Las claves internas de un diccionario se combinan para formar el índice de resultado,
esto no es cierto si se especifica un índice explícito.

In [42]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,,2.9
2003,3.6,


Los diccionarios de serie se tratan de la misma manera.

In [43]:
pdata = {"Ohio": frame3["Ohio"][:-1],
        "Nevada": frame3["Nevada"][:2]}
pd.DataFrame(pdata)

  pdata = {"Ohio": frame3["Ohio"][:-1],
  "Nevada": frame3["Nevada"][:2]}


Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2003,3.6,


In [44]:
# check
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2003,3.6,
2002,,2.9


A diferencia de las series, los DataFrame no tienen un atributo `name`.

Si las columnas del DataFrame son diferentes tipos de datos, se elegirá el tipo de dato
de la matriz devuelta para acomodar todas las columnas:

In [45]:
frame.to_numpy()

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9],
       ['Nevada', 2003, 3.2]], dtype=object)

### Objetos de índice
Los objetos de índice de Pandas son los responsables de mantener las etiquetas del eje
(incluido los nombres de las columnas de un DataFrame) y otros metadatos (como el nombre
o los nombres del eje). Cualquier matriz u otra secuencia de etiquetas que utilice al
construir una Serie o DataFrame se convierte internamente en un índice:

In [46]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [47]:
index[1:]

Index(['b', 'c'], dtype='object')

La inmutabilidad hace que sean más seguro compartir objetos Index entre estructuras de datos:

In [48]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [49]:
obj2 = pd.Series([1.5, -2-5, 0], index=labels)
obj2

0    1.5
1   -7.0
2    0.0
dtype: float64

In [50]:
obj2.index is labels

True

Además de ser similar a una matriz, un índice también se comporta como un conjunto
de tamaño fijo:

In [51]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2003,3.6,
2002,,2.9


In [52]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [53]:
"Ohio" in frame3.columns

True

In [54]:
2003 in frame3.index

True

A diferencia de los conjuntos de Python, un índice de pandas puede contener etiquetas
duplicadas:

In [55]:
pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Las selecciones con etiquetas duplicadas seleccionará todas las ocurrencias de esa etiqueta.

### Reindexado
Un método importante en los objetos de pandas es `reindex`, lo que significa crear un
nuevo objeto con los valores reorganizados para alinearse con el nuevo índice.

Ejemplo:

In [56]:
obj = pd.Series([4.5, 7.2, -5.3, 3-6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c   -3.0
dtype: float64

`reindex` reorganiza los datos de acuerdo con el nuevo índice, introduce valores
faltantes si los valores de índice no estaban ya presentes:

In [57]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c   -3.0
d    4.5
e    NaN
dtype: float64

Para datos ordenados como series de tiempo, es posible que desee hacer interpolación o
llenado de valores al reindexar. La opción `method` nos prmite hacer esto, utilizando
un método como `ffill`, que rellena los valores:

In [58]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [59]:
obj3.reindex(np.arange(6), method="ffill")

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Con DataFrame, `reindex` puede alterar el índice (fila=, columnas o ambos. Cuando se
pasa solo una secuencia, reindexa las filas en el resultado:

In [60]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                    index=["a", "c", "d"],
                    columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [61]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Las columnas se pueden volver a indexar con la palabra clave `columns`:

In [62]:
states = ["Texas", "Utha", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utha,California
a,1,,2
c,4,,5
d,7,,8


Porque `"Ohio"` no estaba dentro de `states`, los datos para esa columna se eliminan
del resultado.

Otra forma de reindexar un eje en particular es pasar las nuevas etiquetas de eje como
un argumento posicional y luego especificar el eje para reindexar con el eje la palabra
clave `axis`:

In [63]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utha,California
a,1,,2
c,4,,5
d,7,,8


Muchos usuarios prefieren `loc`. Esto funciona solo si todas las nuevas etiquetas de
índice ya existen en el DataFrame (mientras tanto `reindex` insertará datos faltantes
para nuevas etiquetas):

In [64]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


### Entrada de caída desde un eje
Dejar caer una o más entradas de un eje es simple si ya tienen una matriz de índices o
una lista sin esas entradas, ya que puede usar el método `reindex` o `.loc`. Como eso
puede requerir algo de munging y establecer la lógica, el método `drop` devolverá
un nuevo objeto con el valor o valores indicados eliminados en el eje:

In [65]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [66]:
new_obj = obj.drop("c")
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [67]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

Con Dataframe, los valores de índice se pueden eliminar de cualquiera de los ejes:

In [68]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=["Ohio", "Colorado", "Utha", "New York"],
                   columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


Llamando `drop` con una secuencia de etiquetas se soltarán los valores de las etiquetas
de fila (eje 0):

In [69]:
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utha,8,9,10,11
New York,12,13,14,15


Para soltar etiquetas de las columnas, utilice la palabra clave `columns`:

In [70]:
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utha,8,10,11
New York,12,14,15


También puede soltar valores de las columnas pasando `axis=1` o `axis="columns"`:

In [71]:
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utha,8,10,11
New York,12,14,15


In [72]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utha,8,10
New York,12,14


### Indexación, selección y filtrado
Indexación se series (`obj[...]`) funciona de manera análoga a la indexación de la
matriz NumPy, excepto que puede usar los valores del índice Series en lugar de
solo los enteros.

In [73]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [74]:
obj["b"]

1.0

In [75]:
obj[1]

1.0

In [76]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [77]:
obj[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [78]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [79]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

Si bien puede seleccionar datos por etiqueta de esta manera, la forma preferida de
seleccionar valores de índice es con el operador especial `loc`:

In [80]:
obj.loc[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

La razón para preferir `loc` se debe al diferente tratamiento de los enteros al
indexas con `[]`. `[]` la indexación traratá los enteros como etiquetas si el índice
contiene enteros, por lo que el comportamiento difiere según el tipo de datos del
índice.

Por ejemplo:

In [81]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])
obj1

2    1
0    2
1    3
dtype: int64

In [82]:
obj2

a    1
b    2
c    3
dtype: int64

In [83]:
obj1[[0, 1, 2]]

0    2
1    3
2    1
dtype: int64

In [84]:
obj2[[0, 1, 2]]

a    1
b    2
c    3
dtype: int64

Cuando se usa `loc`, la expresión `obj.loc[[0, 1, 2]]` fallará cuando el índice no
contenga entero:

Los índices para `loc` son exclusiamente etiquetas, también hay un operador `iloc` que
indexa eclusivamente enteros:

In [85]:
obj1.iloc[[0, 1, 2]]

2    1
0    2
1    3
dtype: int64

In [86]:
obj2.iloc[[0, 1, 2]]

a    1
b    2
c    3
dtype: int64

>También puede usar cortes con etiquetas, per funciona de manera diferente al corte normal de Python en que el punto final es inclusivo:

In [87]:
obj2.loc["b":"c"]

b    2
c    3
dtype: int64

La asignación de valores utilizando estos métodos modifica la selección correspondiente
de la Serie:

In [88]:
obj2.loc["b":"c"] = 5
obj2

a    1
b    5
c    5
dtype: int64

La indexación en un DataFrame recupera una o más columnas con un solo valor o secuencia:

In [89]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=["Ohio", "Colorado", "Utha", "New York"],
                   columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


In [90]:
data["two"]

Ohio         1
Colorado     5
Utha         9
New York    13
Name: two, dtype: int32

In [91]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utha,10,8
New York,14,12


Indexación como esta tiene algunos casos especiales. El primero es cortar o seleccionar
datos de una matriz booleana:

In [92]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [93]:
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


La sintaxis de la selección de filas `data[:2]` se proporciona por conveniencia. Pasar
un solo elemento o una lista al operador `[]` selecciona columnas.

Otro caso de uso es la indexación con un DataFrame booleano, como un o producido por una
coparación escalar. Considere un DataFrame con todos los valores booleanos producidos
comparando un valor escalar:

In [94]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utha,False,False,False,False
New York,False,False,False,False


In [95]:
# asignar valor 0 a cada ubicación con el valor True
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


### Selección de DataFrame con `loc` e `iloc`
Al igual que las Series, DataFrame tiene atributos especiales `loc` e `iloc` para la
indexación basada en etiquetas y basada en enteros. Dado que un DataFrame es
bidimensional, puede seleccionar un subconjunto de las filas y columnas con notación
similar a NumPy utilizando cualquiera de las etiquetas de eje (`loc`) o enteros (`iloc`).

In [96]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


In [97]:
"""
seleccionar una sola fila por etiquetas

el resultado de seleccionar una fila es un índice con las
etiquetas de las columnas
"""
data.loc["Colorado"]

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int32

In [98]:
# seleccionar varias etiquetas
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


In [99]:
# combinar la selección de filas y columnas
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int32

In [100]:
# realizar acciones similares con enteros usando iloc
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utha, dtype: int32

In [101]:
data.iloc[[2, 1]]

Unnamed: 0,one,two,three,four
Utha,8,9,10,11
Colorado,0,5,6,7


In [102]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utha, dtype: int32

In [103]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utha,11,8,9


Ambas funciones de indexación funcionan con cortes, además de etiquetas individuales o
listas de etiquetas:

In [104]:
data.loc[:"Utha", "two"]

Ohio        0
Colorado    5
Utha        9
Name: two, dtype: int32

In [105]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utha,8,9,10
New York,12,13,14


Las matrices booleanas se pueden usar con `loc`, pero no con `iloc`:

In [106]:
data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utha,8,9,10,11
New York,12,13,14,15


### Trampas de indexación de enteros
Trabajar con objetos pandas indexados por enteros puede ser un obstaculo para los
nuevos usuarios, ya que funcionan de manera diferente a las estructuras de datos de
Python integradas, como listas y tuplas. Por ejemplo, es posible que no espere que el
siguiente código genere un error:

In [107]:
ser = pd.Series(np.arange(8.))
ser

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
6    6.0
7    7.0
dtype: float64

In [108]:
# con un índice no entero, no existe ral ambigüedad
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
ser2[-1]

2.0

In [109]:
ser2.iloc[-1]

2.0

In [110]:
ser[:2]

0    0.0
1    1.0
dtype: float64

### Trampas con indexación encadenada
`loc` y `iloc`. Estos atributos de indexación también se pueden usar para modificar
objetos DataFrame en su lugar, pero hacerlo requiere cierto cuidado.

In [111]:
# asignar una columna o fila por etiqueta o posición entera
data.loc[:, "one"] = 1
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utha,1,9,10,11
New York,1,13,14,15


In [112]:
data.iloc[2] = 5
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utha,5,5,5,5
New York,1,13,14,15


In [113]:
data.loc[data["four"] > 5] = 3
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utha,5,5,5,5
New York,3,3,3,3


In [114]:
# la solución para lo anterior es
data.loc[data.three == 5, "three"] = 6
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utha,5,5,6,5
New York,3,3,3,3


Una buena regla general es evitar la indexación encadenada al hacer tareas.

### Artimética y alineación de datos
Pandas puede hacer que sea mucho más fácil trabajar con objetos que tienen diferentes
índices. Por ejemplo, cuando agrega objetos, si algún par de índices no es el mismo,
el índice respectivo en el resultado será la unión de los pares de índices.

In [115]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
              index=["a", "c", "e", "f", "g"])

In [116]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [117]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [118]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

La alineación interna de datos introduce valores faltantes en las ubicaciones de
etiquetas que no se superponen. Los valores faltantes se propagarán, entonces en cáculos aritméticos adicionales.

En el caso de DataFrame, la alineación se realiza en filas y columnas:

In [119]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                  index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                  index=["Utah", "Ohio", "Texas", "Oregon"])

In [120]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [121]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [122]:
# agregar estos devuelve un DataFrame con índice y columnas que son uniones de cada
# DataFrame
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Si agrega objetos DataFrame sin etiquetas de columnas o fila en común, el resultado
contendrá todos nulos:

In [123]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})

In [124]:
df1

Unnamed: 0,A
0,1
1,2


In [125]:
df2

Unnamed: 0,B
0,3
1,4


In [126]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


### Métodos aritméticos con calores de relleno
En las operaciones aritméticas entre objetos indexados de manera diferente, es posible
que desee llenar con un valor especial, como 0, cuando se encuentra una etiqueta de eje
en un objeto, pero no en el otro. Aquí hay un ejemplo en el que establecemos un valor
particular a `NA` (nulo) asignando `np.nan`:

In [127]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                  columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                  columns=list("abcde"))
df2.loc[1, "b"] = np.nan

In [128]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [129]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [130]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Usando el método `add` en `df1`, paso `df2` y un argumento para `fill_value`, que
sustituye el valor pasado por cualquier valor faltante en la operación:

In [131]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [132]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [133]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


En relación, al reindexar una Serie o DataDrame, también puede especificar un valor
de relleno diferente:

In [134]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


### Operaciones entre DataDrame y Series

In [135]:
# considere la diferencia entre una matriz bidimensional y una de sus filas
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [136]:
arr[0]

array([0., 1., 2., 3.])

In [137]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Cuando restamos `arr[0]` de `arr`, la resta se realiza una vez para cada fila.

Las operaciones entrre un DataFrame y una Serie son similares:

In [138]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                    columns=list("bde"),
                    index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [139]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [140]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [141]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2

b    0
e    1
f    2
dtype: int32

In [142]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Si desea transmitir sobre las columnas, haciendo coincidir las filas, debe usar uno
de los métodos aritméticos y especificar que coincidan con el índice.

In [143]:
series3 = frame["d"]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [144]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [145]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### Función, aplicación y mapeo
Numpy ufuncs también funcionan con objetos pandas:

In [146]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                    columns=list("bde"),
                    index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,1.536458,0.755434,-0.552369
Ohio,0.812411,1.437339,-0.182259
Texas,-0.134941,-0.438796,-0.269743
Oregon,0.821981,1.058692,1.270154


In [147]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.536458,0.755434,0.552369
Ohio,0.812411,1.437339,0.182259
Texas,0.134941,0.438796,0.269743
Oregon,0.821981,1.058692,1.270154


In [148]:
# aplicar una función en matrices unidimensionales a cada columna o fila
def f1(x):
    return x.max() - x.min()

frame.apply(f1)

b    1.671399
d    1.876135
e    1.822522
dtype: float64

In [149]:
# axis="columns" en apply se aplicara una vez por fila en su lugar
frame.apply(f1, axis="columns")

Utah      2.088827
Ohio      1.619598
Texas     0.303855
Oregon    0.448172
dtype: float64

In [150]:
# no es necesario devolver un escalar, puede devolver una serie con múltiples valores
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])

frame.apply(f2)

Unnamed: 0,b,d,e
min,-0.134941,-0.438796,-0.552369
max,1.536458,1.437339,1.270154


También se puede usar funciones de Python. Supongamos que desea calcular una cadena
formateada de cada valor de punto flotante en `frame`:

In [151]:
# usar applymap
def my_format(x):
    return f"{x:.2f}"

frame.applymap(my_format)

Unnamed: 0,b,d,e
Utah,1.54,0.76,-0.55
Ohio,0.81,1.44,-0.18
Texas,-0.13,-0.44,-0.27
Oregon,0.82,1.06,1.27


In [152]:
frame["e"].map(my_format)

Utah      -0.55
Ohio      -0.18
Texas     -0.27
Oregon     1.27
Name: e, dtype: object

### Sorting and ranking
Ordenar un conjunto de datos por algún criterio es otra operación incorporada importante.

In [153]:
# sort_index
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj

d    0
a    1
b    2
c    3
dtype: int32

In [154]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int32

Con un DataFrame puede ordenar por índice en cualquier eje:

In [155]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                    index=["three", "one"],
                    columns=list("dabc"))
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [156]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [157]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [158]:
# se ordenan de forma ascendente de forma predeterminada
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [159]:
# para ordenar una serie por sus valores sort_values
obj = pd.Series([4, 7, -3, 2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [160]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Cualquier valor faltante se ordena al final de la serie de forma predeterminada:

In [161]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [162]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [163]:
# los valores faltantes se pueden ordenar al inicio con na_position
obj.sort_values(na_position="first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

Al ordenar un DataFrame, puede usar los datos en una o más columnas como las claves de
clasificación.

In [164]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [165]:
# pasar una lista de nombres para ordenar varias columnas
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


_Ranking_ asigna un rango de una a través del número de puntos de datos válidos en una
matriz, comenzando desde el valor más bajo. El método `rank` para Series y DataFrame
son el lugar para buscar; por defecto, `rank` rompe los lazos asignando a cada grupo
el rango medio:

In [166]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [167]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

Los rangos también se pueden asignar de acuerdo con el orden en que se observan en los
datos:

In [168]:
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

DataFrame puede calcular rangos sobre las filas o las columnas:

In [169]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                    "c": [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [170]:
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### Índices en eje con etiquetas duplicadas
Mientras que muchas funciones pandas requieren que tengan ejes únicos, no es obligatorio.

In [171]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int32

In [172]:
# is_unique puede decir si sus etiquetas son únicas
obj.index.is_unique

False

Indexar una etiqueta con múltiples entradas devuelve una serie, mientras que las
entradas individuales devuelven un valor escalar:

In [173]:
obj["a"]

a    0
a    1
dtype: int32

In [174]:
obj["c"]

4

Esto puede hacer que su código sea más complicado, ya que el tipo de salida de la
indexación puede variar en función de si se repite o no una etiqueta.

La misma lógica se extiende a indexar filas (o columnas) en un DataFrame:

In [175]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                 index=list("aabbc"))
df

Unnamed: 0,0,1,2
a,0.044219,-1.02435,-0.615948
a,1.098681,0.191572,-0.999476
b,0.398227,0.513953,0.573393
b,-1.715105,-2.61219,0.303971
c,-0.226099,0.396833,0.738236


In [176]:
df.loc["b"]

Unnamed: 0,0,1,2
b,0.398227,0.513953,0.573393
b,-1.715105,-2.61219,0.303971


In [177]:
df.loc["c"]

0   -0.226099
1    0.396833
2    0.738236
Name: c, dtype: float64

### Resumiendo y computando estadísticas descriptivas
Los objetos Pandas están equipados con un conjunto de métodos matemáticos y estadísticos
comunes. La mayoría de estos entran en la categoría de reducciones o estadísticas
resumidas, métodos que extraen un solo valor (como la suma o la media) de una Serie,
o una Serie de las filas o columnas de un DataFrame. En comparación con los métodos
similares encontrados en las matrices de NumPy, tienen un manejo incorporado para los
datos faltantes.

In [178]:
df = pd.DataFrame([[1.4, np.nan], [7.2, -4.5],
                  [np.nan, np.nan], [0.75, -1.3]],
                 index=list("abcd"),
                 columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.2,-4.5
c,,
d,0.75,-1.3


In [179]:
# el método sum devuelve una serie que contiene una suma de colmna
df.sum()

one    9.35
two   -5.80
dtype: float64

In [180]:
# axis="columns" o axias=1 suma a través de las columnas
df.sum(axis=1)

a    1.40
b    2.70
c    0.00
d   -0.55
dtype: float64

Cuando una fila o columna completa contiene todos los valores NA, la suma es 0,
mientras que si algún valor no es NA, entonces el valores es NA. Esto se puede
desactivar con la opción `skipna`.

In [181]:
df.sum(axis="index", skipna=False)

one   NaN
two   NaN
dtype: float64

In [182]:
df.sum(axis="columns", skipna=False)

a     NaN
b    2.70
c     NaN
d   -0.55
dtype: float64

Algunas agregaciones, como `mean`, requieren al menos un valor no-NA para producir un
resultado de valor:

In [183]:
df.mean(axis="columns")

a    1.400
b    1.350
c      NaN
d   -0.275
dtype: float64

Los métodos `idxmin` y `idxmax` devolveran estadísticas indirectas, como el valor del
índice donde se alcanzan los valores mínimos o máximos:

In [184]:
df.idxmax()

one    b
two    d
dtype: object

In [185]:
df.idxmin()

one    d
two    b
dtype: object

In [186]:
# acumulaciones
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.6,-4.5
c,,
d,9.35,-5.8


Algunos métodos no son reducciones ni acumulaciones. `describe` produce múltiples
estadísticas de resumen en un solo disparo:

In [187]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.116667,-2.9
std,3.551174,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.3,-2.1
max,7.2,-1.3


In [188]:
# en datos no númericos dscribe produce estadísticas de resumen alternativas
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### Correlación y covarianza
Algunas estadísticas de resumen, como la correlación y la covarianza, se calculan a
partir de pares de argumentos.

In [189]:
price = pd.read_pickle("yahoo_price.pkl")
volume = pd.read_pickle("yahoo_volume.pkl")

Calcular los cambios porcentuales de los precios:

In [190]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


El método `corr` de Serie calcula la correlación de los valores superpuestos no-NA
alineados por índice en dos Series. Relacionadamente `cov` calcula la covarianza:

In [191]:
returns["MSFT"].corr(returns["IBM"])

0.4997636114415116

In [192]:
returns["MSFT"].cov(returns["IBM"])

8.870655479703549e-05

Los métodos `corr` `cov` de DataFrame devuelven una matriz de correlación o covarianza
completa como DataFrame:

In [193]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [194]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215


`corrwith` método de DataFrame puede calcular correlaciones por pares entre las columnas
o filas de un DataFrame con otra Serie o DataFrame. Al pasar una serie, se devuelve una
serie con valores de correlación calculado para cada columna:

In [195]:
returns.corrwith(returns["IBM"])

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

Al pasar un DataFrame se calculan las correlaciones de los nombres de columna
coincidentes.

In [196]:
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

Pasando `axis="columns"` hace las cosas fila por fila.

### Valores únicos, recuentos de valor y membresía
Otra clase de métodos relacionados extrae información sobre los valores contenidos en
una Serie unidimensional.

In [197]:
obj = pd.Series(list("cadaabbcc"))
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [198]:
# unique devuelve una matriz de valores únicos
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [199]:
uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

In [200]:
# relacionadamente, value_count calcula una serie que contiene frecuencias de valor
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

`value_counts()` también está disponible como un método Pandas de nivel superior
que se puede usar con matrices NumPy u otras secuencias de Python:

In [201]:
pd.value_counts(obj.to_numpy(), sort=False)

c    3
a    3
d    1
b    2
dtype: int64

`isin` realiza una verifiación de memebresía de conjunto vectorizado y puede ser útil
para filtrar un conjunto de datos a un sibconjunto de valores en una Serie o columna de
un DataFra:

In [202]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [203]:
mask = obj.isin(list("bc"))
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [204]:
# alternativamente
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [205]:
# es lo mismo que
obj[(obj == "b") | (obj == "c")]

0    c
5    b
6    b
7    c
8    c
dtype: object

El método `Index.get.indexer()` devuelve una matriz de índices de una matriz de
valores posiblemente no distintivos en otra matriz de valores distintos:

In [206]:
to_match = pd.Series(list("cabbca"))
unique_vals = pd.Series(list("cba"))
indices = pd.Index(unique_vals).get_indexer(to_match)
indices

array([0, 2, 1, 1, 0, 2], dtype=int32)

En algunos casos, es posible que desee calcular un histograma en varias columnas
relacionadas en un DataFrame.

In [207]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                    "Qu2": [2, 3, 1, 2, 3],
                    "Qu3": [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [208]:
# calcular los recuentos de valores para una sola columna
data["Qu1"].value_counts().sort_index()

1    1
3    2
4    2
Name: Qu1, dtype: int64

In [209]:
# calcular para todas las columnas
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


Las etiquetas de fila son los valores distintos que ocurre en todas las columnas.

`DataFrame.value_counts` calcula los recuentos considerando cada fila del DataFrame
como una tupla para determinar el número de ocurrencias de cada fila distinta:

In [210]:
data = pd.DataFrame({"a": [1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
data

Unnamed: 0,a,b
0,1,0
1,1,0
2,1,1
3,2,0
4,2,0


In [211]:
data.value_counts()

a  b
1  0    2
2  0    2
1  1    1
dtype: int64

El resultado tiene un índice que representa las distintas filas como un índice
jerárquico.