# Pandas

**¿Qué es Pandas?**  

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, especializada en el manejo y análisis de datos. Es una herramienta fundamental para cualquier persona que trabaje con conjuntos de datos en Python.

![1](1.png)

![2](2.png)

![3](3.png)

![4](4.png)

![5](5.png)

**Características principales de Pandas:** 

- Estructuras de datos potentes: Define nuevas estructuras de datos como DataFrames y Series, basadas en los arrays de NumPy, pero con funcionalidades más avanzadas para el manejo de datos tabulares y series temporales.  

- Manipulación flexible de datos: Permite leer y escribir datos de diversos formatos comunes, como CSV, Excel, bases de datos SQL y archivos JSON.
- Operaciones de análisis avanzadas: Ofrece una amplia gama de funciones para filtrar, ordenar, agrupar, agregar, combinar y transformar datos de manera eficiente.
- Análisis de series temporales: Brinda herramientas específicas para trabajar con datos de series temporales, como el manejo de fechas, índices de tiempo y 'resampling'.
- Visualización de datos: Integra funciones básicas para la creación de gráficos y visualizaciones de datos.

**Se utiliza para:**

- Cargar y limpiar datos: Importar datos de diversas fuentes, eliminar valores faltantes y corregir errores.
- Manipular y transformar datos: Reordenar, filtrar, agrupar y agregar datos según diferentes criterios.
- Analizar datos: Realizar cálculos estadísticos, identificar patrones y tendencias en los datos.
- Visualizar datos: Crear gráficos y visualizaciones para comunicar los resultados del análisis.

In [1]:
#!pip install numpy



In [2]:
#!pip install pandas



In [1]:
import numpy as np
import pandas as pd

In [4]:
psg_players = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'], index=[1,7,10,30])

In [5]:
psg_players

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

**Pandas, al crear una `Series` si no se la dan índices los asigna de forma automática:**

In [6]:
ingredientes = pd.Series(['Jamón', 'Aceitunas', 'Pan', 'Queso'])

In [7]:
ingredientes

0        Jamón
1    Aceitunas
2          Pan
3        Queso
dtype: object

### Vamos a usar esta vez diccionarios

In [8]:
dict = {1: 'Navas', 7: 'Mbappe', 10:'Neymar', 30: 'Messi'}
pd.Series(dict)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

### ¿Que pasa si quiero definir un array con mas valores?

In [9]:
dict_1 = {'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
'Altura':[183.0, 170.0, 185.0, 165.0], 
'Goles': [2, 150,180,200]}

In [10]:
pd.DataFrame(dict_1, index=[1,7,10,30])

Unnamed: 0,Jugador,Altura,Goles
1,Navas,183.0,2
7,Mbappe,170.0,150
10,Neymar,185.0,180
30,Messi,165.0,200


### Sin definir índices

In [11]:
pd.DataFrame(dict_1)

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


In [12]:
df_Players = pd.DataFrame(dict_1)

In [13]:
df_Players

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


In [14]:
df_Players.columns

Index(['Jugador', 'Altura', 'Goles'], dtype='object')

In [15]:
df_Players.index

RangeIndex(start=0, stop=4, step=1)

In [16]:
df_Players

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


### Si tienes datos contenidos en un diccionario de Python, puedes crear una ``` Series``` a partir de ellos pasándole el diccionario:

In [17]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3
    

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

### Una `Series`  puede convertirse de nuevo en un diccionario con su método `to_dict` :

In [18]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

### Cuando sólo se pasa un diccionario, el índice de la `Series` resultante respetará el orden de las claves según el método `keys` del diccionario, que depende del orden de inserción de las claves.  
### Puede anular esto pasando un índice con las claves del diccionario en el orden en que desea que aparezcan en la `Series` resultante:

In [19]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

### Aquí, tres valores encontrados en sdata se colocaron en los lugares apropiados, pero como no se encontró ningún valor para "California", aparece como `NaN` (Not a Number), que se considera en pandas para marcar valores perdidos o NA. Como "Utah" no se incluyó en estados, se excluye del objeto resultante.
### Utilizaremos los términos "missing", "NA" (Not Available) o "null" indistintamente para referirnos a los datos que faltan. Las funciones `isna` y `notna` de pandas deben utilizarse para detectar datos omitidos:

In [20]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [21]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

### `Series` también los tiene como métodos de instancia:

In [22]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

### Mas detalles sobre limpieza y depuración se verá mas adelante.

### Una característica de `Series` útil para muchas aplicaciones es que alinea automáticamente por etiqueta de índice en operaciones aritméticas:

In [23]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [24]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [25]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

### Tanto el propio objeto `Series` como su índice tienen un atributo `name`, que se integra con otras áreas de funcionalidad de pandas:

In [26]:
obj4.name = "population"

In [27]:
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### El índice de una `Series` puede modificarse "in situ" mediante asignación:

### Definamos el siguiente obj:

In [28]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

### Asignamos "in situ" los indices:

In [29]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame
Un DataFrame representa una tabla rectangular de datos y contiene una colección ordenada y nombrada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, cadena, booleano, etc.). El DataFrame tiene tanto un índice de fila como de columna; puede considerarse como un diccionario de Series que comparten el mismo índice.
Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir de un diccionario de listas de igual longitud o arrays de NumPy:

In [30]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

El DataFrame resultante tendrá su índice asignado automáticamente, como con Series, y las columnas se colocan según el orden de las claves en los datos (que depende de su orden de inserción en el diccionario):

In [31]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Para DataFrames grandes, el método `head` selecciona sólo las cinco primeras filas:

In [32]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Del mismo modo, `tail` devuelve las cinco últimas filas:

In [33]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame se ordenarán en ese orden:

In [34]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si pasa una columna que no está contenida en el diccionario, aparecerá con valores ausentes en el resultado:

In [35]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [36]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna de un DataFrame puede recuperarse como una Serie mediante notación tipo diccionario o utilizando la notación de atributo `.` (dot notation):

In [37]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [38]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

`frame2[column]` funciona para cualquier nombre de columna, pero `frame2.column`sólo funciona cuando el nombre de la columna es un nombre de variable Python válido y no entra en conflicto con ninguno de los nombres de método de DataFrame. Por ejemplo, si el nombre de una columna contiene espacios en blanco o símbolos que no sean guiones bajos, no se puede acceder a ella con el método de atributo dot.

Observe que las `Series` devueltas tienen el mismo índice que el DataFrame, y su atributo `name` se ha configurado adecuadamente.

Las filas también pueden recuperarse por posición o nombre con los atributos especiales `iloc` y `loc`.

In [39]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [40]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [41]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

**¿Cuál es la diferencia entre iloc y loc?**

**1- iloc (Index Location):**  
Se utiliza para seleccionar elementos basados en su ubicación (índice de posición).

-- Para las filas, puedes usar números enteros para acceder a las posiciones. Por ejemplo:

- `df.iloc[0]` Selecciona la primera fila.  
- `df.iloc[1]` Selecciona la segunda fila.
- `df.iloc[-1]` Selecciona la última fila.

-- Para las columnas, también puedes usar números enteros:

- `df.iloc[:, 0]`Selecciona la primera columna.  
- `df.iloc[:, 1]`Selecciona la segunda columna.  
- `df.iloc[:, -1]`Selecciona la última columna.

**2- loc (Label Location):**  
Se basa en etiquetas (nombres asignados a filas y columnas). Puedes usar etiquetas personalizadas o nombres de índice para acceder a los datos.

Ejemplos:

- `df.loc[0]` Selecciona la fila con etiqueta 0.
- `df.loc['Etiqueta_o_nombre_fila']` Selecciona la fila con el nombre de la fila o etiqueta.
- `df.loc[:, 'Nombre_Columna']` Selecciona una columna por su nombre.

Vuelta al ejemplo de la celda 42

In [42]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


Las columnas pueden modificarse por asignación. Por ejemplo, a la columna `debt` vacía se le puede asignar un valor escalar o un array de valores:

In [43]:
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


Cuando asigne listas o arrays a una columna, la longitud del valor debe coincidir con la longitud del DataFrame. Si asigna una `Series`, sus etiquetas se realinearán exactamente con el índice del DataFrame, insertando los valores que falten en cualquier valor del índice que no esté presente:

In [44]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, 5])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


### Al asignar una columna que no existe se creará una columna nueva. La palabra clave `del` borrará columnas como con un diccionario. Como ejemplo, primero se añade una nueva columna de valores booleanos donde la columna `state` es igual a `"Ohio"`:



In [45]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


### El método `del` se puede utilizar para eliminar esta columna:

In [46]:
del frame2["eastern"]

In [47]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [48]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [49]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


### Cuidado.
La columna devuelta al indexar un DataFrame es una vista de los datos subyacentes, no una copia. Por lo tanto, cualquier modificación en la `Series` se reflejará en el DataFrame. La columna puede copiarse explícitamente con el método `copy` de la `Series`.

Otra forma común de datos es un diccionario anidado de diccionarios:

In [50]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002: 2.9}}

Si el diccionario anidado se pasa al DataFrame, pandas interpretará las claves externas del diccionario como las columnas, y las claves internas como los índices de fila:

In [51]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Puede transponer el DataFrame (intercambiar filas y columnas) con una sintaxis similar a la de un array NumPy:

In [52]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [53]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


### Cuidado
Tenga en cuenta que la transposición descarta los tipos de datos de columna si las columnas no tienen todas el mismo tipo de datos, por lo que transponer y luego volver a transponer puede perder la información del tipo anterior. En este caso, las columnas se convierten en arrays de objetos Python puros.

Las claves de los diccionarios internos se combinan para formar el índice del resultado. Esto no es cierto si se especifica un índice explícito:

In [54]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


Los diccionarios de `Series` reciben un tratamiento muy similar:

In [55]:
pdata = {"Ohio": frame3["Ohio"][:-1],"Nevada": frame3["Nevada"][:2]}
# frame3["Ohio"][:-1]: Extrae todos los valores de la columna “Ohio”
# excepto el último valor.

# frame3["Nevada"][:2]:Extrae los primeros dos valores de la columna “Nevada”
# en el DataFrame frame3.
pdata

{'Ohio': 2000    1.5
 2001    1.7
 Name: Ohio, dtype: float64,
 'Nevada': 2000    NaN
 2001    2.4
 Name: Nevada, dtype: float64}

In [56]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


## Posibles entradas de datos para el constructor DataFrame

<img src="tabla_1.png">

Si el índice y las columnas de un DataFrame tienen definidos atributos de nombre, éstos también se mostrarán:

In [57]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [58]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


A diferencia de `Series`, DataFrame no tiene atributo name. El método `to_numpy` de DataFrame devuelve los datos contenidos en el DataFrame como un `ndarray` bidimensional:

In [59]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

Si las columnas del DataFrame son de diferentes tipos de datos, el tipo de datos del array devuelto se elegirá para acomodar todas las columnas, veamos lo que contiene frame2:

In [60]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [61]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, -1.2],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, -1.5],
       [2003, 'Nevada', 3.2, -1.7]], dtype=object)

### Objetos índice

Los objetos `Index` de pandas son responsables de mantener las etiquetas de los ejes (incluyendo los nombres de las columnas de un DataFrame) y otros metadatos (como el nombre o nombres de los ejes). Cualquier array u otra secuencia de etiquetas que se utilice al construir una `Series` o DataFrame se convierte internamente en un Índice:

In [62]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
obj

a    0
b    1
c    2
dtype: int64

In [63]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [64]:
index[1:]

Index(['b', 'c'], dtype='object')

Los objetos índice son inmutables y, por tanto, no pueden ser modificados por el usuario:

In [65]:
index[1] = "d"  # TypeError

TypeError: Index does not support mutable operations

La inmutabilidad hace que sea más seguro compartir objetos índice entre estructuras de datos:

In [None]:
labels = pd.Index(np.arange(3))
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

In [None]:
obj2.index is labels

Además de ser similar a un array, un índice también se comporta como un conjunto (set) de tamaño fijo:

In [None]:
frame3

In [None]:
frame3.columns

In [None]:
"Ohio" in frame3.columns

In [None]:
2003 in frame3.index

A diferencia de los conjuntos (`set()`) de Python, un índice de pandas puede contener etiquetas duplicadas:

In [None]:
pd.Index(["foo", "foo", "bar", "bar"])

Las selecciones con etiquetas duplicadas tomarán todas las apariciones de esa etiqueta. Cada Índice tiene una serie de métodos y propiedades para la lógica de conjuntos, que responden a otras preguntas habituales sobre los datos que contiene. Algunas de las más útiles se resumen en:

<img src="tabla_2.png">

### Funciones esenciales
Esta sección es una guia a través de la mecánica fundamental de la interacción con los datos contenidos en una Serie o DataFrame. 

### Reindexación (Reindexing)

Un método importante en los objetos pandas es `reindex`, que significa crear un nuevo objeto con los valores reordenados para alinearlos con el nuevo índice. Consideremos un ejemplo:


In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

Si se llama a `reindex` en esta `Series`, los datos se reordenan de acuerdo con el nuevo índice, introduciendo los valores que faltan si alguno de los valores del índice no estaba ya presente:

In [None]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

En el caso de datos ordenados como series temporales, es posible que desee realizar alguna interpolación o relleno de valores al reindexar. Utilizando un método como `ffill`, que rellena los valores hacia delante:

In [None]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

In [None]:
obj3.reindex(np.arange(6), method="ffill")


Con DataFrame, `reindex` puede alterar el índice (de filas), las columnas o ambos. Si sólo se le pasa una secuencia, reindexa las filas del resultado:

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=["a", "c", "d"],columns=["Ohio", "Texas", "California"])
frame                    

In [None]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

The columns can be reindexed with the `columns` keyword:

In [None]:
frame

In [None]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Como `"Ohio"` no estaba en los `states`, los datos de esa columna se eliminan del resultado. Otra forma de hacer `reindex` en un eje concreto es pasar las nuevas etiquetas de eje como argumento posicional y, a continuación, especificar el eje que se va a reindexar con la palabra clave `axis`:

In [None]:
frame.reindex(states, axis="columns")

Consulte la siguiente tabla para obtener más información sobre los argumentos para reindexar.

<img src="tabla_3.png">

En un DataFrame tambien se puede usar `loc` e `iloc`, para reindexar, y muchos usuarios prefieren hacerlo siempre de esta manera. Esto sólo funciona si todas las nuevas etiquetas de índice ya existen en el DataFrame (mientras que reindex insertará los datos que falten para las nuevas etiquetas):

In [None]:
frame

In [None]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

### Eliminar entradas de un eje

Eliminar una o más entradas de un eje es sencillo si ya tienes un array o una lista de índices sin esas entradas, ya que puedes utilizar el método `reindex` o la indexación basada en `.loc`. Como eso puede requerir un poco de lógica  el método `drop` devolverá un nuevo objeto con el valor o valores indicados eliminados de un eje:

In [None]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

In [None]:
#alvknasñdlvkas´dovl

In [None]:
new_obj = obj.drop("c")
new_obj

In [None]:
obj.drop(["d", "c"])

Con DataFrame, los valores índice se pueden eliminar de cualquiera de los ejes. Para ilustrar esto, primero crearemos un DataFrame de ejemplo:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Si se llama a `drop` con una secuencia de etiquetas, se eliminarán los valores de las etiquetas de fila (eje 0):

In [None]:
data.drop(index=["Colorado", "Ohio"])

Para eliminar las etiquetas de las columnas, utilice en su lugar la palabra clave `columns`:

In [None]:
data.drop(columns=["two"])

También puede eliminar valores de las columnas pasando `axis=1` ( como en NumPy) o `axis="columns"`:

In [None]:
data.drop("two", axis=1)

In [None]:
data.drop(["two", "four"], axis="columns")

### Indexación, selección y filtrado

La indexación de series (`obj[...]`) funciona de forma análoga a la indexación de arrays de NumPy, con la diferencia de que puedes utilizar los valores índice de la serie en lugar de sólo enteros. He aquí algunos ejemplos:

In [None]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

In [None]:
obj["b"]

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[["b", "a", "d"]]

In [None]:
obj[[1, 3]]

In [None]:
obj[obj < 2]

Aunque puede seleccionar datos por etiqueta de esta manera, la forma preferida de seleccionar valores de índice es con el operador especial `loc`:

In [None]:
obj.loc[["b", "a", "d"]]


La razón para preferir `loc` es el tratamiento diferente de los enteros cuando se indexa con `[]`. La indexación normal basada en `[]` tratará los enteros como etiquetas si el índice contiene enteros, por lo que el comportamiento difiere dependiendo del tipo de datos del índice. Por ejemplo:

In [None]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])

In [None]:
obj1

In [None]:
obj2

In [None]:
obj1[[0, 1, 2]]

In [None]:
obj2[[0, 1, 2]]

Al utilizar `loc`, la expresión `obj.loc[[0, 1, 2]]` fallará cuando el índice no contenga enteros:

In [None]:
obj2.loc[[0, 1]]

Dado que el operador `loc` indexa exclusivamente con etiquetas, existe también un operador `iloc` que indexa exclusivamente con enteros para trabajar de forma consistente tanto si el índice contiene enteros como si no:

In [None]:
obj1.iloc[[0, 1, 2]]

In [None]:
obj2.iloc[[0, 1, 2]]

Precaución: También se puede rebanar (slice) con etiquetas, pero funciona de forma diferente al rebanado(slicing) normal de Python, ya que el punto final es inclusivo:

In [None]:
obj2.loc["b":"c"]

La asignación de valores mediante estos métodos modifica la sección correspondiente de la `Series`:

In [None]:
obj2

In [None]:
obj2.loc["b":"c"] = 5
obj2

La indexación en un DataFrame recupera una o más columnas, ya sea con un único valor o con una secuencia:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

In [None]:
data["two"]

In [None]:
data[["three", "one"]]

Este tipo de indexación tiene algunos casos especiales. El primero es el corte (slicing) o la selección de datos con una array booleano:

In [None]:
data[:2]
# selecciona las primeras dos filas del DataFrame.

In [None]:
booleano_a= ali.to_numpy()
booleano_a

In [None]:
data[data["three"] > 5]

La sintaxis de selección de filas `data[:2]` se proporciona por comodidad. Si se pasa un único elemento o una lista al operador `[]` selecciona columnas.

 Otro caso de uso es la indexación con un DataFrame booleano, como el producido por una comparación escalar. Considere un DataFrame con todos los valores booleanos producidos por comparación con un valor escalar:

In [None]:
data < 5

Podemos utilizar este DataFrame para asignar el valor 0 a cada ubicación con el valor `True`, así:

In [None]:
data[data < 5] = 0
data

### Selección en un DataFrame con `loc` e `iloc`

Al igual que `Series`, los `DataFrame` tiene atributos especiales `loc` e `iloc` para la indexación basada en etiquetas y en enteros, respectivamente. Como un `DataFrame` es bidimensional, puede seleccionar un subconjunto de filas y columnas con notación tipo NumPy utilizando etiquetas de eje (loc) o enteros (iloc).

Como primer ejemplo, vamos a seleccionar una sola fila por etiqueta:

In [None]:
data

In [None]:
data.loc["Colorado"]

El resultado de seleccionar una sola fila es una `Series` con un índice que contiene las etiquetas de las columnas del `DataFrame`. Para seleccionar múltiples valores, creando un nuevo DataFrame, se le pasa una secuencia de etiquetas:

In [None]:
data.loc[["Colorado", "New York"]]

Puede combinar la selección de filas y columnas en `loc` separando las selecciones con una coma:

In [None]:
data.loc["Colorado", ["two", "three"]]

A continuación, realizaremos algunas selecciones similares con enteros utilizando `iloc`:

In [None]:
data.iloc[2]

In [None]:
data.iloc[[2, 1]]

In [None]:
data.iloc[2, [3, 0, 1]]

In [None]:
data.iloc[[1, 2], [3, 0, 1]]

Ambas funciones de indexación funcionan con trozos (slices) además de con etiquetas individuales o listas de etiquetas:

In [None]:
data

In [None]:
data.loc[:"Utah", "two"]
# Devuelve los valores de la columna "two" 
# para todas las filas desde el inicio 
# hasta la fila con la etiqueta "Utah"

In [None]:
data.iloc[:, :3][data.three > 5]
# Muestra las filas que cumplen
# la condición data.three > 5 
# para las columnas 'one', 'two'
# y 'three'
# Para mayor claridad ejecute 
# data.iloc[:, :3] y luego
# data.iloc[:, :3][data.three > 5]

Los arrays Booleanos pueden ser usados con `loc` pero no `iloc`:

Considere lo siguiente:

In [None]:
data.three >= 2

In [None]:
data.loc[data.three >= 2]

Hay muchas formas de seleccionar y reordenar los datos contenidos en un objeto pandas. Para un `DataFrame`, la siguiente tabla proporciona un breve resumen de muchas de ellas. Como se verá más adelante, hay una serie de opciones adicionales para trabajar con índices jerárquicos.

<img src="tabla_4.png">

### Errores en la indexación de números enteros

Trabajar con objetos pandas indexados por enteros puede ser un escollo para los nuevos usuarios ya que funcionan de forma diferente a las estructuras de datos incorporadas en Python como listas y tuplas. Por ejemplo, es posible que no espere que el siguiente código genere un error:

In [None]:
ser = pd.Series(np.arange(3.))

In [None]:
ser

In [None]:
ser[-1]

En este caso, pandas podría "recurrir" a la indexación por enteros, pero es difícil hacer esto en general sin introducir errores sutiles en el código de usuario. Aquí tenemos un índice que contiene 0, 1 y 2, pero pandas no quiere adivinar lo que quiere el usuario (indexación basada en etiquetas o basada en posiciones):

In [None]:
ser

En cambio, con un índice no entero, no existe tal ambigüedad:

In [None]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
ser2[-1]

Si tienes un índice de eje que contiene enteros, la selección de datos siempre estará orientada a etiquetas. Como se ha dicho anteriormente, si se utiliza `loc` (para etiquetas) o `iloc` (para enteros) se obtendrá exactamente lo que se desea:

In [None]:
 ser.iloc[-1]

Por otra parte, el corte (slicing) con números enteros siempre está orientado a números enteros:

In [None]:
ser[:2]

Como consecuencia de estos errores, es mejor preferir siempre la indexación con `loc` e `iloc` para evitar ambigüedades.

### Errores de la indexación encadenada

En la sección anterior vimos cómo se pueden hacer selecciones flexibles en un DataFrame utilizando `loc` e `iloc`. Estos atributos de indexación también se pueden utilizar para modificar objetos DataFrame "in situ", pero hacerlo requiere cierto cuidado.  
Por ejemplo, en el ejemplo DataFrame anterior, podemos asignar a una columna o fila por etiqueta o posición entera:

In [None]:
data

In [None]:
data.loc[:, "one"] = 1
data

In [None]:
data.iloc[2] = 5
data

In [None]:
data.loc[data["four"] > 5] = 3
data

Un error común para los nuevos usuarios de pandas es encadenar selecciones cuando se asignan de esta manera:

In [None]:
data

In [None]:
data.loc[data.three == 5]
# La condición data.three == 5 
# crea una Serie booleana que 
# tiene True para las filas 
# donde el valor en la columna "three" 
# es igual a 5 y False para las demás filas.

In [None]:
data.loc[data.three == 5]["three"] = 6

Dependiendo del contenido de los datos, esto puede imprimir una advertencia especial `SettingWithCopyWarning`, que le advierte de que está intentando modificar un valor temporal (el resultado no vacío de `data.loc[data.three == 5])` en lugar del DataFrame original `data`, que podría ser lo que pretendía. En este caso, `data` no se ha modificado:

In [None]:
data

En estos casos, la solución consiste en reescribir la asignación encadenada para utilizar una única operación `loc`:

In [None]:
data.loc[data.three == 5, "three"] = 6
data

### Aritmética y alineación de datos

Pandas puede simplificar mucho el trabajo con objetos que tienen índices diferentes. Por ejemplo, al sumar objetos, si algún par de índices no es el mismo, el índice respectivo en el resultado será la unión de los pares de índices. Veamos un ejemplo:

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s1

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
         index=["a", "c", "e", "f", "g"])
s2

In [None]:
 s1 + s2

La alineación interna de los datos introduce valores perdidos en las ubicaciones de las etiquetas que no se solapan. Los valores perdidos se propagarán en los cálculos aritméticos posteriores.

En el caso de un `DataFrame`, la alineación se realiza tanto en las filas como en las columnas:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
             index=["Ohio", "Texas", "Colorado"])

df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

Como las columnas "c" y "e" no se encuentran en ambos objetos DataFrame, aparecen como ausentes en el resultado. Lo mismo ocurre con las filas con etiquetas que no son comunes a ambos objetos.

Si añade objetos DataFrame sin etiquetas de columna o fila en común, el resultado contendrá todos nulos:

In [None]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1

In [None]:
df2

In [None]:
df1 + df2

### Métodos aritméticos con valores de relleno
En operaciones aritméticas entre objetos indexados de forma diferente, es posible que desee rellenar con un valor especial, como 0, cuando una etiqueta de eje se encuentra en un objeto pero no en el otro. He aquí un ejemplo en el que establecemos un valor particular como NA (nulo) asignándole `np.nan`:

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
              columns=list("abcde"))     

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

Utilizando el método `add` en df1, se pasa `df2` y un argumento a `fill_value`, que sustituye el valor pasado por cualquier valor que falte en la operación:

In [None]:
df1.add(df2, fill_value=0)

Véase en la siguiente tabla un listado de los métodos `Series` y `DataFrame` para aritmética. Cada uno tiene una contrapartida, que empieza por la letra `r`, que tiene los argumentos invertidos. Por lo tanto, estas dos sentencias son equivalentes:

In [None]:
1 / df1

In [None]:
df1.rdiv(1)

Al reindexar una `Serie` o un `DataFrame`, también puede especificar un valor de relleno (fill value) diferente:

In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

<img src="tabla_5.png">

### Operaciones entre `DataFrame` y `Series`
Al igual que con las matrices NumPy de diferentes dimensiones, también se define la aritmética entre DataFrame y Series. En primer lugar, como ejemplo , considere la diferencia entre una matriz bidimensional y una de sus filas:

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr

In [None]:
arr[0]

In [None]:
arr - arr[0]

Cuando restamos `arr[0]` de `arr`, la resta se realiza una vez por cada fila. Esto se denomina difusión y se explica con más detalle en lo que se refiere a las matrices generales de NumPy Avanzado. Las operaciones entre un DataFrame y una Serie son similares:

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                    columns=list("bde"),
                    index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

In [None]:
frame

In [None]:
series

Por defecto, la aritmética entre el `DataFrame` y la `Series` coincide con el índice de la `Series` en las columnas del `DataFrame`, difundiéndose por las filas:

In [None]:
frame - series

Si no se encuentra un valor de índice ni en las columnas del `DataFrame` ni en el índice de la `Series`, los objetos se reindexarán para formar la unión:

In [None]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2


In [None]:
frame + series2

Si, en cambio,se desea trabajar sobre las columnas, coincidiendo en las filas, debe utilizar uno de los métodos aritméticos y especificar que coincida sobre el índice. Por ejemplo:

In [None]:
series3 = frame["d"]
frame

In [None]:
series3

In [None]:
frame.sub(series3, axis="index")

El eje que se pasa es el eje sobre el que se va a realizar la comparación. En este caso nos referimos a coincidir en el índice de fila del `DataFrame` `(axis="index")` y trabajará a través de las columnas.

### Aplicación y asignación de funciones
Los `ufuncs` de NumPy (métodos de array por elementos) también funcionan con objetos pandas:

In [None]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
              columns=list("bde"),
              index=["Utah", "Ohio", "Texas", "Oregon"])
frame

In [None]:
np.abs(frame)

Otra operación frecuente es aplicar una función en arrays unidimensionales a cada columna o fila. El método `apply` de DataFrame hace exactamente esto:

In [None]:
def f1(x):
    return x.max() - x.min()
frame.apply(f1)

Aquí la función `f`, que calcula la diferencia entre el máximo y el mínimo de una `Series`, se invoca una vez en cada columna de `frame`. El resultado es una `Series` que tiene como índice las columnas de `frame`.
Si se pasa `axis="columns"` al método `apply`, la función se invocará una vez por fila. Una forma útil de pensar en esto es como "aplicar a través de las columnas":

In [None]:
frame.apply(f1, axis="columns")

Muchos de los estadísticos de array más comunes (como suma y media) son métodos de DataFrame, por lo que no es necesario utilizar `apply`. No es necesario que la función pasada a `apply` devuelva un valor escalar; también puede devolver una Serie con múltiples valores:

In [None]:
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])

frame.apply(f2)

También se pueden utilizar funciones Python por elementos. Supongamos que desea calcular una cadena formateada a partir de cada valor de coma flotante de `frame` Puede hacerlo con `applymap`:

In [None]:
def my_format(x):
    return f"{x:.2f}"
frame.applymap(my_format)

La razón del nombre `applymap` es que `Series` tiene un método `map` para aplicar una función `element-wise`:

In [None]:
frame["e"].map(my_format)

### Clasificación y ordenación
Ordenar un conjunto de datos por algún criterio es otra importante operación incorporada. Para ordenar lexicográficamente por etiqueta de fila o columna, utilice el método `sort_index`, que devuelve un nuevo objeto ordenado:

In [None]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj

In [None]:
obj.sort_index()

Con un `DataFrame`,  se puede ordenar por índice en cualquiera de los ejes:

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])

frame

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis="columns")

Por defecto, los datos se ordenan en orden ascendente, pero también pueden ordenarse en orden descendente:

In [None]:
frame.sort_index(axis="columns", ascending=False)

Para ordenar una `Serie` por sus valores, utilice su método `sort_values`:

In [None]:
obj = pd.Series([4, 7, -3, 2])

In [None]:
obj.sort_values()

Los valores que faltan se ordenan por defecto al final de la serie:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

In [None]:
obj.sort_values()

Los valores faltantes pueden ordenarse al principio utilizando la opción `na_position`:

In [None]:
obj.sort_values(na_position="first")

Al ordenar un DataFrame, puede utilizar los datos de una o varias columnas como claves de ordenación. Para ello, pase uno o más nombres de columna a `sort_values`:

In [None]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame

In [None]:
frame.sort_values("b")

Para ordenar por varias columnas, pase una lista de nombres:

In [None]:
frame.sort_values(["a", "b"])

La clasificación `Ranking` asigna rangos desde uno hasta el número de puntos de datos válidos en una array, empezando por el valor más bajo. Los métodos `rank` para `Series` y `DataFrame` son el lugar donde buscar; por defecto, `rank` rompe los empates asignando a cada grupo el rango medio:

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

In [None]:
obj.rank()

También se pueden asignar rangos según el orden en que se observan en los datos:

In [None]:
obj.rank(method="first")

Aquí, en lugar de utilizar el rango medio 6,5 para las entradas 0 y 2, se han fijado en 6 y 7 porque la etiqueta 0 precede a la etiqueta 2 en los datos.

También puedes clasificar en orden descendente:

In [None]:
obj.rank(ascending=False)

Consulte la siguiente Tabla para ver una lista de los métodos de "desempate" (tie-breaking) disponibles.

<img src="tabla_6.png">

DataFrame puede calcular rangos sobre las filas o las columnas:

In [None]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
frame

In [None]:
frame.rank(axis="columns")

### Índices de ejes con etiquetas duplicadas
Hasta ahora casi todos los ejemplos que hemos visto tienen etiquetas de eje únicas (valores de índice). Aunque muchas funciones de pandas (como reindex) requieren que las etiquetas sean únicas, no es obligatorio. Consideremos una pequeña serie con índices duplicados:

In [None]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

La propiedad `is_unique` del índice puede indicarle si sus etiquetas son únicas o no:

In [None]:
obj.index.is_unique

La selección de datos es una de las principales cosas que se comporta de forma diferente con los duplicados. La indexación de una etiqueta con varias entradas devuelve una Serie, mientras que las entradas únicas devuelven un valor escalar:

In [None]:
obj["a"]

In [None]:
obj["c"]

Esto puede complicar su código, ya que el tipo de salida de la indexación puede variar en función de si una etiqueta se repite o no. La misma lógica se extiende a la indexación de filas (o columnas) en un DataFrame:

In [None]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                index=["a", "a", "b", "b", "c"])
df  

In [None]:
df.loc["b"]

In [None]:
df.loc["c"]

### Resumir y calcular estadísticas descriptivas
Los objetos pandas están equipados con un conjunto de métodos matemáticos y estadísticos comunes. La mayoría de ellos entran en la categoría de reducciones o estadísticas de resumen, métodos que extraen un único valor (como la suma o la media) de una Serie, o una Serie de valores de las filas o columnas de un DataFrame. En comparación con los métodos similares que se encuentran en las matrices NumPy, tienen incorporado el manejo de los datos que faltan. Consideremos un pequeño DataFrame:

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
             [np.nan, np.nan], [0.75, -1.3]],
                index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df


La llamada al método `sum` de DataFrame devuelve una `Serie` que contiene las sumas de las columnas:

In [None]:
df.sum()

Si se pasa `axis="columnas"` o `axis=1`, se suman las columnas:

In [None]:
df.sum(axis="columns")

Cuando una fila o columna entera contiene todos valores NA, la suma es 0, mientras que si algún valor no es NA, entonces el resultado es NA. Esto se puede desactivar con la opción `skipna`, en cuyo caso cualquier valor NA en una fila o columna nombra NA al resultado correspondiente:

In [None]:
df.sum(axis="index", skipna=False)

In [None]:
df.sum(axis="columns", skipna=False)

Algunas agregaciones, como la media `mean`, requieren al menos un valor no-NA para producir un resultado de valor, así que aquí tenemos:

In [None]:
df.mean(axis="columns")

Véase la siguiente tabla una lista de opciones habituales para cada método de reducción:

<img src="tabla_6.png">

Algunos métodos, como `idxmin` e `idxmax`, devuelven estadísticas indirectas, como el valor del índice donde se alcanzan los valores mínimo o máximo:

In [None]:
df.idxmax()

Otros métodos son las acumulaciones:

In [None]:
df.cumsum()

In [None]:
df

Algunos métodos no son ni reducciones ni acumulaciones. `describe` es un ejemplo de ello, ya que produce múltiples estadísticas de resumen de una sola vez:

In [None]:
df.describe()

En datos no numéricos, describe produce estadísticas de resumen alternativas:

In [None]:
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj

In [None]:
obj.describe()

Véase la siguiente tabla para una lista completa de estadísticas de síntesis y métodos relacionados.

<img src="tabla_8.png">

### Correlación y covarianza
Algunos estadísticos de resumen, como la correlación y la covarianza, se calculan a partir de pares de argumentos. Consideremos algunos DataFrames de precios y volúmenes de acciones obtenidos originalmente de Yahoo! Finance:

In [None]:
price = pd.read_pickle("yahoo_price.pkl")
volume = pd.read_pickle("yahoo_volume.pkl")


Por ejemplo, se podría calcular las variaciones porcentuales de los precios:

In [None]:
returns = price.pct_change()
returns.tail()

El método `corr` de Series calcula la correlación de los valores superpuestos, no-NA, alineados-por-índice en dos Series. Por su parte, `cov` calcula la covarianza:

In [None]:
returns["MSFT"].corr(returns["IBM"])

In [None]:
returns["MSFT"].cov(returns["IBM"])

Los métodos `corr` y `cov` de un DataFrame, por otro lado, devuelven una matriz de correlación o covarianza completa como un DataFrame, respectivamente:

In [None]:
returns.corr()

In [None]:
returns.cov()

Utilizando el método `corrwith` de DataFrame, puede calcular correlaciones por pares entre las columnas o filas de un DataFrame con otra Serie o DataFrame. Al pasar una Serie se devuelve una Serie con el valor de correlación calculado para cada columna:

In [None]:
returns.corrwith(returns["IBM"])

Al pasar un DataFrame se calculan las correlaciones de los nombres de columna coincidentes. Aquí, se calculan las correlaciones de los cambios porcentuales con el volumen:

In [None]:
returns.corrwith(volume)

Si se pasa `axis="columns"`, se hace fila por fila. En todos los casos, los puntos de datos se alinean por etiqueta antes de calcular la correlación.

### Valores únicos, recuento de valores y afiliación

Otra clase de métodos relacionados extrae información sobre los valores contenidos en una Serie unidimensional. Para ilustrarlos, considere este ejemplo:

In [None]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

La primera función es `unique`, que nos da un array de los valores únicos de una Serie:

In [None]:
uniques = obj.unique()
uniques

Los valores únicos no se devuelven necesariamente en el orden en que aparecen por primera vez, y no en orden ordenado, pero podrían ordenarse a posteriori si fuera necesario (`uniques.sort()`). Por otro lado, `value_counts` calcula una serie que contiene las frecuencias de los valores:

In [None]:
obj.value_counts()

La serie se ordena por valor en orden descendente por conveniencia. `value_counts` también está disponible como un método pandas de nivel superior que se puede utilizar con arrays NumPy u otras secuencias de Python:

In [None]:
 pd.value_counts(obj.to_numpy(), sort=False)

`isin` realiza una comprobación de pertenencia a un conjunto vectorizado y puede ser útil para filtrar un conjunto de datos a un subconjunto de valores en una Serie o columna en un DataFrame:

In [None]:
obj

In [None]:
mask = obj.isin(["b", "c"])
mask

In [None]:
obj[mask]

Relacionado con `isin` está el método `Index.get_indexer`, que te proporciona una array de índices desde un array de valores posiblemente no distintos a otro array de valores distintos:

In [None]:
to_match = pd.Series(["c", "a", "b", "b", "c", "a"])
to_match

In [None]:
unique_vals = pd.Series(["c", "b", "a"])
unique_vals

In [None]:
indices = pd.Index(unique_vals).get_indexer(to_match)
indices


En algunos casos, es posible que desee calcular un histograma en varias columnas relacionadas en un DataFrame. He aquí un ejemplo:

In [None]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
data

Podemos calcular los recuentos de valores para una sola columna, de la siguiente manera:

In [None]:
data["Qu1"].value_counts().sort_index()

Para calcular esto para todas las columnas, pase `pandas.value_counts` al método `apply` del DataFrame:

In [None]:
result = data.apply(pd.value_counts).fillna(0)
result

Aquí, las etiquetas de fila en el resultado son los valores distintos que aparecen en todas las columnas. Los valores son los recuentos respectivos de estos valores en cada columna.

También existe un método `DataFrame.value_counts`, pero éste calcula los recuentos considerando cada fila del DataFrame como una tupla para determinar el número de ocurrencias de cada fila distinta:

In [None]:
data = pd.DataFrame({"a": [1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
data

In [None]:
data.value_counts()