# Pandas

**¿Qué es Pandas?**  

Pandas es una biblioteca de código abierto para el lenguaje de programación Python, especializada en el manejo y análisis de datos. Es una herramienta fundamental para cualquier persona que trabaje con conjuntos de datos en Python.

![1](1.png)

![2](2.png)

![3](3.png)

![4](4.png)

![5](5.png)

**Características principales de Pandas:** 

- Estructuras de datos potentes: Define nuevas estructuras de datos como DataFrames y Series, basadas en los arrays de NumPy, pero con funcionalidades más avanzadas para el manejo de datos tabulares y series temporales.  

- Manipulación flexible de datos: Permite leer y escribir datos de diversos formatos comunes, como CSV, Excel, bases de datos SQL y archivos JSON.
- Operaciones de análisis avanzadas: Ofrece una amplia gama de funciones para filtrar, ordenar, agrupar, agregar, combinar y transformar datos de manera eficiente.
- Análisis de series temporales: Brinda herramientas específicas para trabajar con datos de series temporales, como el manejo de fechas, índices de tiempo y 'resampling'.
- Visualización de datos: Integra funciones básicas para la creación de gráficos y visualizaciones de datos.

**Se utiliza para:**

- Cargar y limpiar datos: Importar datos de diversas fuentes, eliminar valores faltantes y corregir errores.
- Manipular y transformar datos: Reordenar, filtrar, agrupar y agregar datos según diferentes criterios.
- Analizar datos: Realizar cálculos estadísticos, identificar patrones y tendencias en los datos.
- Visualizar datos: Crear gráficos y visualizaciones para comunicar los resultados del análisis.

In [137]:
#!pip install numpy

In [138]:
#!pip install pandas

In [139]:
import numpy as np
import pandas as pd

In [140]:
psg_players = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'], index=[1,7,10,30])

In [141]:
psg_players

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

**Pandas, al crear una `Series` si no se la dan índices los asigna de forma automática:**

In [142]:
ingredientes = pd.Series(['Jamón', 'Aceitunas', 'Pan', 'Queso'])

In [143]:
ingredientes

0        Jamón
1    Aceitunas
2          Pan
3        Queso
dtype: object

### Vamos a usar esta vez diccionarios

In [144]:
dict = {1: 'Navas', 7: 'Mbappe', 10:'Neymar', 30: 'Messi'}
pd.Series(dict)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

### ¿Que pasa si quiero definir un array con mas valores?

In [145]:
dict_1 = {'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
'Altura':[183.0, 170.0, 185.0, 165.0], 
'Goles': [2, 150,180,200]}

In [146]:
pd.DataFrame(dict_1, index=[1,7,10,30])

Unnamed: 0,Jugador,Altura,Goles
1,Navas,183.0,2
7,Mbappe,170.0,150
10,Neymar,185.0,180
30,Messi,165.0,200


### Sin definir índices

In [147]:
pd.DataFrame(dict_1)

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


In [148]:
df_Players = pd.DataFrame(dict_1)

In [149]:
df_Players

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


In [150]:
df_Players.columns

Index(['Jugador', 'Altura', 'Goles'], dtype='object')

In [151]:
df_Players.index

RangeIndex(start=0, stop=4, step=1)

In [152]:
df_Players

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,150
2,Neymar,185.0,180
3,Messi,165.0,200


### Si tienes datos contenidos en un diccionario de Python, puedes crear una ``` Series``` a partir de ellos pasándole el diccionario:

In [153]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3
    

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

### Una `Series`  puede convertirse de nuevo en un diccionario con su método `to_dict` :

In [154]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

### Cuando sólo se pasa un diccionario, el índice de la `Series` resultante respetará el orden de las claves según el método `keys` del diccionario, que depende del orden de inserción de las claves.  
### Puede anular esto pasando un índice con las claves del diccionario en el orden en que desea que aparezcan en la `Series` resultante:

In [155]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

### Aquí, tres valores encontrados en sdata se colocaron en los lugares apropiados, pero como no se encontró ningún valor para "California", aparece como `NaN` (Not a Number), que se considera en pandas para marcar valores perdidos o NA. Como "Utah" no se incluyó en estados, se excluye del objeto resultante.
### Utilizaremos los términos "missing", "NA" (Not Available) o "null" indistintamente para referirnos a los datos que faltan. Las funciones `isna` y `notna` de pandas deben utilizarse para detectar datos omitidos:

In [156]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [157]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

### `Series` también los tiene como métodos de instancia:

In [158]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

### Mas detalles sobre limpieza y depuración se verá mas adelante.

### Una característica de `Series` útil para muchas aplicaciones es que alinea automáticamente por etiqueta de índice en operaciones aritméticas:

In [159]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [160]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [161]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

### Tanto el propio objeto `Series` como su índice tienen un atributo `name`, que se integra con otras áreas de funcionalidad de pandas:

In [162]:
obj4.name = "population"

In [163]:
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

### El índice de una `Series` puede modificarse "in situ" mediante asignación:

### Definamos el siguiente obj:

In [164]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

### Asignamos "in situ" los indices:

In [165]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame
Un DataFrame representa una tabla rectangular de datos y contiene una colección ordenada y nombrada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, cadena, booleano, etc.). El DataFrame tiene tanto un índice de fila como de columna; puede considerarse como un diccionario de Series que comparten el mismo índice.
Hay muchas maneras de construir un DataFrame, aunque una de las más comunes es a partir de un diccionario de listas de igual longitud o arrays de NumPy:

In [166]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

El DataFrame resultante tendrá su índice asignado automáticamente, como con Series, y las columnas se colocan según el orden de las claves en los datos (que depende de su orden de inserción en el diccionario):

In [167]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Para DataFrames grandes, el método `head` selecciona sólo las cinco primeras filas:

In [168]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Del mismo modo, `tail` devuelve las cinco últimas filas:

In [169]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Si especifica una secuencia de columnas, las columnas del DataFrame se ordenarán en ese orden:

In [170]:
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si pasa una columna que no está contenida en el diccionario, aparecerá con valores ausentes en el resultado:

In [171]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [172]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Una columna de un DataFrame puede recuperarse como una Serie mediante notación tipo diccionario o utilizando la notación de atributo `.` (dot notation):

In [173]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [174]:
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

`frame2[column]` funciona para cualquier nombre de columna, pero `frame2.column`sólo funciona cuando el nombre de la columna es un nombre de variable Python válido y no entra en conflicto con ninguno de los nombres de método de DataFrame. Por ejemplo, si el nombre de una columna contiene espacios en blanco o símbolos que no sean guiones bajos, no se puede acceder a ella con el método de atributo dot.

Observe que las `Series` devueltas tienen el mismo índice que el DataFrame, y su atributo `name` se ha configurado adecuadamente.

Las filas también pueden recuperarse por posición o nombre con los atributos especiales `iloc` y `loc`.

In [175]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [176]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [177]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

**¿Cuál es la diferencia entre iloc y loc?**

**1- iloc (Index Location):**  
Se utiliza para seleccionar elementos basados en su ubicación (índice de posición).

-- Para las filas, puedes usar números enteros para acceder a las posiciones. Por ejemplo:

- `df.iloc[0]` Selecciona la primera fila.  
- `df.iloc[1]` Selecciona la segunda fila.
- `df.iloc[-1]` Selecciona la última fila.

-- Para las columnas, también puedes usar números enteros:

- `df.iloc[:, 0]`Selecciona la primera columna.  
- `df.iloc[:, 1]`Selecciona la segunda columna.  
- `df.iloc[:, -1]`Selecciona la última columna.

**2- loc (Label Location):**  
Se basa en etiquetas (nombres asignados a filas y columnas). Puedes usar etiquetas personalizadas o nombres de índice para acceder a los datos.

Ejemplos:

- `df.loc[0]` Selecciona la fila con etiqueta 0.
- `df.loc['Etiqueta_o_nombre_fila']` Selecciona la fila con el nombre de la fila o etiqueta.
- `df.loc[:, 'Nombre_Columna']` Selecciona una columna por su nombre.

Vuelta al ejemplo de la celda 42

In [178]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


Las columnas pueden modificarse por asignación. Por ejemplo, a la columna `debt` vacía se le puede asignar un valor escalar o un array de valores:

In [179]:
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


Cuando asigne listas o arrays a una columna, la longitud del valor debe coincidir con la longitud del DataFrame. Si asigna una `Series`, sus etiquetas se realinearán exactamente con el índice del DataFrame, insertando los valores que falten en cualquier valor del índice que no esté presente:

In [180]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 4, 5])
frame2["debt"] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


### Al asignar una columna que no existe se creará una columna nueva. La palabra clave `del` borrará columnas como con un diccionario. Como ejemplo, primero se añade una nueva columna de valores booleanos donde la columna `state` es igual a `"Ohio"`:



In [181]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


### El método `del` se puede utilizar para eliminar esta columna:

In [182]:
del frame2["eastern"]

In [183]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [184]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [185]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


### Cuidado.
La columna devuelta al indexar un DataFrame es una vista de los datos subyacentes, no una copia. Por lo tanto, cualquier modificación en la `Series` se reflejará en el DataFrame. La columna puede copiarse explícitamente con el método `copy` de la `Series`.

Otra forma común de datos es un diccionario anidado de diccionarios:

In [186]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002: 2.9}}

Si el diccionario anidado se pasa al DataFrame, pandas interpretará las claves externas del diccionario como las columnas, y las claves internas como los índices de fila:

In [187]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Puede transponer el DataFrame (intercambiar filas y columnas) con una sintaxis similar a la de un array NumPy:

In [188]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [189]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


### Cuidado
Tenga en cuenta que la transposición descarta los tipos de datos de columna si las columnas no tienen todas el mismo tipo de datos, por lo que transponer y luego volver a transponer puede perder la información del tipo anterior. En este caso, las columnas se convierten en arrays de objetos Python puros.

Las claves de los diccionarios internos se combinan para formar el índice del resultado. Esto no es cierto si se especifica un índice explícito:

In [190]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


Los diccionarios de `Series` reciben un tratamiento muy similar:

In [191]:
pdata = {"Ohio": frame3["Ohio"][:-1],"Nevada": frame3["Nevada"][:2]}
# frame3["Ohio"][:-1]: Extrae todos los valores de la columna “Ohio”
# excepto el último valor.

# frame3["Nevada"][:2]:Extrae los primeros dos valores de la columna “Nevada”
# en el DataFrame frame3.
pdata

{'Ohio': 2000    1.5
 2001    1.7
 Name: Ohio, dtype: float64,
 'Nevada': 2000    NaN
 2001    2.4
 Name: Nevada, dtype: float64}

In [192]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


## Posibles entradas de datos para el constructor DataFrame

<img src="tabla_1.png">

Si el índice y las columnas de un DataFrame tienen definidos atributos de nombre, éstos también se mostrarán:

In [193]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [194]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


A diferencia de `Series`, DataFrame no tiene atributo name. El método `to_numpy` de DataFrame devuelve los datos contenidos en el DataFrame como un `ndarray` bidimensional:

In [195]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

Si las columnas del DataFrame son de diferentes tipos de datos, el tipo de datos del array devuelto se elegirá para acomodar todas las columnas, veamos lo que contiene frame2:

In [196]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [197]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, -1.2],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, -1.5],
       [2003, 'Nevada', 3.2, -1.7]], dtype=object)

### Objetos índice

Los objetos `Index` de pandas son responsables de mantener las etiquetas de los ejes (incluyendo los nombres de las columnas de un DataFrame) y otros metadatos (como el nombre o nombres de los ejes). Cualquier array u otra secuencia de etiquetas que se utilice al construir una `Series` o DataFrame se convierte internamente en un Índice:

In [198]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
obj

a    0
b    1
c    2
dtype: int64

In [199]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [200]:
index[1:]

Index(['b', 'c'], dtype='object')

Los objetos índice son inmutables y, por tanto, no pueden ser modificados por el usuario:

In [201]:
index[1] = "d"  # TypeError

TypeError: Index does not support mutable operations

La inmutabilidad hace que sea más seguro compartir objetos índice entre estructuras de datos:

In [202]:
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int64')

In [203]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [204]:
obj2.index is labels

True

Además de ser similar a un array, un índice también se comporta como un conjunto (set) de tamaño fijo:

In [205]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [206]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [207]:
"Ohio" in frame3.columns

True

In [208]:
2003 in frame3.index

False

A diferencia de los conjuntos (`set()`) de Python, un índice de pandas puede contener etiquetas duplicadas:

In [209]:
pd.Index(["foo", "foo", "bar", "bar"])

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Las selecciones con etiquetas duplicadas tomarán todas las apariciones de esa etiqueta. Cada Índice tiene una serie de métodos y propiedades para la lógica de conjuntos, que responden a otras preguntas habituales sobre los datos que contiene. Algunas de las más útiles se resumen en:

<img src="tabla_2.png">

### Funciones esenciales
Esta sección es una guia a través de la mecánica fundamental de la interacción con los datos contenidos en una Serie o DataFrame. 

### Reindexación (Reindexing)

Un método importante en los objetos pandas es `reindex`, que significa crear un nuevo objeto con los valores reordenados para alinearlos con el nuevo índice. Consideremos un ejemplo:


In [210]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

Si se llama a `reindex` en esta `Series`, los datos se reordenan de acuerdo con el nuevo índice, introduciendo los valores que faltan si alguno de los valores del índice no estaba ya presente:

In [211]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

En el caso de datos ordenados como series temporales, es posible que desee realizar alguna interpolación o relleno de valores al reindexar. Utilizando un método como `ffill`, que rellena los valores hacia delante:

In [212]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [213]:
obj3.reindex(np.arange(6), method="ffill")


0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Con DataFrame, `reindex` puede alterar el índice (de filas), las columnas o ambos. Si sólo se le pasa una secuencia, reindexa las filas del resultado:

In [214]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),index=["a", "c", "d"],columns=["Ohio", "Texas", "California"])
frame                    

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [215]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


The columns can be reindexed with the `columns` keyword:

In [216]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [217]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Como `"Ohio"` no estaba en los `states`, los datos de esa columna se eliminan del resultado. Otra forma de hacer `reindex` en un eje concreto es pasar las nuevas etiquetas de eje como argumento posicional y, a continuación, especificar el eje que se va a reindexar con la palabra clave `axis`:

In [218]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Consulte la siguiente tabla para obtener más información sobre los argumentos para reindexar.

<img src="tabla_3.png">

En un DataFrame tambien se puede usar `loc` e `iloc`, para reindexar, y muchos usuarios prefieren hacerlo siempre de esta manera. Esto sólo funciona si todas las nuevas etiquetas de índice ya existen en el DataFrame (mientras que reindex insertará los datos que falten para las nuevas etiquetas):

In [219]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [220]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


### Eliminar entradas de un eje

Eliminar una o más entradas de un eje es sencillo si ya tienes un array o una lista de índices sin esas entradas, ya que puedes utilizar el método `reindex` o la indexación basada en `.loc`. Como eso puede requerir un poco de lógica  el método `drop` devolverá un nuevo objeto con el valor o valores indicados eliminados de un eje:

In [221]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [222]:
#alvknasñdlvkas´dovl

In [223]:
new_obj = obj.drop("c")
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [224]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

Con DataFrame, los valores índice se pueden eliminar de cualquiera de los ejes. Para ilustrar esto, primero crearemos un DataFrame de ejemplo:

In [225]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Si se llama a `drop` con una secuencia de etiquetas, se eliminarán los valores de las etiquetas de fila (eje 0):

In [226]:
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


Para eliminar las etiquetas de las columnas, utilice en su lugar la palabra clave `columns`:

In [227]:
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


También puede eliminar valores de las columnas pasando `axis=1` ( como en NumPy) o `axis="columns"`:

In [228]:
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [229]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### Indexación, selección y filtrado

La indexación de series (`obj[...]`) funciona de forma análoga a la indexación de arrays de NumPy, con la diferencia de que puedes utilizar los valores índice de la serie en lugar de sólo enteros. He aquí algunos ejemplos:

In [230]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [231]:
obj["b"]

np.float64(1.0)

In [232]:
obj[1]

  obj[1]


np.float64(1.0)

In [233]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [234]:
obj[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [235]:
obj[[1, 3]]

  obj[[1, 3]]


b    1.0
d    3.0
dtype: float64

In [236]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

Aunque puede seleccionar datos por etiqueta de esta manera, la forma preferida de seleccionar valores de índice es con el operador especial `loc`:

In [237]:
obj.loc[["b", "a", "d"]]


b    1.0
a    0.0
d    3.0
dtype: float64

La razón para preferir `loc` es el tratamiento diferente de los enteros cuando se indexa con `[]`. La indexación normal basada en `[]` tratará los enteros como etiquetas si el índice contiene enteros, por lo que el comportamiento difiere dependiendo del tipo de datos del índice. Por ejemplo:

In [238]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])

In [239]:
obj1

2    1
0    2
1    3
dtype: int64

In [240]:
obj2

a    1
b    2
c    3
dtype: int64

In [241]:
obj1[[0, 1, 2]]

0    2
1    3
2    1
dtype: int64

In [242]:
obj2[[0, 1, 2]]

  obj2[[0, 1, 2]]


a    1
b    2
c    3
dtype: int64

Al utilizar `loc`, la expresión `obj.loc[[0, 1, 2]]` fallará cuando el índice no contenga enteros:

In [243]:
obj2.loc[[0, 1]]

KeyError: "None of [Index([0, 1], dtype='int64')] are in the [index]"

Dado que el operador `loc` indexa exclusivamente con etiquetas, existe también un operador `iloc` que indexa exclusivamente con enteros para trabajar de forma consistente tanto si el índice contiene enteros como si no:

In [244]:
obj1.iloc[[0, 1, 2]]

2    1
0    2
1    3
dtype: int64

In [245]:
obj2.iloc[[0, 1, 2]]

a    1
b    2
c    3
dtype: int64

Precaución: También se puede rebanar (slice) con etiquetas, pero funciona de forma diferente al rebanado(slicing) normal de Python, ya que el punto final es inclusivo:

In [246]:
obj2.loc["b":"c"]

b    2
c    3
dtype: int64

La asignación de valores mediante estos métodos modifica la sección correspondiente de la `Series`:

In [247]:
obj2

a    1
b    2
c    3
dtype: int64

In [248]:
obj2.loc["b":"c"] = 5
obj2

a    1
b    5
c    5
dtype: int64

La indexación en un DataFrame recupera una o más columnas, ya sea con un único valor o con una secuencia:

In [249]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [250]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [251]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


Este tipo de indexación tiene algunos casos especiales. El primero es el corte (slicing) o la selección de datos con una array booleano:

In [252]:
data[:2]
# selecciona las primeras dos filas del DataFrame.

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [253]:
booleano_a= ali.to_numpy()
booleano_a

NameError: name 'ali' is not defined

In [254]:
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


La sintaxis de selección de filas `data[:2]` se proporciona por comodidad. Si se pasa un único elemento o una lista al operador `[]` selecciona columnas.

 Otro caso de uso es la indexación con un DataFrame booleano, como el producido por una comparación escalar. Considere un DataFrame con todos los valores booleanos producidos por comparación con un valor escalar:

In [255]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


Podemos utilizar este DataFrame para asignar el valor 0 a cada ubicación con el valor `True`, así:

In [256]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### Selección en un DataFrame con `loc` e `iloc`

Al igual que `Series`, los `DataFrame` tiene atributos especiales `loc` e `iloc` para la indexación basada en etiquetas y en enteros, respectivamente. Como un `DataFrame` es bidimensional, puede seleccionar un subconjunto de filas y columnas con notación tipo NumPy utilizando etiquetas de eje (loc) o enteros (iloc).

Como primer ejemplo, vamos a seleccionar una sola fila por etiqueta:

In [257]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [258]:
data.loc["Colorado"]

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64

El resultado de seleccionar una sola fila es una `Series` con un índice que contiene las etiquetas de las columnas del `DataFrame`. Para seleccionar múltiples valores, creando un nuevo DataFrame, se le pasa una secuencia de etiquetas:

In [259]:
data.loc[["Colorado", "New York"]]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
New York,12,13,14,15


Puede combinar la selección de filas y columnas en `loc` separando las selecciones con una coma:

In [260]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

A continuación, realizaremos algunas selecciones similares con enteros utilizando `iloc`:

In [261]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [262]:
data.iloc[[2, 1]]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,0,5,6,7


In [263]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [264]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


Ambas funciones de indexación funcionan con trozos (slices) además de con etiquetas individuales o listas de etiquetas:

In [265]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [266]:
data.loc[:"Utah", "two"]
# Devuelve los valores de la columna "two" 
# para todas las filas desde el inicio 
# hasta la fila con la etiqueta "Utah"

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [267]:
data.iloc[:, :3][data.three > 5]
# Muestra las filas que cumplen
# la condición data.three > 5 
# para las columnas 'one', 'two'
# y 'three'
# Para mayor claridad ejecute 
# data.iloc[:, :3] y luego
# data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


Los arrays Booleanos pueden ser usados con `loc` pero no `iloc`:

Considere lo siguiente:

In [268]:
data.three >= 2

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool

In [269]:
data.loc[data.three >= 2]

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Hay muchas formas de seleccionar y reordenar los datos contenidos en un objeto pandas. Para un `DataFrame`, la siguiente tabla proporciona un breve resumen de muchas de ellas. Como se verá más adelante, hay una serie de opciones adicionales para trabajar con índices jerárquicos.

<img src="tabla_4.png">

### Errores en la indexación de números enteros

Trabajar con objetos pandas indexados por enteros puede ser un escollo para los nuevos usuarios ya que funcionan de forma diferente a las estructuras de datos incorporadas en Python como listas y tuplas. Por ejemplo, es posible que no espere que el siguiente código genere un error:

In [270]:
ser = pd.Series(np.arange(3.))

In [271]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [272]:
ser[-1]

KeyError: -1

En este caso, pandas podría "recurrir" a la indexación por enteros, pero es difícil hacer esto en general sin introducir errores sutiles en el código de usuario. Aquí tenemos un índice que contiene 0, 1 y 2, pero pandas no quiere adivinar lo que quiere el usuario (indexación basada en etiquetas o basada en posiciones):

In [None]:
ser

En cambio, con un índice no entero, no existe tal ambigüedad:

In [273]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
ser2[-1]

  ser2[-1]


np.float64(2.0)

Si tienes un índice de eje que contiene enteros, la selección de datos siempre estará orientada a etiquetas. Como se ha dicho anteriormente, si se utiliza `loc` (para etiquetas) o `iloc` (para enteros) se obtendrá exactamente lo que se desea:

In [274]:
 ser.iloc[-1]

np.float64(2.0)

Por otra parte, el corte (slicing) con números enteros siempre está orientado a números enteros:

In [275]:
ser[:2]

0    0.0
1    1.0
dtype: float64

Como consecuencia de estos errores, es mejor preferir siempre la indexación con `loc` e `iloc` para evitar ambigüedades.

### Errores de la indexación encadenada

En la sección anterior vimos cómo se pueden hacer selecciones flexibles en un DataFrame utilizando `loc` e `iloc`. Estos atributos de indexación también se pueden utilizar para modificar objetos DataFrame "in situ", pero hacerlo requiere cierto cuidado.  
Por ejemplo, en el ejemplo DataFrame anterior, podemos asignar a una columna o fila por etiqueta o posición entera:

In [276]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [277]:
data.loc[:, "one"] = 1
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,1,9,10,11
New York,1,13,14,15


In [278]:
data.iloc[2] = 5
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,5,5,5,5
New York,1,13,14,15


In [279]:
data.loc[data["four"] > 5] = 3
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


Un error común para los nuevos usuarios de pandas es encadenar selecciones cuando se asignan de esta manera:

In [280]:
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


In [281]:
data.loc[data.three == 5]
# La condición data.three == 5 
# crea una Serie booleana que 
# tiene True para las filas 
# donde el valor en la columna "three" 
# es igual a 5 y False para las demás filas.

Unnamed: 0,one,two,three,four
Utah,5,5,5,5


In [282]:
data.loc[data.three == 5]["three"] = 6

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[data.three == 5]["three"] = 6


Dependiendo del contenido de los datos, esto puede imprimir una advertencia especial `SettingWithCopyWarning`, que le advierte de que está intentando modificar un valor temporal (el resultado no vacío de `data.loc[data.three == 5])` en lugar del DataFrame original `data`, que podría ser lo que pretendía. En este caso, `data` no se ha modificado:

In [283]:
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


En estos casos, la solución consiste en reescribir la asignación encadenada para utilizar una única operación `loc`:

In [284]:
data.loc[data.three == 5, "three"] = 6
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,6,5
New York,3,3,3,3


### Aritmética y alineación de datos

### Pandas puede simplificar mucho el trabajo con objetos que tienen índices diferentes. Por ejemplo, al sumar objetos, si algún par de índices no es el mismo, el índice respectivo en el resultado será la unión de los pares de índices. Veamos un ejemplo:

In [285]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [286]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
         index=["a", "c", "e", "f", "g"])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [287]:
 s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

### La alineación interna de los datos introduce valores perdidos en las ubicaciones de las etiquetas que no se solapan. Los valores perdidos se propagarán en los cálculos aritméticos posteriores.

### En el caso de un `DataFrame`, la alineación se realiza tanto en las filas como en las columnas:

In [288]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
             index=["Ohio", "Texas", "Colorado"])

df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])

In [289]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [290]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [291]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


### Como las columnas "c" y "e" no se encuentran en ambos objetos DataFrame, aparecen como ausentes en el resultado. Lo mismo ocurre con las filas con etiquetas que no son comunes a ambos objetos.

### Si añade objetos DataFrame sin etiquetas de columna o fila en común, el resultado contendrá todos nulos:

In [292]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [293]:
df2

Unnamed: 0,B
0,3
1,4


In [294]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


## Métodos aritméticos con valores de relleno
### En operaciones aritméticas entre objetos indexados de forma diferente, es posible que desee rellenar con un valor especial, como 0, cuando una etiqueta de eje se encuentra en un objeto pero no en el otro. He aquí un ejemplo en el que establecemos un valor particular como NA (nulo) asignándole `np.nan`:

In [295]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
              columns=list("abcde"))     

In [296]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [297]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [298]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Utilizando el método `add` en df1, se pasa `df2` y un argumento a `fill_value`, que sustituye el valor pasado por cualquier valor que falte en la operación:

In [299]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


En la tabla dada mas bajo encontrará un listado de los métodos `Series` y `DataFrame` para aritmética. Cada uno tiene una contrapartida, que empieza por la letra `r`, que tiene los argumentos invertidos. Por lo tanto, estas dos sentencias son equivalentes:

In [300]:
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [301]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


<img src="tabla_5.png">

Al reindexar una `Serie` o un `DataFrame`, también puede especificar un valor de relleno (fill value) diferente:

In [302]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [303]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [304]:
df1.reindex(columns=df2.columns, fill_value=0)
# df1.reindex(columns=): Toma el DataFrame df1 y lo "reindexa" 
# en base a las columnas de otro DataFrame, df2.
# En otras palabras, asegura que df1 tenga las mismas columnas que df2.
####
# df2.columns: Especifica que las columnas de referencia 
# para el reindexado son las de df2. 
# Esto significa que se agregarán, eliminarán o reordenarán
# las columnas de df1 para que coincidan exactamente con las de df2.
####
# fill_value=0: Este argumento indica el valor que se usará para 
# rellenar las celdas que no existían en df1 pero que sí se 
# encuentran en df2. En este caso, se utiliza el valor 0.

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


Repetir código anterior cambiando df1 por df2 y donde aparezca df2 lo cambia por df1. Explicar la salida.

### Operaciones entre `DataFrame` y `Series`
Al igual que con las matrices NumPy de diferentes dimensiones, también se define la aritmética entre DataFrame y Series. En primer lugar, como ejemplo , considere la diferencia entre una matriz bidimensional y una de sus filas:

In [305]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [306]:
arr[0]

array([0., 1., 2., 3.])

In [307]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Cuando restamos `arr[0]` de `arr`, la resta se realiza una vez por cada fila. Esto se denomina difusión y se explica con más detalle en lo que se refiere a las arrays generales de NumPy Avanzado. Las operaciones entre un DataFrame y una Serie son similares:

In [308]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                    columns=list("bde"),
                    index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]

In [309]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [310]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

Por defecto, la aritmética entre el `DataFrame` y la `Series` coincide con el índice de la `Series` en las columnas del `DataFrame`, difundiéndose por las filas:

In [311]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Si no se encuentra un valor de índice ni en las columnas del `DataFrame` ni en el índice de la `Series`, los objetos se reindexarán para formar la unión:

In [312]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2


b    0
e    1
f    2
dtype: int64

In [313]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Si, en cambio,se desea trabajar sobre las columnas, coincidiendo en las filas, debe utilizar uno de los métodos aritméticos y especificar que coincida sobre el índice. Por ejemplo:

In [314]:
series3 = frame["d"]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [315]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [316]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


El eje que se pasa es el eje sobre el que se va a realizar la comparación. En este caso nos referimos a coincidir en el índice de fila del `DataFrame` `(axis="index")` y trabajará a través de las columnas.

### Aplicación y asignación de funciones
Los `ufuncs` de NumPy (métodos de array por elementos) también funcionan con objetos pandas:

In [317]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
              columns=list("bde"),
              index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,-0.271913,-1.557927,1.53138
Ohio,0.794706,1.921611,2.04853
Texas,-1.661417,-0.256025,-0.010334
Oregon,-0.468725,-0.12918,-0.133677


In [318]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.271913,1.557927,1.53138
Ohio,0.794706,1.921611,2.04853
Texas,1.661417,0.256025,0.010334
Oregon,0.468725,0.12918,0.133677


Otra operación frecuente es aplicar una función en arrays unidimensionales a cada columna o fila. El método `apply` de DataFrame hace exactamente esto:

In [319]:
def f1(x):
    return x.max() - x.min()
frame.apply(f1)

b    2.456123
d    3.479538
e    2.182207
dtype: float64

Aquí la función `f`, que calcula la diferencia entre el máximo y el mínimo de una `Series`, se invoca una vez en cada columna de `frame`. El resultado es una `Series` que tiene como índice las columnas de `frame`.
Si se pasa `axis="columns"` al método `apply`, la función se invocará una vez por fila. Una forma útil de pensar en esto es como "aplicar a través de las columnas":

In [320]:
frame.apply(f1, axis="columns")

Utah      3.089306
Ohio      1.253824
Texas     1.651083
Oregon    0.339545
dtype: float64

Muchos de las funciones estadísticas de array más comunes (como suma y media) son métodos de DataFrame, por lo que no es necesario utilizar `apply`. No es necesario que la función pasada a `apply` devuelva un valor escalar; también puede devolver una Serie con múltiples valores:

In [321]:
frame

Unnamed: 0,b,d,e
Utah,-0.271913,-1.557927,1.53138
Ohio,0.794706,1.921611,2.04853
Texas,-1.661417,-0.256025,-0.010334
Oregon,-0.468725,-0.12918,-0.133677


In [322]:
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])

frame.apply(f2)

Unnamed: 0,b,d,e
min,-1.661417,-1.557927,-0.133677
max,0.794706,1.921611,2.04853


También se pueden utilizar funciones Python por elementos. Supongamos que desea calcular una cadena formateada a partir de cada valor de coma flotante de `frame` Puede hacerlo con `applymap`:

In [323]:
def my_format(x):
    return f"{x:.2f}"
frame.applymap(my_format)

  frame.applymap(my_format)


Unnamed: 0,b,d,e
Utah,-0.27,-1.56,1.53
Ohio,0.79,1.92,2.05
Texas,-1.66,-0.26,-0.01
Oregon,-0.47,-0.13,-0.13


La razón del nombre `applymap` es que `Series` tiene un método `map` para aplicar una función `element-wise`:

In [324]:
frame["e"].map(my_format)

Utah       1.53
Ohio       2.05
Texas     -0.01
Oregon    -0.13
Name: e, dtype: object

### Clasificación y ordenación
Ordenar un conjunto de datos por algún criterio es otra importante operación incorporada. Para ordenar lexicográficamente por etiqueta de fila o columna, utilice el método `sort_index`, que devuelve un nuevo objeto ordenado:

In [325]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [326]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

Con un `DataFrame`,  se puede ordenar por índice en cualquiera de los ejes:

In [327]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])

frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [328]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [329]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Por defecto, los datos se ordenan en orden ascendente, pero también pueden ordenarse en orden descendente:

In [330]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Para ordenar una `Serie` por sus valores, utilice su método `sort_values`:

In [331]:
obj = pd.Series([4, 7, -3, 2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [332]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Los valores que faltan se ordenan por defecto al final de la serie:

In [333]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [334]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

Los valores faltantes pueden ordenarse al principio utilizando la opción `na_position`:

In [335]:
obj.sort_values(na_position="first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

Al ordenar un DataFrame, puede utilizar los datos de una o varias columnas como claves de ordenación. Para ello, pase uno o más nombres de columna a `sort_values`:

In [336]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [337]:
frame.sort_values("b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


Para ordenar por varias columnas, pase una lista de nombres:

In [338]:
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


La clasificación `Ranking` asigna rangos desde uno hasta el número de puntos de datos válidos en una array, empezando por el valor más bajo. Los métodos `rank` para `Series` y `DataFrame` son el lugar donde buscar; por defecto, `rank` rompe los empates asignando a cada grupo el rango medio:

In [339]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [340]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

También se pueden asignar rangos según el orden en que se observan en los datos:

In [341]:
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

Aquí, en lugar de utilizar el rango medio 6,5 para las entradas 0 y 2, se han fijado en 6 y 7 porque la etiqueta 0 precede a la etiqueta 2 en los datos.

También puedes clasificar en orden descendente:

obj

In [342]:
obj.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

En ciencia de datos el método rank() puede usarse para identificar valores extremos, para identificar empates (duplicados), para ver la posibilidad de generar variables categóricas ordinales o que puede ser útil para aplicar modelos de aprendizaje automático que requieren entradas ordinales en lugar de valores numéricos continuos. 

Consulte la siguiente Tabla para ver una lista de los métodos de "desempate" (tie-breaking) disponibles.

<img src="tabla_6.png">

DataFrame puede calcular rangos sobre las filas o las columnas:

In [343]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [344]:
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### Índices de ejes con etiquetas duplicadas
Hasta ahora casi todos los ejemplos que hemos visto tienen etiquetas de eje únicas (valores de índice). Aunque muchas funciones de pandas (como reindex) requieren que las etiquetas sean únicas, no es obligatorio. Consideremos una pequeña serie con índices duplicados:

In [345]:
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

La propiedad `is_unique` del índice puede indicarle si sus etiquetas son únicas o no:

In [346]:
obj.index.is_unique

False

La selección de datos es una de las principales cosas que se comporta de forma diferente con los duplicados. La indexación de una etiqueta con varias entradas devuelve una Serie, mientras que las entradas únicas devuelven un valor escalar:

In [347]:
obj["a"]

a    0
a    1
dtype: int64

In [348]:
obj["c"]

np.int64(4)

Esto puede complicar su código, ya que el tipo de salida de la indexación puede variar en función de si una etiqueta se repite o no. La misma lógica se extiende a la indexación de filas (o columnas) en un DataFrame:

In [349]:
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                index=["a", "a", "b", "b", "c"])
df  

Unnamed: 0,0,1,2
a,0.667408,-0.359745,1.239436
a,0.029076,-1.267032,0.932459
b,-0.621611,0.310781,0.322252
b,1.585147,0.63377,1.640479
c,1.354879,0.569747,-0.455629


In [350]:
df.loc["b"]

Unnamed: 0,0,1,2
b,-0.621611,0.310781,0.322252
b,1.585147,0.63377,1.640479


In [351]:
df.loc["c"]

0    1.354879
1    0.569747
2   -0.455629
Name: c, dtype: float64

### Resumir y calcular estadísticas descriptivas
Los objetos pandas están equipados con un conjunto de métodos matemáticos y estadísticos comunes. La mayoría de ellos entran en la categoría de reducciones o estadísticas de resumen, métodos que extraen un único valor (como la suma o la media) de una Serie, o una Serie de valores de las filas o columnas de un DataFrame. En comparación con los métodos similares que se encuentran en las matrices NumPy, tienen incorporado el manejo de los datos que faltan. Consideremos un pequeño DataFrame:

In [352]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
             [np.nan, np.nan], [0.75, -1.3]],
                index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


La llamada al método `sum` de DataFrame devuelve una `Serie` que contiene las sumas de las columnas:

In [353]:
df.sum()

one    9.25
two   -5.80
dtype: float64

Si se pasa `axis="columnas"` o `axis=1`, se suman las columnas:

In [354]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Cuando una fila o columna entera contiene todos valores NA, la suma es 0, mientras que si algún valor no es NA, entonces el resultado es NA. Esto se puede desactivar con la opción `skipna`, en cuyo caso cualquier valor NA en una fila o columna nombra NA al resultado correspondiente:

In [355]:
df.sum(axis="index", skipna=False)

one   NaN
two   NaN
dtype: float64

In [356]:
df.sum(axis="columns", skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

Algunas agregaciones, como la media `mean`, requieren al menos un valor no-NA para producir un resultado de valor, así que aquí tenemos:

In [357]:
df.mean(axis="columns")

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

Véase la siguiente tabla una lista de opciones habituales para cada método de reducción:

<img src="tabla_6.png">

Algunos métodos, como `idxmin` e `idxmax`, devuelven estadísticas indirectas, como el valor del índice donde se alcanzan los valores mínimo o máximo:

In [358]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [359]:
df.idxmax()

one    b
two    d
dtype: object

Otros métodos son las acumulaciones:

In [360]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [361]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Algunos métodos no son ni reducciones ni acumulaciones. `describe` es un ejemplo de ello, ya que produce múltiples estadísticas de resumen de una sola vez:

In [362]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


En datos no numéricos, describe produce estadísticas de resumen alternativas:

In [363]:
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [364]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

Véase la siguiente tabla para una lista completa de estadísticas de síntesis y métodos relacionados.

<img src="tabla_8.png">

### Correlación y covarianza
Algunos estadísticos de resumen, como la correlación y la covarianza, se calculan a partir de pares de argumentos. Consideremos algunos DataFrames de precios y volúmenes de acciones obtenidos originalmente de Yahoo! Finance:

In [365]:
price = pd.read_pickle("yahoo_price.pkl")
volume = pd.read_pickle("yahoo_volume.pkl")


FileNotFoundError: [Errno 2] No such file or directory: 'yahoo_price.pkl'

Por ejemplo, se podría calcular las variaciones porcentuales de los precios:

In [366]:
returns = price.pct_change()
returns.tail()

NameError: name 'price' is not defined

El método `corr` de Series calcula la correlación de los valores superpuestos, no-NA, alineados-por-índice en dos Series. Por su parte, `cov` calcula la covarianza:

In [367]:
returns["MSFT"].corr(returns["IBM"])

NameError: name 'returns' is not defined

In [368]:
returns["MSFT"].cov(returns["IBM"])

NameError: name 'returns' is not defined

Los métodos `corr` y `cov` de un DataFrame, por otro lado, devuelven una matriz de correlación o covarianza completa como un DataFrame, respectivamente:

In [369]:
returns.corr()

NameError: name 'returns' is not defined

In [370]:
returns.cov()

NameError: name 'returns' is not defined

Utilizando el método `corrwith` de DataFrame, puede calcular correlaciones por pares entre las columnas o filas de un DataFrame con otra Serie o DataFrame. Al pasar una Serie se devuelve una Serie con el valor de correlación calculado para cada columna:

In [371]:
returns.corrwith(returns["IBM"])

NameError: name 'returns' is not defined

Al pasar un DataFrame se calculan las correlaciones de los nombres de columna coincidentes. Aquí, se calculan las correlaciones de los cambios porcentuales con el volumen:

In [372]:
returns.corrwith(volume)

NameError: name 'returns' is not defined

Si se pasa `axis="columns"`, se hace fila por fila. En todos los casos, los puntos de datos se alinean por etiqueta antes de calcular la correlación.

### Valores únicos, recuento de valores y afiliación

Otra clase de métodos relacionados extrae información sobre los valores contenidos en una Serie unidimensional. Para ilustrarlos, considere este ejemplo:

In [373]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

La primera función es `unique`, que nos da un array de los valores únicos de una Serie:

In [374]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

Los valores únicos no se devuelven necesariamente en el orden en que aparecen por primera vez, y no en orden ordenado, pero podrían ordenarse a posteriori si fuera necesario (`uniques.sort()`). Por otro lado, `value_counts` calcula una serie que contiene las frecuencias de los valores:

In [375]:
obj.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

La serie se ordena por valor en orden descendente por conveniencia. `value_counts` también está disponible como un método pandas de nivel superior que se puede utilizar con arrays NumPy u otras secuencias de Python:

In [376]:
 pd.value_counts(obj.to_numpy(), sort=False)

  pd.value_counts(obj.to_numpy(), sort=False)


c    3
a    3
d    1
b    2
Name: count, dtype: int64

`isin` realiza una comprobación de pertenencia a un conjunto vectorizado y puede ser útil para filtrar un conjunto de datos a un subconjunto de valores en una Serie o columna en un DataFrame:

In [377]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [378]:
mask = obj.isin(["b", "c"])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [379]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

Relacionado con `isin` está el método `Index.get_indexer`, que te proporciona una array de índices desde un array de valores posiblemente no distintos a otro array de valores distintos:

In [380]:
to_match = pd.Series(["c", "a", "b", "b", "c", "a"])
to_match

0    c
1    a
2    b
3    b
4    c
5    a
dtype: object

In [381]:
unique_vals = pd.Series(["c", "b", "a"])
unique_vals

0    c
1    b
2    a
dtype: object

In [382]:
indices = pd.Index(unique_vals).get_indexer(to_match)
indices


array([0, 2, 1, 1, 0, 2])

En algunos casos, es posible que desee calcular un histograma en varias columnas relacionadas en un DataFrame. He aquí un ejemplo:

In [383]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Podemos calcular los recuentos de valores para una sola columna, de la siguiente manera:

In [384]:
data["Qu1"].value_counts().sort_index()

Qu1
1    1
3    2
4    2
Name: count, dtype: int64

Para calcular esto para todas las columnas, pase `pandas.value_counts` al método `apply` del DataFrame:

In [385]:
result = data.apply(pd.value_counts).fillna(0)
result

  result = data.apply(pd.value_counts).fillna(0)


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


Aquí, las etiquetas de fila en el resultado son los valores distintos que aparecen en todas las columnas. Los valores son los recuentos respectivos de estos valores en cada columna.

También existe un método `DataFrame.value_counts`, pero éste calcula los recuentos considerando cada fila del DataFrame como una tupla para determinar el número de ocurrencias de cada fila distinta:

In [386]:
data = pd.DataFrame({"a": [1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
data

Unnamed: 0,a,b
0,1,0
1,1,0
2,1,1
3,2,0
4,2,0


In [387]:
data.value_counts()

a  b
1  0    2
2  0    2
1  1    1
Name: count, dtype: int64