In [2]:
import pandas as pd

# Changing index of a DataFrame

Los índices se tratan de un tipo de objeto inmutable. Esto significa que si queremos modificar los índices de un DataFrame o de una Serie debemos de cambiar el total de los índices.

In [8]:
#Importamos los datos
df = pd.read_csv('sales.csv', index_col = 'month')

#Vemos los datos 
df.head()

Unnamed: 0_level_0,eggs,salt,spam
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jan,47,12.0,17
Feb,110,50.0,31
Mar,221,89.0,72
Apr,77,87.0,20
May,132,,52


Podemos ver como nuestro conjunto de datos está indexado por el mes, nuestro objetivo es cambiar el índice de forma que los índices se encuentren en mayúsucula.

In [9]:
#Pasamos a mayúscula los índices
new_index = [i.upper() for i in df.index]

#Agregamos el nuevo índice
df.index = new_index

#Vemos el nuevo conjunto de datos
print(df)

     eggs  salt  spam
JAN    47  12.0    17
FEB   110  50.0    31
MAR   221  89.0    72
APR    77  87.0    20
MAY   132   NaN    52
JUN   205  60.0    55


# Changing index name labels

Podemos ver como anteriormente el índice no estaba etiquetado con un nombre. Podemos cambiar esto haciendo uso de **df.index.name**.

In [10]:
#Asignamos el nombre MONTHS a nuestro indexado 
df.index.name = 'MONTHS'

#Vemos el resultado 
print(df)

        eggs  salt  spam
MONTHS                  
JAN       47  12.0    17
FEB      110  50.0    31
MAR      221  89.0    72
APR       77  87.0    20
MAY      132   NaN    52
JUN      205  60.0    55


De forma similar podemos asignar un nombre a nuestro conjunto de columnas.

In [11]:
#Asignamos el nombre de PRODUCTS a nuestro conjunto de columnas
df.columns.name = 'PRODUCTS'

#Vemos el resultado
print(df)

PRODUCTS  eggs  salt  spam
MONTHS                    
JAN         47  12.0    17
FEB        110  50.0    31
MAR        221  89.0    72
APR         77  87.0    20
MAY        132   NaN    52
JUN        205  60.0    55


# Building an index, then a DataFrame

Podemos indexar nuestro DataFrame, de forma independiente, es decir, podemos crearnos un índice y tras esto indexar nuestro DataFrame.

In [15]:
#Cargamos nuestro DataFrame sin indexar
df_aux = pd.read_csv('sales.csv', usecols = ['eggs', 'salt', 'spam'])

#Vemos el resultado 
print(df_aux)

   eggs  salt  spam
0    47  12.0    17
1   110  50.0    31
2   221  89.0    72
3    77  87.0    20
4   132   NaN    52
5   205  60.0    55


In [16]:
#Nos creamos una lista de índices
index = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']

#Fijamos el indexado 
df_aux.index = index

#Vemos el resultado
print(df_aux)

     eggs  salt  spam
Jan    47  12.0    17
Feb   110  50.0    31
Mar   221  89.0    72
Apr    77  87.0    20
May   132   NaN    52
Jun   205  60.0    55


# Setting & sorting a MultiIndex

Pandas nos permite indexar por múltiples valores. Para esto debemos hacer uso de **set_index()**.

In [24]:
#Cargamos los datos
sales = pd.read_csv('sales.csv')

#Mapeamos la columnas month
new_values = {'Jan':1, 'Feb':2, 'Mar':1, 'Apr':2, 'May':1, 'Jun':2}
sales['month'] = sales.loc[:,'month'].map(new_values)

#Nos creamos una nueva columna llamada state
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']

#Vemos el resultado
print(sales)

   month  eggs  salt  spam state
0      1    47  12.0    17    CA
1      2   110  50.0    31    CA
2      1   221  89.0    72    NY
3      2    77  87.0    20    NY
4      1   132   NaN    52    TX
5      2   205  60.0    55    TX


In [25]:
#Indexamos por las columnas state y month en ese orden
sales = sales.set_index(['state', 'month'])

#Ordenamos 
sales = sales.sort_index()

#Vemos el resultado
sales

Unnamed: 0_level_0,Unnamed: 1_level_0,eggs,salt,spam
state,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,1,47,12.0,17
CA,2,110,50.0,31
NY,1,221,89.0,72
NY,2,77,87.0,20
TX,1,132,,52
TX,2,205,60.0,55


# Extracting data with a MultiIndex

Una vez tenemos nuestro conjunto de datos multi-indexado podemos hacer múltiples selecciones.

In [27]:
#Podemos seleccionar los datos de los estados CA y TX
print(sales.loc[['CA', 'TX']])

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
TX    1       132   NaN    52
      2       205  60.0    55


In [29]:
#Seleccionamos los datos de los estados entre desde CA a TX
print(sales.loc['CA':'TX'])

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
NY    1       221  89.0    72
      2        77  87.0    20
TX    1       132   NaN    52
      2       205  60.0    55


# Using .loc[] with nonunique indexes

Lo ideal es tener un índice que identifique de manero unívoca a cada uno de nuestras filas. Pandas permite que un mismo índice pueda identificar a varias columnas, como veremos a continuación.

In [33]:
#Cargamos los datos
sales = pd.read_csv('sales.csv')

#Mapeamos la columnas month
new_values = {'Jan':1, 'Feb':2, 'Mar':1, 'Apr':2, 'May':1, 'Jun':2}
sales['month'] = sales.loc[:,'month'].map(new_values)

#Nos creamos una nueva columna llamada state
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']

#Vemos el resultado
print(sales)

   month  eggs  salt  spam state
0      1    47  12.0    17    CA
1      2   110  50.0    31    CA
2      1   221  89.0    72    NY
3      2    77  87.0    20    NY
4      1   132   NaN    52    TX
5      2   205  60.0    55    TX


In [34]:
#Indexamos por estado
sales = sales.set_index('state')

#Vemos el resultado
sales

Unnamed: 0_level_0,month,eggs,salt,spam
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,1,47,12.0,17
CA,2,110,50.0,31
NY,1,221,89.0,72
NY,2,77,87.0,20
TX,1,132,,52
TX,2,205,60.0,55


In [35]:
#Accedemos a los datos de NY
print(sales.loc['NY'])

       month  eggs  salt  spam
state                         
NY         1   221  89.0    72
NY         2    77  87.0    20


# Indexing multiple levels of a MultiIndex

Cuando tenemos un conjunto de datos multi-indexado y queremos acceder a traves de los múltiples niveles de índices, debemos de hacer uso de la función **slice()**. Cuando queremos seleccionar todos los elementos de un nivel hacemos uso de **slice(None)**.

In [36]:
#Cargamos los datos
sales = pd.read_csv('sales.csv')

#Mapeamos la columnas month
new_values = {'Jan':1, 'Feb':2, 'Mar':1, 'Apr':2, 'May':1, 'Jun':2}
sales['month'] = sales.loc[:,'month'].map(new_values)

#Nos creamos una nueva columna llamada state
sales['state'] = ['CA', 'CA', 'NY', 'NY', 'TX', 'TX']

#Indexamos los datos por las columnas state y month
sales = sales.set_index(['state', 'month'])

#Vemos el resultado
print(sales)

             eggs  salt  spam
state month                  
CA    1        47  12.0    17
      2       110  50.0    31
NY    1       221  89.0    72
      2        77  87.0    20
TX    1       132   NaN    52
      2       205  60.0    55


In [37]:
#Seleccionaos la información de NY en el mes 1
print(sales.loc[('NY', 1), :])

eggs    221.0
salt     89.0
spam     72.0
Name: (NY, 1), dtype: float64


In [39]:
#Seleccionamos los datos de CA y TX en el mes 2
print(sales.loc[(['CA', 'TX'], 2), :])

             eggs  salt  spam
state month                  
CA    2       110  50.0    31
TX    2       205  60.0    55


In [40]:
#Seleccionamos el mes 2 para todos los estados
print(sales.loc[(slice(None), 2), :])

             eggs  salt  spam
state month                  
CA    2       110  50.0    31
NY    2        77  87.0    20
TX    2       205  60.0    55
