# Operaciones básicas (II)

In [None]:
import numpy as np
import pandas as pd

## Indexación y slicing en pandas

Además de poder reutilizar los métodos de indexación y slicing de NumPy sobre Series y DataFrames (con las limitaciones ya comentadas), pandas pone a nuestra disposición nuevos métodos de indexación que permiten tener un mayor control sobre la misma y superar las limitaciones que nos impone NumPy sobre este tipo de estructuras. Veamos todas las posibles combinaciones.<br/>

#### Indexación por atributo de clave

Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta.

In [None]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie.a

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe.c1

#### Indexación con sintáxis [ ] directa

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj[num_val]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[num_val1:num_val2]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de fila (salvo si el índice de filas es numérico)</td>
</tr>
<tr>
<td>obj[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de fila</td>
</tr>
<tr>
<td>obj[[num_val1,..,num_valn]]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de columna</td>
</tr>
<tr>
<td>obj[[key1,..,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana</td>
</tr>
</table>

In [None]:
serie[0]

In [None]:
dataframe[0]

#### Indexación con método .loc - Por claves

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.loc[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[[key1,...,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana sobre filas</td>
</tr>
<tr>
<td>obj.loc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: clave, slice, secuencia o condición</td>
</tr>
</table>

In [None]:
serie.loc['b']

In [None]:
dataframe.loc['f1']

#### Indexación con método .iloc - Por índices

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.iloc[num_val]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[num_val1:num_val2]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[[num_val1,...,num_valn]]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: posición, slice o secuencia</td>
</tr>
</table>

In [None]:
serie.iloc[0]

In [None]:
dataframe.iloc[3]

#### Indexación con método .ix - Mezcla de índices y claves

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.ix[sel]</td>
<td>Selección por posición o clave</td>
<td>Selección por posición o clave de filas</td>
</tr>
<tr>
<td>obj.ix[sel1:sel2]</td>
<td>Selección por posición o clave</td>
<td>Selección por posición o clave de filas</td>
</tr>
<tr>
<td>obj.ix[[sel1,...,seln]]</td>
<td>Selección por posición o clave</td>
<td>Selección por posición o clave de filas</td>
</tr>
<tr>
<td>obj.ix[sel1, sel2]</td>
<td>Incorrecto (pero no ERROR)</td>
<td>Selección por posición o clave de fila (sel1) y columna (sel2). Selectores: posición o clave, slice, secuencia o condición</td>
</tr>
</table>

In [None]:
serie

In [None]:
serie.ix[['a','d']]

In [None]:
dataframe.ix['f3']

Al igual que en el core de Python y NumPy, un slice o selección se puede utilizar en el lado izquierdo de una asignación para modificar el contenido de los elementos dentro de la selección.

In [None]:
serie.ix[0] = 100
serie

In [None]:
dataframe.ix[0:2, 'var2'] = [100, 100]
dataframe

## Índices jerárquicos en pandas

Los índices jerárquicos de 'pandas' permiten tener más de un nivel en cualquiera de los índices de una estructura. Esto puede servir para agrupar más claramente los datos, o para conseguir identificar las filas por una clave única. En cierto modo, también es una forma de poder trabajar con tablas de más de dos dimensiones.

In [None]:
peliculas = pd.DataFrame(
            {'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = [[2014, 2014, 2013, 2013], ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']]
)
peliculas

A partir de la construcción del índice jerárquico, podemos hacer indexaciones totales (mediante tuplas) o parciales (mediante selección de uno de los elementos del índice).

In [None]:
# Indexación total
peliculas.loc[(2014, 'Godzilla')]

In [None]:
# Indexación parcial
peliculas.loc[2014]

Podemos pasar niveles del índice jerárquico de las filas a las columnas mediante la función <b>unstack</b>, como si de una Pivot Table de Excel se tratase. Con <b>stack</b> realizarmeos la operación contraria.

In [None]:
# Pasamos el último nivel del índice de filas al de columnas
peliculas_2 = peliculas.unstack()
peliculas_2

In [None]:
# Pasamos el último nivel del índice de columnas al de filas
peliculas.stack()

In [None]:
peliculas_2.stack()

## Reindexación, establecimiento y descarte de índices

Pueden existir ocasiones en las que se desee modificar el índice de una estructura tras haberla creado. En este caso no se trata de cambiar las etiquetas asignadas sino de reordenaciones, eliminación o adición de etiquetas. Para ello, pandas nos ofrece el método <b>reindex</b>. Lo que obtendremos será una nueva estructura (copia) con el índice seleccionado. <br/><br/>
En el caso de un nuevo índice, los elementos nuevos se rellenarán a NaN. Para evitarlo, disponemos de los siguientes parámetros:<br/>
<ul>
<li><b>fill_value:</b> Relleno a un valor fijo establecido.</li>
<li><b>method:</b> Relleno según un método definido:
<ul>
<li>ffill: Relleno mediante la observación de los últimos valores rellenos.</li>
<li>bfill: Relleno mediante la observación de los próximos valores rellenos.</li>
</ul>
</li>
</ul>

In [None]:
serie = pd.Series([1, 2, 3, 4], index=['a','b','c','d'])
serie

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1','f2','f3','f4'], columns=['c1','c2','c3','c4'])
dataframe

In [None]:
# Reordenación del índice de una Serie
serie.reindex(['d', 'a', 'b','c']) #Todo en orden inverso

In [None]:
# Adición de etiquetas a un índice de una serie
serie.reindex(['a', 'b', 'e', 'd', 'c'])

In [None]:
# Adición de etiquetas con valor de relleno a un índice de una serie
serie.reindex(['a', 'b', 'e', 'd', 'c'], fill_value=0)

In [None]:
# Selección de índice de filas de un DataFrame
dataframe.reindex(['f1', 'f3'])

In [None]:
# Adición de etiquetas al índice de filas de un DataFrame
dataframe.reindex(['f1', 'f3', 'f6'])

In [None]:
# Adición de etiquetas al índice de filas de un DataFrame con método de relleno
dataframe.reindex(['f1', 'f3', 'f10'], method='ffill')

In [None]:
# Adición de etiquetas al índice de filas de un DataFrame con método de relleno
dataframe.reindex(['f1', 'f3', 'f10'], method='bfill')

In [None]:
# Modificación del índice de columnas de un DataFrame
dataframe.reindex(columns=['c1', 'c3', 'c2'])

En cualquier momento, podemos descartar el índice de un DataFrame incorporando el mismo como una columna más de nuestros datos. Esto lo haremos mediante la función <b>reset_index</b>. Esto hará que el índice pase a ser una secuencia numérica.

In [None]:
dataframe.reset_index()

Del mismo modo, podemos reestablecer un conjunto de columnas como índice de un DataFrame con la función <b>set_index</b>.

In [None]:
dataframe.set_index(['c1'])