# Operaciones básicas (II)

In [1]:
import numpy as np
import pandas as pd

## Indexación y slicing en pandas

Además de poder reutilizar los métodos de indexación y slicing de NumPy sobre Series y DataFrames (con las limitaciones ya comentadas), pandas pone a nuestra disposición nuevos métodos de indexación que permiten tener un mayor control sobre la misma y superar las limitaciones que nos impone NumPy sobre este tipo de estructuras. Veamos todas las posibles combinaciones.<br/>

#### Indexación por atributo de clave

Podemos indexar un elemento concreto de una Serie o una columna concreta de un DataFrame mediante el uso de su etiqueta/clave como atributo, con sintaxis obj.etiqueta.

In [5]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie['c']

3

In [7]:
serie.c

3

In [8]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [11]:
dataframe.c1

f1     0
f2     4
f3     8
f4    12
Name: c1, dtype: int64

#### Indexación con sintáxis [ ] directa

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj[num_val]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[num_val1:num_val2]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de fila (salvo si el índice de filas es numérico)</td>
</tr>
<tr>
<td>obj[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de fila</td>
</tr>
<tr>
<td>obj[[num_val1,..,num_valn]]</td>
<td>Selección por posición (salvo si el índice es numérico)</td>
<td>Selección por posición de columna</td>
</tr>
<tr>
<td>obj[[key1,..,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de columna</td>
</tr>
<tr>
<td>obj[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana</td>
</tr>
</table>

In [18]:
serie

a    1
b    2
c    3
dtype: int64

In [19]:
serie[0]

1

In [25]:
dataframe['c3']


f1     2
f2     6
f3    10
f4    14
Name: c3, dtype: int64

#### Indexación con método .loc - Por claves

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.loc[key]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[key1:key2]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[[key1,...,keyn]]</td>
<td>Selección por clave</td>
<td>Selección por clave de filas</td>
</tr>
<tr>
<td>obj.loc[condition]</td>
<td>Selección por estructura booleana</td>
<td>Selección por estructura booleana sobre filas</td>
</tr>
<tr>
<td>obj.loc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: clave, slice, secuencia o condición</td>
</tr>
</table>

In [26]:
serie.loc['b']

2

In [28]:
serie.loc['b':'d']

b    2
c    3
d    4
dtype: int64

In [29]:
serie.loc[['b','d']]

b    2
d    4
dtype: int64

In [31]:
serie.loc[[True, True, False, True]]

a    1
b    2
d    4
dtype: int64

In [27]:
dataframe.loc[:,'c2']

f1     1
f2     5
f3     9
f4    13
Name: c2, dtype: int64

In [33]:
dataframe.loc['f1','c3'] # Qiero de la fila 1 la columna 3

2

In [34]:
dataframe.loc[:, 'c2']

f1     1
f2     5
f3     9
f4    13
Name: c2, dtype: int64

#### Indexación con método .iloc - Por índices, trabaja por posición

<table>
<tr>
<th>Tipo</th>
<th>En Series</th>
<th>En DataFrames</th>
</tr>
<tr>
<td>obj.iloc[num_val]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[num_val1:num_val2]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[[num_val1,...,num_valn]]</td>
<td>Selección por posición</td>
<td>Selección por posición de filas</td>
</tr>
<tr>
<td>obj.iloc[sel1, sel2]</td>
<td>ERROR</td>
<td>Selección por clave de fila (sel1) y columna (sel2). Selectores: posición, slice o secuencia</td>
</tr>
</table>

In [38]:
serie.iloc[3]

4

In [40]:
serie.iloc[[0,2]]

a    1
c    3
dtype: int64

In [41]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [42]:
dataframe.iloc[:, 2]

f1     2
f2     6
f3    10
f4    14
Name: c3, dtype: int64

In [43]:
dataframe.iloc[1]

c1    4
c2    5
c3    6
c4    7
Name: f2, dtype: int64

## Índices jerárquicos en pandas

Los índices jerárquicos de 'pandas' permiten tener más de un nivel en cualquiera de los índices de una estructura. Esto puede servir para agrupar más claramente los datos, o para conseguir identificar las filas por una clave única. En cierto modo, también es una forma de poder trabajar con tablas de más de dos dimensiones.

In [47]:
peliculas = pd.DataFrame(
            {'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = [[2014, 2014, 2013, 2013], ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']]
)
peliculas

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2014,Godzilla,6.0,160.0,Peter Jackson
2014,El Hobbit III,,250.0,Gareth Edwards
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón


A partir de la construcción del índice jerárquico, podemos hacer indexaciones totales (mediante tuplas) o parciales (mediante selección de uno de los elementos del índice).

In [45]:
# Indexación total
peliculas.loc[(2014, 'Godzilla')]

Valoración               6.0
Presupuesto            160.0
Director       Peter Jackson
Name: (2014, Godzilla), dtype: object

In [48]:
# Indexación parcial
peliculas.loc[2014]

Unnamed: 0,Valoración,Presupuesto,Director
Godzilla,6.0,160.0,Peter Jackson
El Hobbit III,,250.0,Gareth Edwards


Podemos pasar niveles del índice jerárquico de las filas a las columnas mediante la función <b>unstack</b>, como si de una Pivot Table de Excel se tratase. Con <b>stack</b> realizarmeos la operación contraria.
Convertimos los indices que están en columnas a filas y visceversa

In [49]:
# Pasamos el último nivel del índice de filas al de columnas
peliculas_2 = peliculas.unstack()
peliculas_2

Unnamed: 0_level_0,Valoración,Valoración,Valoración,Valoración,Presupuesto,Presupuesto,Presupuesto,Presupuesto,Director,Director,Director,Director
Unnamed: 0_level_1,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity,El Hobbit III,El lobo de Wall Street,Godzilla,Gravity
2013,,8.75,,,,100.0,,,,Martin Scorsese,,Alfonso Cuarón
2014,,,6.0,,250.0,,160.0,,Gareth Edwards,,Peter Jackson,


In [50]:
peliculas

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2014,Godzilla,6.0,160.0,Peter Jackson
2014,El Hobbit III,,250.0,Gareth Edwards
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón


In [51]:
# Pasamos el último nivel del índice de columnas al de filas
peliculas.stack()

2014  Godzilla                Valoración                 6.0
                              Presupuesto              160.0
                              Director         Peter Jackson
      El Hobbit III           Presupuesto              250.0
                              Director        Gareth Edwards
2013  El lobo de Wall Street  Valoración                8.75
                              Presupuesto              100.0
                              Director       Martin Scorsese
      Gravity                 Director        Alfonso Cuarón
dtype: object

In [54]:
peliculas_2.stack()

Unnamed: 0,Unnamed: 1,Valoración,Presupuesto,Director
2013,El lobo de Wall Street,8.75,100.0,Martin Scorsese
2013,Gravity,,,Alfonso Cuarón
2014,El Hobbit III,,250.0,Gareth Edwards
2014,Godzilla,6.0,160.0,Peter Jackson


### Reindexación, establecimiento y descarte de índices
Pueden existir ocasiones en las que se desee modificar el indice de una estructura tras haberla creado. En este caso no se trata de cambiar las etiquetas asignadas sino de reordenaciones, eliminación o adición de etiquetas. Para ello, pandas nos ofrece el método **reindex.** Lo que obtendremos será una nueva estructura (copia) con el índice seleccionado.

En en el caso de un nuevo indice, los elementos nuevos se rellenanrán a NaN. Para evitarlo, disponderemos de los siguientes parámetros:
- **fill_value:** Relleno a un valor fijo establecido.
- **method:** Relleno según un método definido:
    - ffill: Relleno mediante la observaci+on de lños últimos valores rellenos.
    - bfill: Relleno mediante la observación de los próximos valores rellenos.

Por ejemplo si en la tabla anterior creamos el indice 2015 que no existia, me rellenaria los campos con NaN, para que esto no suceda es que exste la reindexación

In [55]:
serie = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [57]:
dataframe = pd.DataFrame(np.arange(16).reshape(4,4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1', 'c2', 'c3', 'c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [58]:
# Reordenación del índice de una Serie
serie.reindex(['d', 'a', 'b', 'c']) # Todo en orden inverso

d    4
a    1
b    2
c    3
dtype: int64

In [59]:
# Adición de etiquetas a un índice de una serie
serie.reindex(['a', 'b', 'e', 'd', 'c'])

a    1.0
b    2.0
e    NaN
d    4.0
c    3.0
dtype: float64

In [61]:
# Adición de etiquetas con valor de relleno a un índice de una serie
serie.reindex(['a', 'b', 'e', 'd', 'c'], fill_value=0)

a    1
b    2
e    0
d    4
c    3
dtype: int64

In [66]:
# Selección de un índice de filas con un DataFrame
dataframe.reindex(['f1', 'f3'])

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f3,8,9,10,11


In [67]:
# Adición de etiquetas al índice de las filas de un DataFrame
dataframe.reindex(['f1', 'f3', 'f6'])

Unnamed: 0,c1,c2,c3,c4
f1,0.0,1.0,2.0,3.0
f3,8.0,9.0,10.0,11.0
f6,,,,


In [71]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [69]:
# Adición de etiquetas al índice de las filas de un DataFrame con método de relleno
dataframe.reindex(['f1', 'f3', 'f10'], method='ffill')

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f3,8,9,10,11
f10,0,1,2,3


In [70]:
# Adición de etiquetas al índice de filas de un DataFrame con método de relleno
dataframe.reindex(['f1', 'f3', 'f10'], method='bfill') # Agarra la fila 1 y la 3, añademe una fila nueva 10, y agrega los valores en orden f1 luego f10 (continua contando) luego f3

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f3,8,9,10,11
f10,4,5,6,7


In [73]:
# Modificación por el índice de columnas de un DataFrame
dataframe.reindex(columns=['c1', 'c3', 'c2'])

Unnamed: 0,c1,c3,c2
f1,0,2,1
f2,4,6,5
f3,8,10,9
f4,12,14,13


## Modificación de índices en Pandas

En cualquier momento, podemos descartar el índice de un DataFrame incorporando el mismo como una columna más de nuestros datos. Esto lo haremos mediante la función <b>reset_index</b>. Esto hará que el índice pase a ser una secuencia numérica.

In [72]:
dataframe.reset_index()

Unnamed: 0,index,c1,c2,c3,c4
0,f1,0,1,2,3
1,f2,4,5,6,7
2,f3,8,9,10,11
3,f4,12,13,14,15


Del mismo modo, podemos reestablecer un conjunto de columnas como índice de un DataFrame con la función <b>set_index</b>.

In [74]:
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


In [75]:
dataframe.set_index(['c1'])

Unnamed: 0_level_0,c2,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15
