# Operaciones básicas (II)

In [1]:
import pandas as pd
import numpy as np

## Indexación y slicing en pandas

Además de poder reutilizar los métodos de indexación y slicing de NumPy sobre Series y DataFrames (con las limitaciones ya comentadas), pandas pone a nuestra disposición nuevos métodos de indexación que permiten tener un mayor control sobre la misma y superar las limitaciones que nos impone NumPy sobre este tipo de estructuras. Veamos todas las posibles combinaciones.<br/>

Existen 3 formas de indexación principales:
* Indexación estándar
* .loc
* .iloc

In [2]:
serie = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
serie

a    1
b    2
c    3
d    4
dtype: int64

In [3]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

Unnamed: 0,c1,c2,c3,c4
f1,0,1,2,3
f2,4,5,6,7
f3,8,9,10,11
f4,12,13,14,15


### Indexación estándar

La indexación estándar se puede realizar mediante la notación `[]`

#### Selección de una sola columna

Deberemos informar de la columan que queremos extraer. El resultado será una **Serie**

In [None]:
dataframe['c2']

In [None]:
type(dataframe['c2'])

#### Selección de varias columnas

Introducimos una lista de nombres. Nos devolverá un **DataFrame**

In [None]:
dataframe[['c2','c4']]

#### Selección de filas

Al igual que en NumPy y Python Base, la secuencia de información será:
* Primer elemento que queremos extraer
* Primer elemento que NO queremos extraer
* Paso

IMPORTANTE: No se puede extraer una única fila con este método

In [None]:
dataframe[0:2]

Si tenemos un índice que no sea el prestablecido por Python, podemos utilizarlo al igual que en el caso anterior, solo que en este caso el último índice es **inclusivo**.

In [None]:
dataframe['f2':'f4']

#### Selección de filas y columna

Podemos seleccionar filas y columnas iterativamente

In [None]:
dataframe['f2':'f4'][['c2','c4']]

#### Selección con condicionales

Podemos seleccionar filas basados en condiciones

In [None]:
dataframe[dataframe['c2']>5]

### Indexación con `.iloc`

Lo más importante que debemos saber de este tipo de indexación es que todos los inputs deben ser de tipo `int`

#### Selección de una sola fila con `.iloc`

Devolverá un objeto de tipo **Serie**

In [None]:
dataframe.iloc[0]

#### Selección de varias filas con `.iloc`

Se debe introducir una lista de enteros. En este caso ya devolverá un objeto tipo **DataFrame**

In [None]:
dataframe.iloc[[0,2]]

In [None]:
dataframe.iloc[0:3]

#### Selección de filas y columnas con `.iloc`

Se deberá introducir una lista de 2 elementos:
* Primero, una lista de las filas que queremos
* Segundo, una lista de las columnas que queremos

Si queremos todas las filas o todas las columnas, introducimos un `:`

In [None]:
dataframe.iloc[[0,2],[2,3]]

In [None]:
dataframe.iloc[:,:]

### Indexación con `.loc`

Se fundamente en etiquetas, pero también se puede utilizar con valores lógicos (`True` o `False`)

#### Selección de una fila usando `.loc`

Como nuestras filas tienen índices, no podemos utilizar la indexación con enteros para las filas con el comando `.loc`.

In [None]:
dataframe.loc[0]

In [None]:
dataframe.loc['f1']

#### Selección de varias filas con `.loc`

Se introduce una lista de etiquetas

In [None]:
dataframe.loc[['f1','f4']]

In [None]:
dataframe.loc['f1':'f3']

#### Selección de varias filas y columnas

Al igual que con `.iloc`, se debe introducir 2 listas, la primera referente a las filas y la segunda, a las columnas.

In [None]:
dataframe.loc[['f1'],['c1','c3']]

## Índices jerárquicos en pandas

Los índices jerárquicos de 'pandas' permiten tener más de un nivel en cualquiera de los índices de una estructura. Esto puede servir para agrupar más claramente los datos, o para conseguir identificar las filas por una clave única. En cierto modo, también es una forma de poder trabajar con tablas de más de dos dimensiones.

In [None]:
peliculas = pd.DataFrame(
            {'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón']},
            index = [[2014, 2014, 2013, 2013], ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']]
)
peliculas

A partir de la construcción del índice jerárquico, podemos hacer indexaciones totales (mediante tuplas) o parciales (mediante selección de uno de los elementos del índice).

In [None]:
# Indexación total
peliculas.loc[(2014, 'Godzilla')]

In [None]:
# Indexación parcial
peliculas.loc[2014]

Podemos pasar niveles del índice jerárquico de las filas a las columnas mediante la función <b>unstack</b>, como si de una Pivot Table de Excel se tratase. Con <b>stack</b> realizarmeos la operación contraria.

In [None]:
# Pasamos el último nivel del índice de filas al de columnas
peliculas_2 = peliculas.unstack()
peliculas_2

In [None]:
peliculas

In [None]:
# Pasamos el último nivel del índice de columnas al de filas
peliculas.stack()

In [None]:
peliculas_2.stack()

## Modificación de índices en Pandas

En cualquier momento, podemos descartar el índice de un DataFrame incorporando el mismo como una columna más de nuestros datos. Esto lo haremos mediante la función <b>reset_index</b>. Esto hará que el índice pase a ser una secuencia numérica.

In [None]:
dataframe.reset_index()

Del mismo modo, podemos reestablecer un conjunto de columnas como índice de un DataFrame con la función <b>set_index</b>.

In [None]:
dataframe

In [None]:
dataframe.set_index(['c1'])