# Operaciones básicas (III)

In [1]:
import numpy as np
import pandas as pd

## Tablas pivote

Siguiendo con las funciones de gestión de índices, pandas incluye la posibilidad de gestionar los mismos como si de una Pivot Table de Excel se tratase, haciendo mucho más sencillo el análisis de información resultante.

In [2]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013, 2001], 
             'Valoración':[6, None, 8.75, None, 8.9],
             'Presupuesto':[160, 250, 100, None, 93],
             'Director':['Gareth Edwards', 'Peter Jackson', 'Martin Scorsese', 'Alfonso Cuarón', 'Peter Jackson'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity', 'Lord of the Rings']}
)
peliculas

Unnamed: 0,Año,Valoración,Presupuesto,Director,Título
0,2014,6.0,160.0,Gareth Edwards,Godzilla
1,2014,,250.0,Peter Jackson,El Hobbit III
2,2013,8.75,100.0,Martin Scorsese,El lobo de Wall Street
3,2013,,,Alfonso Cuarón,Gravity
4,2001,8.9,93.0,Peter Jackson,Lord of the Rings


In [None]:
# Filas: Año, Columnas: Director, Valores: Título
peliculas.pivot(columns = 'Director', index = 'Año', values = 'Título')

Si bien esto mismo ya lo podíamos realizar con las operaciones vistas hasta ahora.

In [None]:
# Establecemos el índice a las dos variables sobre las que queremos "pivotar"
p = peliculas.set_index(['Año', 'Director'])
p

In [None]:
# Pasamos el último nivel de índice de filas a columnas
p = p.unstack()
p

In [None]:
# Elegimos únicamente el valor de la columna Título
p['Título']

También podemos crear tablas pivote utilizando una función de agregación para los valores, de forma que se haga una agrupación de resultados.

In [None]:
peliculas

In [None]:
peliculas.loc[peliculas['Año'] == 2001, 'Año']

In [None]:
# Hacemos que haya dos películas para el mismo año y director
peliculas.loc[peliculas['Año'] == 2001, 'Año'] = 2014
peliculas

In [None]:
# Utilizamos la función pivot_table para establecer: valor, índice, columnas y función de agregación en caso de colisión
pd.pivot_table(peliculas, values='Presupuesto', index=['Director'], columns=['Año'], aggfunc=np.sum)

## Eliminación de filas y/o columnas en pandas

Aunque el proceso de eliminación de columnas se puede hacer mediante la aplicación de los mismos métodos que en el caso de diccionarios, pandas pone a nuestra disposición el método <b>drop</b>.

In [None]:
serie = pd.Series([1,2,3,4], index=['a','b','c','d'])
serie

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f1', 'f2', 'f3', 'f4'], columns=['c1','c2','c3','c4'])
dataframe

In [None]:
# Eliminación de valores de una Serie
serie.drop('a')

In [None]:
del serie['b']

In [None]:
# Eliminación de filas de un DataFrame
dataframe.drop(['f1',  'f2'])

In [None]:
dataframe

In [None]:
# Eliminación de columnas de un DataFrame
dataframe.drop('c2', axis=1)

## Aritmética con estructuras de pandas

Aunque, como ya se ha visto, podemos aprovechar la compatibilidad con NumPy para llevar a cabo operaciones aritméticas básicas, estas operaciones aplican el proceso de "alineación" de índices introduciendo valores NaN en los resultados cuando no hay coincidencia de claves. Para solucionar este problema, pandas nos ofrece algunas funciones de utilidad para las más básicas (suma, resta, multiplicación y división) que permiten establecer un valor de "relleno" en el caso de claves no coincidentes.

In [None]:
serie1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
serie1

In [None]:
serie2 = pd.Series([5, 6, 7, 8], index=['c', 'd', 'e', 'f'])
serie2

In [None]:
# Resultado de operación básica"
serie1 + serie2

In [None]:
# Resultado con operación pandas
serie1.add(serie2)

In [None]:
# Resultado con operación pandas y relleno
serie1.add(serie2, fill_value=0)

In [None]:
serie1.sub(serie2, fill_value=0)

In [None]:
serie1.mul(serie2, fill_value=0)

In [None]:
serie1.div(serie2, fill_value=0)

## Ordenación en estructuras de pandas

pandas pone a nuestra disposición varias formas de realizar ordenaciones de los contenidos de una Serie o un DataFrame. Vamos a ver los más utilizados.

#### Ordenación en Series

In [None]:
serie = pd.Series([3, 2, 1, 4], index=['d', 'a', 'c', 'b'])
serie

In [None]:
# Ordenación por índice
serie.sort_index()

In [None]:
# Ordenación descendente por índice
serie.sort_index(ascending=False)

In [None]:
# Ordenación por valores
serie.sort_values()

In [None]:
# Ordenación por valores descendente
serie.sort_values(ascending=False)

#### Ordenación en DataFrames

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4), index=['f3', 'f1', 'f4', 'f2'], columns=['c3', 'c1', 'c4', 'c2'])
dataframe

In [None]:
# Ordenación por índice de filas
dataframe.sort_index()

In [None]:
# Ordenación por índice de columnas
dataframe.sort_index(axis=1)

In [None]:
# Ordenación descendente por índice de filas
dataframe.sort_index(ascending=False)

In [None]:
# Ordenación por valores de filas
dataframe.sort_values(['f1'], axis=1)

In [None]:
# Ordenación por valores de columnas
dataframe.sort_values(['c1'])

## Recuperación de muestras parciales del contenido

En estructuras de datos potencialmente grandes, suele ser muy necesaria la recuperación de una muestra de ejemplo de un conjunto reducido de elementos que permitan hacerse una idea del contenido de la estructura sin necesidad de listar TODO el contenido de la misma. Pandas, como R, pone a nuestra disposición dos métodos <b>head</b> (para obtener un muestra del inicio de la estructura) y <b>tail</b> para obtener la muestras del final. Ambos métodos recibirán como parámetro el número de registros a recuperar.

In [None]:
serie = pd.Series(np.arange(100))
serie

In [None]:
dataframe = pd.DataFrame(np.arange(100).reshape(10, 10))
dataframe

In [None]:
# Recuperación de los 5 primeros elementos de una Serie
dataframe.tail()

In [None]:
# Recueperación de los 5 últimos elementos de una Serie
serie.tail()

In [None]:
# Recuperación de los 3 primeros elementos de un DataFrame
dataframe.head(3)

In [None]:
# Recueperación de los 3 últimos elementos de un DataFrame
dataframe.tail(3)