# Preparación y exploración de datos

Una vez conocidas las estructuras de datos de pandas, las operaciones básicas que se pueden realizar sobre las mismas y el modo en el que realizar la carga y almacenamiento de dichas estructuras en discos, vamos a centrarnos en aquellas funcionalidades ofrecidas por pandas que están más orientadas al tratamiento y análisis de datos.

In [1]:
import numpy as np
import pandas as pd

## Gestión de datos en blanco (<i>missing values</i>)

En la mayoría de los ficheros utilizados como fuente de datos, es muy común la existencia de valores nulos (en blanco, <i>missing</i>...). Estos "huecos" en la información suelen ser muy problemáticos ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.<br/>
Uno de los objetivos de pandas en su construcción fue facilitar el tratamiento de este tipo de datos no existentes ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

#### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull/isna:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull/notna:</b> Que devuelve el inverso del anterior.</li>

In [2]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

Unnamed: 0,año,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
0,2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
1,2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2,2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
3,2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
4,2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0
5,2014,1,Centro,11,PALACIO,K,Deportivo,8,1946.0,7238.0,,10614660.0
6,2014,1,Centro,11,PALACIO,M,"Suelos sin edificar, obras de urbanización y j...",47,,,130010.0,19915200.0
7,2014,1,Centro,11,PALACIO,O,Oficinas,559,1947.0,196893.0,,340784100.0
8,2014,1,Centro,11,PALACIO,P,Edificio Singular,15,1891.0,197518.0,,281666800.0
9,2014,1,Centro,11,PALACIO,R,Religioso,17,1884.0,102718.0,,114254200.0


In [None]:
# Detección de valores nulos
catastro.isna()

In [None]:
# Detección de valores no nulos
catastro.notnull()

#### Eliminación de registros con <i>missing values</i>

Aunque SIEMPRE conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos, uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos. Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea. Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [None]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

In [None]:
# Eliminación de filas con al menos 1 NA
catastro.dropna(axis=0, how='any')

In [None]:
# Eliminación de columnas con al menos 1 NA
catastro.dropna(axis=1, how='any')

In [None]:
# Eliminación de filas con 2 o más NA
catastro.dropna(thresh=len(catastro.columns)-1)

#### Imputación de registros con <i>missing values</i>

Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecidor.<br/>
Pandas pone a nuestra disposición el método <b>fillna</b>, que cuenta con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
<li><b>method:</b> Que permitirá establecer un criterio de relleno de entre los siguientes:
<ul>
<li>ffill: Relleno en base a la observación de los últimos elementos no nulos.</li>
<li>bfill: Relleno en base a la observación de los próximos elementos no nulos.</li>
</ul>
<li><b>limit:</b> Contador máximo de elmentos imputados.</li>
</ul>

In [None]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

In [None]:
# Imputación de valores a 0
catastro.fillna(0)

In [None]:
# Imputación de valores por valor anterior (por columnas)
catastro.fillna(method='ffill')

In [None]:
# Imputación de valores por valor siguiente (por columnas)
catastro.fillna(method='bfill')

## Resumen de datos y estadísticos básicos

Al igual que NumPy, pandas ofrece un conjunto amplio de funciones para llevar a cabo un análisis estadístico de datos.  Las más relevantes serían:<br/>
<ul>
<li><b>describe:</b> Presenta un conjunto con las estadísticas básicas más comunes calculadas sobre todas las columnas de la estructura. Equivalente a la función <i>summary</i> de R.</li>
<li><b>count:</b> Número de elementos no nulos.</li>
<li><b>min, max:</b> Valor mínimo y máximo.</li>
<li><b>argmin, argmax, idxmax, idxmin:</b> Posiciones con valor mínimo y máximo.</li>
<li><b>quantile:</b> Cuantil calculado.</li>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

La mayor parte de estos métodos, podrán recibir 3 parámetros:
<ul>
<li><b>axis:</b> Que indica si realizar el cálculo por filas o columnas.</li>
<li><b>skipna:</b> Que indica si se deben ignorar o no los valores NaN a la hora de realizar los cálculos.</li>
</ul>

In [None]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t', nrows=10)
catastro

In [None]:
# Estadísticos básicos sobre el data set
catastro.describe()

In [None]:
# Suma por columnas
catastro.sum()

In [None]:
# Suma por filas ignorando NA
catastro.sum(axis=1, skipna=True)

## Matrices de correlación y covarianzas

Dada su utilidad y su importancia de cara a la comprensión del contenido de un data set, sobre todo en un entorno orientado a la modelización (p.e. aprendizaje automático), pandas facilita el cálculo de matrices de correlación y covarianza ofreciendo las funciones <b>corr</b> y <b>cov</b>.

In [None]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t')
catastro.head()

In [None]:
# Matriz de correlación
catastro.corr()

In [None]:
# Matriz de covarianzas
catastro.cov()

## Elementos únicos y frecuencias

En Python no contamos con una estructura de datos como los <i>factores</i> de R, orientados completamente al almacenamiento y gestión de valores discretos. Por ello, pandas pone a nuestra disposición un conjunto de funciones que nos permiten hacer el análisis de este tipo de información como son:<br/>
<ul>
<li><b>unique</b>: Que nos devuelve un array con el conjunto de elementos únicos de una Serie.</li>
<li><b>value_counts</b>: Que realiza un cálculo de frecuencias sobre los elementos únicos de una Serie.</li>
<li><b>isin:</b> Que nos permite chequear si un conjunto de valores se encuentra en una Serie.</li>
</ul>

In [None]:
catastro = pd.read_csv('datos/catastro.tsv', sep='\t')
catastro.head()

In [None]:
# Conjunto de de barrios
catastro.barrio.unique()

In [None]:
# Tabla de frecuencias de distritos
catastro.distrito.value_counts()

In [None]:
# Chequeo de existencia de distritos
catastro['distrito'].isin(['Centro'])

## Aplicación de funciones sobre estructuras

Al igual que en R tenemos la familia de funciones <i>apply</i>, pandas pone a nuestra disposición un conjunto de funciones que nos permiten aplicar operaciones elemento a elemento (o fila a fila, o columna a columna) en sus estructuras de datos. En concreto disponemos de tres funciones.

#### Aplicación de funciones elemento a elemento sobre Series - Función map

In [None]:
serie = pd.Series([1, 2, 3, 4, 5, 6])
serie

In [None]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [None]:
# Aplicación de función elemento a elemento sobre Serie
serie.map(es_par)

#### Aplicación de funciones elemento a elemento sobre DataFrames - Función applymap

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

In [None]:
def es_par(elemento):
    if elemento % 2 == 0:
        return 'Par: ' + str(elemento)
    else:
        return 'Impar: ' + str(elemento)

In [None]:
# Aplicación de función elemento a elemento sobre DataFrame
dataframe.applymap(es_par)

#### Aplicación de funciones fila a fila o columna a columna sobre DataFrames - Función apply

In [None]:
dataframe = pd.DataFrame(np.arange(16).reshape(4, 4))
dataframe

In [None]:
def es_suma_par(elemento):
    if np.sum(elemento) % 2 == 0:
        return 'Suma par: ' + str(np.sum(elemento))
    else:
        return 'Suma impar: ' + str(np.sum(elemento))

In [None]:
# Aplicación de función por columnas sobre DataFrame
dataframe.apply(es_suma_par, axis=0)

In [None]:
# Aplicación de función por filas sobre DataFrames
dataframe.apply(es_suma_par, axis=1)

## Fusión de estructuras

La librería pandas nos ofrece, principalmente, dos formas de fusionar estructuras de datos: realizando cruces entre ellos (mediante las claves coincidentes de sus índices) o concatenando sus contenidos (bien por filas o columnas).

#### Función merge - JOIN de estructuras

In [None]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
peliculas

In [None]:
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain']
             }
)
directores

In [None]:
pd.merge(peliculas, directores)

La función busca, por defecto, aquellas claves de columnas que coinciden y realiza el cruce, eliminando del resultado aquellas filas para las que el cruce no es posible.<br/>

También podemos especificar, explícitamente, el conjunto de columnas a utilizar en el cruce.

In [None]:
directores.columns = ['Nombre', 'Nacimiento', 'Nacionalidad']
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre')

Por último, al igual que ocurre en os JOIN de SQL, podemos especificar el modo de cruce a aplicar, haciendo que las filas de la estructura de la izquierda, derecha o ambas que no coincidan se mantengan en el resultado, estableciendo valores NaN en aquellos elementos para los que no exista información.

In [None]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='left')

In [None]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='right')

In [None]:
pd.merge(peliculas, directores, left_on='Director', right_on='Nombre', how='outer')

Finalmente, en el caso de que tengamos columnas duplicadas en los dos DataFrames que se van a unir, pandas se encargará automáticamente de incluir un sufijo que permita desambiguar (_x, _y, por defecto). 

In [None]:
peliculas = pd.DataFrame(
            {'Año':[2014, 2014, 2013, 2013], 
             'Valoración':[6, None, 8.75, None],
             'Presupuesto':[160, 250, 100, None],
             'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
             'Título':['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']}
)
directores = pd.DataFrame(
            {'Director':['Gareth Edwards', 'Martin Scorsese', 'Pedro Almodovar'],
             'AñoNacimiento':[1975, 1942, 1949],
             'Nacionalidad': ['England', 'USA', 'Spain'],
             'Valoración':[6, 7, 8]
             }
)
pd.merge(peliculas, directores, left_on='Director', right_on='Director')

Si queremos modificar estos sufijos, podemos hacer uso del parámetro suffixes que recibe una tupla con los sufijos a utilizar.

In [None]:
pd.merge(peliculas, directores, left_on='Director', right_on='Director', suffixes=('_peli', '_dire'))

#### Función concat

Esta función nos permite fusionar estructuras sin realizar ningún tipo de cruce entre ellas, sino "colocándolas" juntas para la creación de una estructura mayor. Podemos hacerlo tanto en filas como en columnas, al estilo de las funciones <i>rbind</i> y <i>cbind</i> de R. 

In [None]:
peliculas

In [None]:
peliculas = pd.DataFrame({
    'Año':[2014, 2014, 2013, 2013], 
    'Valoración':[6, None, 8.75, None],
    'Presupuesto':[160, 250, 100, None],
    'Director':['Peter Jackson', 'Gareth Edwards', 'Martin Scorsese', 'Alfonso Cuarón'],
    'Titulo': ['Godzilla', 'El Hobbit III', 'El lobo de Wall Street', 'Gravity']
})
peliculas2 = pd.DataFrame({
    'Año':[2014, 2014], 
    'Valoración':[7.3, 6.3],
    'Presupuesto': [100, 75],
    'Director':['Evan Goldberg', ' Rupert Wyatt'],
    'Titulo': ['La entrevista', 'El jugador']
})
pd.concat([peliculas, peliculas2])

También podemos concatenar por columnas.

In [None]:
peliculas3 = pd.DataFrame({
    'Recaudación':[525, 722, 392]
})
pd.concat([peliculas, peliculas3],axis=1)

Por último, puede ser útil identificar en la estructura resultante el origen de cada una de las filas para posterior análisis. La función concat incluye un parámetro <b>keys</b> que podemos utilizar para añadir una clave a cada uno de las estructuras origen, que se convertirá en el nivel más agregado de un índice jerárquico.

In [None]:
pd.concat([peliculas, peliculas2], keys=['dataset1','dataset2'])

## Operaciones de agrupación

Una de las funcionalidades más útiles de los data.table de R es la posibiilidad de hacer agrupación de resultados y operaciones sobre los grupos (al estilo de las sentencias GROUP BY de SQL). La librería pandas también incluye dicha posibilidad.

In [None]:
agrupado = peliculas.groupby('Año')
type(agrupado)

Una agrupación no es un objeto "imprimible", es una representación interna del conjunto de registros que pertenecen a cada grupo y sólo tiene sentido si, posteriormente, se va a aplicar alguna operación sobre dichos grupos. Hay que tener en cuenta que no todas las operaciones son aplicacables sobre todos los tipos de columna.

In [None]:
# Media por grupo
agrupado.mean()

In [None]:
# Conteo de valores no nulos por grupo
agrupado.count()

Aunque con estos datos quizá no tenga tanto sentido, podemos realizar la agrupación por múltiples claves.

In [None]:
peliculas.groupby(['Año', 'Director']).sum()

Por último, podemos ampliar el conjunto de funciones de agregación de pandas (sum, mean, count...) con nuestras propias funciones mediante el método <b>agg</b> o establecer, con el mismo método, un conjunto de funciones de agregación para aplicar sobre la misma agrupación.

In [None]:
def maxima_diferencia(arr):
    return arr.max() - arr.min()

In [None]:
# Agregando con una única función
peliculas.groupby('Año')['Presupuesto'].agg(maxima_diferencia)

In [None]:
# Agregando con múltiples funciones
peliculas.groupby('Año')['Presupuesto'].agg([maxima_diferencia, sum, max])