## Jose Luis Padilla 

# Modulo4 Caso práctico: Gráficos para análisis exploratorio (datos de casas en Boston)

In [1]:
import pandas as pd
import numpy as np
import altair as alt
from sklearn import datasets

alt.data_transformers.disable_max_rows()

DataTransformerRegistry.enable('default')

## Descripción del caso

En este caso práctico se muestran algunos de los tipos de gráficos más comunmente usados, especialmente en análisis exploratorio, así como algunas técnicas sobre cómo usar las librearías de gráficos de manera eficiente y cómo conseguir que los gráficos cumplan mejor su misión.

Este caso utiliza principalmente la librería gráfica "Altair", que es una de las varias opciones populares que existen en python. La librería con más tradición y todavía muy utilizada es matplotlib, pero no se usa aquí porque su enfoque es más constructivo que semántico (matplotlib ofrece un API para decir "qué hay que dibujar", mientras que Altair ofrece un API para decir "qué se quiere mostrar", de manera que el código suele ser mucho más conciso y la calidad de los gráficos resultantes más consistente), y porque resulta mucho más sencillo hacer gráficos interactivos con Altair (los gráficos interactivos son una herramienta muy práctica tanto en el análisis exploratorio como en la presentación de resultados). Otras opciones interesantes a explorar son Seaborn, Plotly o HoloViews.

Para los detalles acerca del API de la librería, se recomienda visitar https://altair-viz.github.io/ 

## Análisis exploratorio de datos numéricos

En este primer ejemplo, vamos a hacer un análisis exploratorio de un conjunto de datos numéricos. Para ello, utilizaremos el conjunto de datos de ejemplo "Boston Houses" (de precios de viviendas en el área de Boston en función de una serie de parámetros demográficos y económicos), al que se puede acceder directamente desde scikit learn (al ser un conjunto de datos muy pequeño no es neceario descargarlo de internet, ya que se almacena en la propia librería por defecto)

In [2]:
# Cargamos el conjunto de datos y vemos su descripción, que incluye el significado de cada campo
d1 = datasets.load_boston()
print(d1.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [3]:
# Por comodidad, lo cargamos en un DataFrame de Pandas

boston = pd.DataFrame(np.c_[d1.data, d1.target], columns = np.r_[d1.feature_names,['VALUE']])
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,VALUE
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [4]:
# Vemos la información general de los datos cargados en el DataFrame 
# (número de registros, número de campos, tipos de datos, etc.)

boston.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  VALUE    506 non-null    float64
dtypes: float64(14)
memory usage: 55.5 KB


In [5]:
# Vemos una descripción general de los valores contenidos en cada una de las columnas

boston.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,VALUE
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


Como se puede ver, tenemos un conjunto de datos de tamaño moderado, compuesto por catorce columnas con valores numéricos. Esos valores son heterogéneos: no se refieren a las mismas cosas y, por lo tanto, no están en el mismo rango de valores (unas variables van de 0 a 100, otras de 5 a 50, etc.), por lo que habrá que analizarlas por separado.

El primer tipo de análisis visual que se puede hacer es simplemente mostrar los valores de una columna, para saber en qué rango están, donde se concentran, etc. Esa información, que ya nos ofrece de manera resumida el método .describe(), puede obtenerse también, y de manera más rica, mediante visualizaciones

La primera visualización que hacemos, para las primeras 7 variables (simplmente por no ocupar excesivo espacio, en un caso real se haría con todas, claro), es un "tick diagram", que pone una marca sobre el valor de cada caso, sobre un solo eje. 

In [6]:
# Ponemos los datos "en formato largo" para facilitar la visualización
# (en caso de no enteder lo que hace el método .melt(), se puede visualizar el resultado
# simplemente haciendo bostboston_long1.head() en una nueva celda
boston_long1 = boston.iloc[:, :7].melt(var_name = 'Campo', value_name = 'Valor')

# Creamos un gráfico con "tick marks", y codificamos el valor de cada variable en el eje X,
# y repetimos para cada campo en filas diferentes. El método final, .resolve_scale(), se 
# incluye para que cada campo tenga una escala X independiente
alt.Chart(boston_long1, height = 30, width = 400).mark_tick()\
    .encode(x = alt.X('Valor:Q', title = None), row = 'Campo:N')\
    .resolve_scale(x = 'independent')

Un problema de los gráficos de ticks es que, si muchos casos tienen el mismo valor, estos se superponen y no es posible ver cuantos casos hay de cada tipo (por ejemplo, como pasa con el campo CHAS en el ejemplo). Una manera alternativa de mostrar la distribución de casos a lo largo de un eje es el conocido como "boxplot", que marca, generalmente:
* La mediana con una marca
* El rango de valores entre los percentiles 25 y 75, con un rectángulo
* El rango de valores hasta 3 desviaciones típicas (o los precentiles 5 y 95, o otras variantes) mediante una línea
* Los valores fuera de esos rangos, que se consideran anomalías, se muestran individualmente, mediante puntos

In [7]:
# Seleccionamos las 7 últimas variables y las ponemos en "formato largo"
boston_long2 = boston.iloc[:, 7:].melt(var_name = 'Campo', value_name = 'Valor')

# Generamos el boxplot. Nótese cómo el código para generar el boxplot y el código
# para generar el tick plot son esencialmente iguales, a excepción del cambio de 
# .mark_tick() por .mark_boxplot(). Esta es una característica muy propia de las
# librarías de gráficos con interfaz semántica, basada en una gramática de los 
# gráficos; en una librería constructiva el código habría sido completamente distinto
alt.Chart(boston_long2, height = 30, width = 400).mark_boxplot()\
    .encode(x = alt.X('Valor:Q', title = None), row = 'Campo:N')\
    .resolve_scale(x = 'independent')

Finalmente, el tipo de representación más usual para mostrar la distribución de valores de una variable es el histograma, que es un diagrama de barras que muestra la frecuencia de casos en cada rango de valores. Los histogramas pueden ser muy fáciles de interpretar pero son representaciones menos compactas que las anteriores, lo que puede ser un inconveniente.

In [8]:
# Para hacer un histograma, codificamos la variable en el eje X, cuantificada
# (o sea, agrupando los valores por "bins"), y la cuenta de valores de la misma
# variable en el eje X
alt.Chart(boston, height = 200, width = 300).mark_bar()\
    .encode(alt.X('VALUE:Q', bin = alt.Bin(maxbins=30)), y='count()')

A continuación se muestra un gráfico donde se combinan los tres tipos mencionados previamente, para compararlos e interpretar lo que cada uno de ellos representa. Como puede verse, para distintos casos puede ser más conveniente un tipo de gráfico o otro.

In [9]:
alt.vconcat(
        alt.Chart(boston, height = 200, width = 400).mark_bar()\
            .encode(x = alt.X('VALUE:Q', bin = alt.Bin(maxbins=30), axis = None), y='count()'),
        alt.Chart(boston, height = 30).mark_tick()\
            .encode(x = alt.X('VALUE:Q', axis = None)),
        alt.Chart(boston, height = 30).mark_boxplot()\
            .encode(x = 'VALUE:Q').interactive(bind_y = False))\
    .resolve_scale(x='shared')

Mucha de la información más interesante en un conjunto de datos se encuentra en la relación entre distintas variables. La manera más usual de mostra la relación entre dos variables, especialmente cuando el número de casos no es gigantesco, es mediante un "scatter plot", o sea, un gráfico donde se muestra un punto en una posicion x, y que depende de cada una de las dos variables. Veamos algunos ejemplos y variantes

In [10]:
# El scatterplot es uno de los gráficos más sencillos de realizar, una vez
# los datos están disponibles en el formato adecuado

alt.Chart(boston, height = 200, width = 300).mark_point()\
    .encode(x = 'LSTAT:Q', y='CRIM:Q')

Tratamos de ver la correlación entre las variables LSTAT (porcentaje de población con menos recursos) y CRIM (índice de criminalidad). De manera general, siempre se trata de poner el el eje X "la variable independiente", o en el caso de variable que no está claro cómo dependen una de otra, la que sea más básica (las variable demográficas, las de factores generales, etc.), y en el eje Y la variable dependiente o explicada. 

En este caso, nos encontramos con el problema de que los valores de la variable CRIM se concentran mucho en los valores bajos, de manera que es difícil ver la distribución exacta y la correlación. En estos casos, una opción es utilizar un eje logarítmico, que distribuye los valore de manera equidistante según la relación que tengan (dos valores que son uno el doble que el otro siempre estarán a la misma distnacia en una escala logarítmica, independientemente de que sean 1 y 2 o 200 y 400)

In [11]:
# Para generar un gráfico con escala logaritmica, basta con asignar ese tipo de escala al
# "encoding" correspondiente (utilizando terminología de Altair)

alt.Chart(boston, height = 200, width = 300).mark_point()\
    .encode(x = 'LSTAT:Q', y=alt.Y('CRIM:Q', scale = alt.Scale(type = 'log')))

## Interactividad y gráficos múltiples

Yendo un paso más allá, es posible que se quiera estudiar la relación entre tres variables: por ejemplo, dos variables que pueden ser importantes vs. la variable "resultado" del análisis (en este caso, la variable de interés es el precio, y las demás son "factores que influyen en el precio", pero no se está estudiando específicamente las relaciones entre ellas. Para ello, es posible codificar la tercera variable mediante el color, por ejemplo.

Adicionalmente, y especialmente cuando se están tratando de entender muchas variables al mismo tiempo, puede ser de gran ulitidad añadir interactividad a los gráficos (especialmente si no resulta muy complicado, claro... un científico de datos llevando a cabo un análisis exploratorio no quiere dedicar un tiempo significativo a programar gráficos interactivos, sino utiilzar librerías que le den el trabajo resuelto). En este caso vamos a añadir dos tipos de interactividad muy interesantes: la posibilidad de moverse por el gráfico (para mover el gráfico, mantener pulsado el botón central del ratón mientras se mueve; para alejarse o acercarse, girar la ruedecita del ratón, para resetear el gráfico, hacer doble click) y la posibilidad de ver detalles adicionales de un punto en el gráfico (para ello, basta dejar el ratón sobre el punto correspondiente, y aparece una leyenda con los valores de otras variables relacionadas). Este tipo de visualizaciones pueden ahorrar muchísimo tiempo para conseguir entender, por ejemplo, los valores extremos de un conjunto de datos, las variables más significativas, los patrones de agrupamiento de los datos, etc.

In [12]:
# Para hacer que sea posible moverse por el gráfico, se añade .interactive()
# Para que aparezcan detalles adicionales, simplemente hay que codificar variables
# como "tooltip"

alt.Chart(data = boston, height = 300, width = 400).mark_point(filled = True)\
    .encode(x = 'LSTAT:Q',
            y=alt.Y('CRIM:Q', scale = alt.Scale(type = 'log')),
            color = alt.Color('VALUE:Q', scale=alt.Scale(scheme="bluepurple")),
            tooltip=['ZN', 'INDUS', 'RAD', 'TAX'])\
    .interactive()

Después de haber visto algunos ejemplos, vamos a analizar con un poco más de detalle el código que genera ese gráfico. Para ello, es interesante tener en mente cómo funiona una librearía como Altair: lo que se está haciendo mediante el código es "describir" el gráfico (no "dar instrucciónes sobre cómo crear el gráfico"), que se genera únicamente una vez que se va a mostrar. Por esta razón, el orden en que aparezcan las distintas partes es indiferente. Además, Altair proporciona valores por defecto para la mayoría de las posibles configuraciones, de manera que solo hay que detallarlas cuando sea imposible utilizar un valor por defecto, o cuando queramos modificarlas.
Los elementos que se van configurando en ese código son los siguientes:

* Chart(...): Es la configuración general del gráfico. El valor más importante que se condigura aquí, que es imprescindible, es "data", que apunta a los datos que se quieran mostrar. La manera más cómoda de manejar los datos es mediante un DataFrame de Pandas. Cada una de las columnas del DataFrame se considera una variable, y puede utilizarse donde sea necesario usando su nombre.
* mark_point(): Aquí se configura que el tipo de marcas que vamos a utilizar en el gráfico son puntos. Aquí se pueden configurar cosas como el formato de los puntos, etc., aunque puede que alguna característica de los mismos (típicamente, el color, el tamaño o el símbolo utilizado) se usen para codificar alguna variable.
* encode(): Esta es la parte más importante, y generalmente la más compleja, de un gráfico de Altair. Aquí se especifica cómo se va a codificar cada variable en el gráfico. Altair utiliza lo que llama "channels", que son formas posibles de codificar valores. En este caso, hemos utilizado cuatro "channels": la posición X en el gráfico, la posición Y en el gráfico, el color del punto, y el "tooltip". Según las marcas y los canales que se utilicen, se obtienen unos tipos de gráficos o otros. La configuracíon de los canales depende del tipo que sean, pero puede incluir, frecuentemente, alguna configuración del la escala a utilizar. Un detalle importante es la forma como se especifican el tipo de datos: mediante el campo "type" del channel correspondiente, o mediante una letra al final del nombre de la variable, separada de esta por :. Estas letras pueden ser:

    * Q (quantititave): significa que es una variable cuantitativa
    * N (nominal): significa que es una variable categórica no ordenada
    * O (ordered): significa que es una variable categórica ordenada
    * T (time): significa que es una variable temporal
    * G (geo): es un tipo especial para información geográfica (para generar mapas)
    
El tipo de la variable es usado por Altair para decidir cómo representarla, y es una de las razones por las que la configuración por defecto suele funcionar correctamente. Por ejemplo, una variable nominal codificada mediante color, usará una paleta de colores lo más diferentes posible entre ellos (para que se distingan fácilmente las categorías), mientras que una variable ordinal usará una paleta de colores progresiva, como la del ejemplo.

Otra opción interesante puede ser mostrar la relación entre cada factor y la variable dependiente, haciendo un scatterplot por cada una de ellas. En este caso, utilizamos otra técnica que puede resultar de utilidad en el análisis exploratorio: hacer marcas semitransparentes (ver en el código el valor opacity=0.2) para que, si se superponen unas sobre otras, aparezca una zona más oscura que nos muestre que hay más densidad de datos en esa zona. De esta manera podemos tener una idea general de un número de datos mucho más grande en una visualización más compacta.

In [13]:
# El método repeat de Altair nos permite repetir un mismo gráfico con alguna codificación cambiada,
# como por ejemplo el eje X en este ejemplo.

alt.Chart(boston, height = 200, width = 200).mark_point(filled = True, opacity=0.2, size = 50)\
    .encode(x = alt.X(alt.repeat('repeat'), type = 'quantitative'), y = 'VALUE:Q')\
    .repeat(repeat=boston.columns.to_list()[0:13], columns = 3)