# Gráficos exploratorios con `seaborn`

![Logo unal](logo_unal.png)

En esta lección se mostrará como usar `seaborn` para crear gráficos con el objetivo de explorar una base de datos. Los ejemplos aquí mostrados están basado en las explicaciones mostradas [aquí](https://seaborn.pydata.org/tutorial/distributions.html).

A continuación las librerías necesarias para realizar los ejemplos.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

sns.set(color_codes=True)

## Leyendo los datos del ejemplo

Para el ejemplo vamos a usar la base de datos sobre apartamentos usados en la ciudad de Medellín, la base de datos está disponible en [este enlace](https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015). Para leer la base de datos usamos las siguientes instrucciones.

In [None]:
url = 'https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015'
dt = pd.read_table(url, comment='#', sep=' ')
dt.head()

Unnamed: 0,precio,mt2,ubicacion,estrato,alcobas,banos,balcon,parqueadero,administracion,avaluo,terminado
1,79.0,43.16,norte,3,3,1,si,si,0.05,14.923002,no
2,93.0,56.92,norte,2,2,1,si,si,0.069,27.0,si
3,100.0,66.4,norte,3,2,2,no,no,0.0,15.738427,no
4,123.0,61.85,norte,2,3,2,si,si,0.13,27.0,no
5,135.0,89.8,norte,4,3,2,si,no,0.0,39.567,si


## Histogramas
Para crear un histograma se usa la función `displot` con `hist=True` para que dibuje el histograma y con `kde=False` para que no aparezca la densidad, vamos a agregar `rug=True` para mostrar marcas en el eje horizontal que ilustren las observaciones.

A continuación el histograma para la variable `precio`.

In [None]:
sns.distplot(dt.precio, hist=True, kde=False, rug=True)

## Densidades

Para dibujar la densidad de una variable se usa la función `displot` con `kde=True` y `hist=False`. Agregaremos `rug=True` para ver la ubicación de las observaciones en el eje horizontal.

A continuación la densidad para la variable área o `mt2`.

In [None]:
sns.distplot(dt.mt2, kde=True, hist=False, rug=True, color='green')

## Diagramas de dispersión

Para dibujar diagramas de dispersión se usa la función `jointplot`.

A continuación del diagrama de dispersión entre área y precio de los apartamentos.

In [None]:
sns.jointplot(x="mt2", y="precio", data=dt);

## Densidad bivariada

Para crear una densidad bivariada se usa la función `jointplot`. Se debe usar `kind="kde"` para obtener la densidad, otras opciones para el parámetro `kind` se pueden consultar [aquí](https://seaborn.pydata.org/generated/seaborn.jointplot.html).

A continuación la densidad para las variables precio y área.

In [None]:
sns.jointplot(x="mt2", y="precio", data=dt, kind="kde");

## Matriz con diagramas de dispersión

Para crear una matriz con diagramas de dispersión se usa la función `pairplot`.

A continuación un ejemplo de como usar la función para una subconjunto de las variables de los datos `dt`.

In [None]:
sns.pairplot(dt[['precio', 'mt2', 'administracion', 'avaluo']])

Para crear el mismo gráfico anterior pero diferenciando por la variable terminado se usa el siguiente código.

In [None]:
sns.pairplot(dt[['precio', 'mt2', 'administracion', 'avaluo', 'terminado']], hue="terminado")