# Principios de visualización

In [19]:
import numpy as np
import pandas as pd
import seaborn as sns

Bien, ya empezamos a hacer algunos análisis. No osbtante, es muy importante aprender cómo compartir esos resultados. Sobretodo, por dos razones:

1.  Para los demás: para poder compartir con alguien más mis resultados.
2. Para mí mismo: para poder descubrir nuevos patrones e información valiosa en los datos.

Visualización no sólo es desarrollar gráficos; a veces, la mejor visualización puede ser una buena tabla.

## Group By

Hace algunos temas aprendimos a calcular valores que nos sirvieran para resumir nuestros datos. Aprendimos a calcular sumas, promedios, varianzas, etc. Todos ellos aportaban información valiosa del contenido de * toda * mi tabla.

Pero, ¿y si no necesito el resumen de toda mi tabla?

O mejor aún, ¿qué tal que quiero ver ese resumen, pero dividido según algunos valores en mi tabla?

Veamos algunos ejemplos:

In [2]:
data = sns.load_dataset('iris')
data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Supongamos que quiero saber las medidas promedio de aquellas plantas que pertenecen a la especie _setosa_. Para ello, tengo que filtrar mi tabla para quedarme con sólo aquellos "species" es igual a "setosa".

In [3]:
setosas= data.loc[data["species"]=="setosa", :]
setosas.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
setosas.mean()

sepal_length    5.006
sepal_width     3.428
petal_length    1.462
petal_width     0.246
dtype: float64

¿Y si quisiera ver la misma información, pero con los datos de la especie "versicolor"? Bueno, repito el mismo código...

¿Y para la especie "virginica"? Repito nuevamente, y actualizo la especie...

Por fortuna, sólo hay tres especies en esta tabla. Pero...¿y si tuviera 100 especies?

¿Tendría que correr el mismo código 100 veces? Bueno, crear una función y/o utilizar un ciclo _for_ podría ayudarme a automatizar esa tarea...

Pero, como ser humano, después tendría que **visualizar** 100 tablas, una por una...

Si tan sólo existiera la forma de ver todo ese resumen en una sola tabla...

In [5]:
agrupado=data.groupby("species")
agrupado

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000297A2D58EF0>

In [6]:
agrupado.mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


Por fortuna, existe el método `.groupby(<columna>)`, que _agrupa_ mis datos según alguna variable _categórica_, para después realizar un cálculo sobre cada uno de esos grupos.

El cálculo anterior incluso se puede hacer directo, en un sólo paso...

In [9]:
data.groupby("species").mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


Y puedo ocupar varias otras funciones...

In [11]:
data.groupby("species").sum()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,250.3,171.4,73.1,12.3
versicolor,296.8,138.5,213.0,66.3
virginica,329.4,148.7,277.6,101.3


In [12]:
data.groupby("species").count()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,50,50,50,50
versicolor,50,50,50,50
virginica,50,50,50,50


In [15]:
data.groupby("species").max()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.8,4.4,1.9,0.6
versicolor,7.0,3.4,5.1,1.8
virginica,7.9,3.8,6.9,2.5


In [16]:
data.groupby("species").var()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.124249,0.14369,0.030159,0.011106
versicolor,0.266433,0.098469,0.220816,0.039106
virginica,0.404343,0.104004,0.304588,0.075433


Entre muchos otros métodos agregadores...

Muy útil, ¿no? 

Ahora ya ocupo menos tablas para ver mis datos. Y recuerda: ¡Menos es más!

## Introducción a Graficación

¿Recuerdas tu última tarea? ¿Qué pasaba con el dataset _anscombe_ al querer analizar tus datos sólo con tablas?

In [10]:
df = pd.read_json("sample_data/anscombe.json")
df.head()

ValueError: Expected object or value

Recordarás que antes tenías que utilizar `.loc` para filtrar tus datos por caaaada categoría. Bueno, por fortuna, ahora también puedes usar `.groupby("Series")` para agrupar tus datos y analizar todos los grupos al mismo tiempo.

In [None]:
uno = df.loc[df["Series"]=="I", :]
dos = df.loc[df["Series"]=="II", :]
tres = df.loc[df["Series"]=="III", :]
cuatro = df.loc[df["Series"]=="IV", :]
cuatro.head()

In [None]:
# Antes...
cuatro.mean()

In [None]:
dos.mean()

In [None]:
#Ahora
agrupada=df.groupby("Series")
agrupada

In [None]:
agrupada.mean()

In [None]:
agrupada.var()

In [None]:
agrupada.corr()

¡Sorpresa! Pareciera que los datos son muy, pero muuuuuuuuy parecidos en cada categoría.

Pero, ¡los números nunca mienten!

Pues no...pero sí pueden ser engañosos.

Por eso, hay que **TORTURAR A LOS DATOS HASTA QUE CONFIESEN.**

Y la mejor forma de hacerlo, es visualizarlos gráficamente, para ver las historias que estos tienen por contarme...

Al trabajar con Pandas en Python, la forma más práctica de hacerlo es con la sublibrería *pyplot*, de *matplotlib*...

In [None]:
import matplotlib.pyplot as plt

¿Cómo funciona? Bueno, lo básico son dos pasos:
1. Ocupar una función de la librería para indicar _qué_ quiero mostrar.
2. Usar `plt.show()` para imprimir mi gráfico.

In [None]:
plt.scatter(uno["X"], uno["Y"])
plt.show()

In [None]:
plt.scatter(dos["X"], dos["Y"])
plt.show()

In [None]:
plt.scatter(tres["X"], tres["Y"])
plt.show()

In [None]:
plt.scatter(cuatro["X"], cuatro["Y"])
plt.show()

¡Los datos confesaron! ¡En realidad son muy distintos entre sí!

¿Cuál es la lección?

**ES IMPORTANTE VISUALIZAR MIS DATOS ANTES DE ANALIZARLOS.**

In [22]:
# También se puede graficar sin haber separado los datos...pero eso ya es tema de la siguiente lección...
plt.scatter(df["X"], df["Y"], df["Series"])
plt.show()

NameError: name 'df' is not defined