## Visualizacion
Usaremos en esta clase, el paquete `plotnine`

(https://plotnine.readthedocs.io)

In [None]:
#from geopandas import *
import statsmodels.formula.api as sm
import matplotlib.pyplot as plt
from plotnine import *

Un ejemplo clásico de que la visualización es importante: _anscombe_

In [None]:
x = [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5]
y1 = [8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68]
y2 = [9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74]
y3 = [7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73]
x4 = [8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8]
y4 = [6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89]
anscombe = pd.DataFrame(list(zip(x,y1,x,y2,x,y3,x4,y4)),\
                        columns=['X1','Y1','X2','Y2','X3','Y3','X4','Y4'])
anscombe

Veamos unas estadísticas básicas:

In [None]:
anscombe.mean()

In [None]:
anscombe.std()

In [None]:
anscombe.corr()

In [None]:
sm.ols("Y1~X1", anscombe).fit().params

Miremos los datos en un gráfico

In [None]:
anscombe.plot(x='X1',y='Y1', kind='scatter')

Visualizar los datos es una forma importante de análisis (cuando es posible), 
y para eso, usaremos un paquete diseñado para esto: **GGPLOT**

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point()

# The Grammar of Graphics



El paquete ggplot2 es un paquete basado en el paradigma de “The Grammar of Graphics” (Leland Wilkinson).

*“ggplot2 is a plotting system for R, based on the grammar of graphics, which tries to take the good parts of base and lattice graphics and none of the bad parts. It takes care of many of the fiddly details that make plotting a hassle (like drawing legends) as well as providing a powerful model of graphics that makes it easy to produce complex multi-layered graphics.”* (Hadley Wickham, creator, www.ggplot2.org)

En este paradigma, un grafico depende de 3 elementos:

1. Datos (DataFrame)
2. “Aesthetic” que describe como los datos se mapean a un atributo gráfico (color, forma, eje x-y, …)
3. Geometrías, que determinan como los valores se representan. (puntos, lineas, boxplot, …)

El comando `ggplot` permite hacer usar la gramática de gráficos, para visualizar datos. El formato es:
```
   ggplot (<DataFrame>, aes(<aesthetics>)) + geom_<geometria>()
```

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point()

Lo mas importante, los datos:

`data = anscombe`

Los  "aesthetic"  se especifican con `aes( )`
- `x = "X1"`  : la columna X1 es el eje x
- `y = "Y1"`  : la columna Y1 es el eje y

finalmente, le decimos que "geometría: utilizar.
pueden ser barras, lineas, puntos, etc.

`+ geom_point()`


 Esta es una diferencia crucial con otros paquetes de 
 dibujo (por ejemplo, matplotlib)
 que requiere aprender distintos comandos para cada tipo
 de dibujo.



In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_line()

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point(color='red', size=20, shape=4)

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point(color='red', size=20, shape=4) + ggtitle('Ejemplo')

O guardarlo como una variable para despues usarlos (por ejemplo, grabarlos en un archivo)

In [None]:
miPlot = ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point(color='red', size=20, shape=4)
ggsave(miPlot, "miPlot.png")

o agregar elementos (guías) al grafico en `Guide`, como un titulo, o etiquetas.

Tambien podemos exportarlo a un archivo con el comando `draw`.  

In [None]:
p=plot(anscombe, x=:X1, y=:Y1, Geom.point, Theme(default_color="red"), Guide.xlabel("Datos de X1"), Guide.title("Anscombe"))
draw(PDF("archivo.pdf", 10cm, 10cm),p)

Usemos ahora otra base de datos:

In [None]:
iris = pd.read_csv("iris.csv")
iris

## Ejercicio 1:
Dibuje un scatterplot de *SepalLength* vs *PetalLength*

Agreguemos aesthetics: Por ejemplo, podemos agregar la información de la especie, como un color:

Los `aestethics` de las geometrias re-escriben los de aestethics generales.

Esto es especialmente importante cuando usamos "capas" de un dibujo sobre otro.

Ejemplo:


## Ejercicio 2: 
cambiar el tamaño del dato de acuerdo a *PetalWidth*

Podemos ajustar la trasparencia (`alpha`) de un color para ver si hay puntos ocultos (o mostrar una nueva variable!)


Nota:  GGplot elige automaticamente basado en los datos como hacer los aesthetics.  Por ejemplo: