## Visualizacion
Usaremos en esta clase, el paquete `plotnine`

(https://plotnine.readthedocs.io)

In [None]:
from geopandas import *
import statsmodels.formula.api as sm
import matplotlib.pyplot as plt
from plotnine import *

Un ejemplo clásico de que la visualización es importante: _anscombe_

In [None]:
x = [10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 5]
y1 = [8.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68]
y2 = [9.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74]
y3 = [7.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73]
x4 = [8, 8, 8, 8, 8, 8, 8, 19, 8, 8, 8]
y4 = [6.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 12.50, 5.56, 7.91, 6.89]
anscombe = pd.DataFrame(list(zip(x,x,x,x4,y1,y2,y3,y4)),\
                        columns=['X1','X2','X3','X4','Y1','Y2','Y3','Y4'])
anscombe

Veamos unas estadísticas básicas:

In [None]:
anscombe.mean()

In [None]:
anscombe.std()

In [None]:
anscombe.corr()

In [None]:
sm.ols("Y4~X4", anscombe).fit().params

Miremos los datos en un gráfico

In [None]:
anscombe.plot(x='X1',y='Y1', kind='scatter')

Como vemos, visualizar los datos es una forma importante de análisis (cuando es posible), y para eso, estudiaremos un paquete especialmente diseñado para esto: **GGPLOT**

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point()

# The Grammar of Graphics



El paquete ggplot2 es un paquete basado en el paradigma de “The Grammar of Graphics” (Leland Wilkinson).

*“ggplot2 is a plotting system for R, based on the grammar of graphics, which tries to take the good parts of base and lattice graphics and none of the bad parts. It takes care of many of the fiddly details that make plotting a hassle (like drawing legends) as well as providing a powerful model of graphics that makes it easy to produce complex multi-layered graphics.”* (Hadley Wickham, creator, www.ggplot2.org)

En este paradigma, un grafico depende de 3 elementos:

1. Datos (DataFrame)
2. “Aesthetic” que describe como los datos se mapean a un atributo gráfico (color, forma, eje x-y, …)
3. Geometrías, que determinan como los valores se representan. (puntos, lineas, boxplot, …)

El comando `ggplot` permite hacer usar la gramática de gráficos, para visualizar datos. El formato es:
```
   ggplot (<DataFrame>, aes(<aesthetics>)) + geom_<geometria>()
```

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point()

Lo mas importante, los datos:

`data = anscombe`

Los  "aesthetic"  se especifican con `aes( )`
- `x = "X1"`  : la columna X1 es el eje x
- `y = "Y1"`  : la columna Y1 es el eje y

finalmente, le decimos que "geometría: utilizar.
pueden ser barras, lineas, puntos, etc.

`+ geom_point()`


 Esta es una diferencia crucial con otros paquetes de 
 dibujo que requiere aprender distintos comandos para cada tipo
 de dibujo.



In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_col()

Se pueden agregar atributos al gráfico (pero recordar que **no es lo que queremos** a priori)

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1')) + geom_point(color='red', size=20, shape=4)

In [None]:
ggplot(anscombe, aes(x='X1',y='Y1'))\
+ geom_point(color='red', size=20, shape=4)\
+ ggtitle('Ejemplo')

O guardarlo como una variable para despues usarlos (por ejemplo, grabarlos en un archivo)

In [None]:
miPlot = ggplot(anscombe, aes(x='X1',y='Y1'))+ geom_point() + ggtitle('Ejemplo')
miPlot
ggsave(miPlot, "miPlot.png")

o agregar elementos al grafico como un titulo, o etiquetas.

Usemos ahora otra base de datos:

In [None]:
iris = pd.read_csv("iris.csv")
iris

## Ejercicio 1:
Dibuje un gráfico de puntos (scatterplot) de *SepalLength* vs *PetalLength*

Agreguemos aesthetics: Por ejemplo, podemos agregar la información de la especie, como un color:

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "Species"))\
+ geom_point()

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength"))\
+  ggtitle("Iris Data") + geom_point(aes(color = "Species"))

Los `aestethics` de las geometrias re-escriben los de aestethics generales.

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "Species"))\
+  ggtitle("Iris Data") + geom_point(color="blue")

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "blue"))\
+  ggtitle("Iris Data") + geom_point(aes(color="Species"))

Esto es especialmente importante cuando usamos "capas" de un dibujo sobre otro.

Ejemplo:


In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength")) \
 + ggtitle("Iris Data") + geom_point() + geom_smooth()

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength")) \
 + ggtitle("Iris Data") + geom_point(aes(color = "Species")) + geom_smooth()

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "Species")) \
 + ggtitle("Iris Data") + geom_point() + geom_smooth()

## Ejercicio 2: 
cambiar el tamaño del dato de acuerdo a *PetalWidth*

Podemos ajustar la trasparencia (`alpha`) de un color para ver si hay puntos ocultos (o mostrar una nueva variable!)


Nota:  GGplot elige automaticamente basado en los datos como hacer los aesthetics.  Por ejemplo:

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "Species"))\
+ geom_point()

In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "SepalWidth"))\
+ geom_point()

### Mapas de colores:
(fuente: https://matplotlib.org/tutorials/colors/colormaps.html)


In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import cm
#from colorspacious import cspace_converter
from collections import OrderedDict

cmaps = OrderedDict()
cmaps['Perceptually Uniform Sequential'] = [
            'viridis', 'plasma', 'inferno', 'magma', 'cividis']

cmaps['Sequential'] = [
            'Greys', 'Purples', 'Blues', 'Greens', 'Oranges', 'Reds',
            'YlOrBr', 'YlOrRd', 'OrRd', 'PuRd', 'RdPu', 'BuPu',
            'GnBu', 'PuBu', 'YlGnBu', 'PuBuGn', 'BuGn', 'YlGn']
cmaps['Diverging'] = [
            'PiYG', 'PRGn', 'BrBG', 'PuOr', 'RdGy', 'RdBu',
            'RdYlBu', 'RdYlGn', 'Spectral', 'coolwarm', 'bwr', 'seismic']

cmaps['Cyclic'] = ['twilight', 'twilight_shifted', 'hsv']

cmaps['Qualitative'] = ['Pastel1', 'Pastel2', 'Paired', 'Accent',
                        'Dark2', 'Set1', 'Set2', 'Set3',
                        'tab10', 'tab20', 'tab20b', 'tab20c']

cmaps['Miscellaneous'] = [
            'flag', 'prism', 'ocean', 'gist_earth', 'terrain', 'gist_stern',
            'gnuplot', 'gnuplot2', 'CMRmap', 'cubehelix', 'brg',
            'gist_rainbow', 'rainbow', 'jet', 'turbo', 'nipy_spectral',
            'gist_ncar']

nrows = max(len(cmap_list) for cmap_category, cmap_list in cmaps.items())
gradient = np.linspace(0, 1, 256)
gradient = np.vstack((gradient, gradient))


def plot_color_gradients(cmap_category, cmap_list, nrows):
    fig, axes = plt.subplots(nrows=nrows)
    fig.subplots_adjust(top=0.95, bottom=0.01, left=0.2, right=0.99)
    axes[0].set_title(cmap_category + ' colormaps', fontsize=14)

    for ax, name in zip(axes, cmap_list):
        ax.imshow(gradient, aspect='auto', cmap=plt.get_cmap(name))
        pos = list(ax.get_position().bounds)
        x_text = pos[0] - 0.01
        y_text = pos[1] + pos[3]/2.
        fig.text(x_text, y_text, name, va='center', ha='right', fontsize=10)

    # Turn off *all* ticks & spines, not just the ones with colormaps.
    for ax in axes:
        ax.set_axis_off()


for cmap_category, cmap_list in cmaps.items():
    plot_color_gradients(cmap_category, cmap_list, nrows)

plt.show()


In [None]:
ggplot(iris, aes(x = "PetalLength", y = "SepalLength", color = "SepalWidth"))\
+ geom_point() + scale_color_cmap('hsv')

### Hubway

Volvamos a los datos de Hubway.  Carguemos los datos de las estaciones, y grafiquemos el resultado en el plano (como si fueran puntos).

In [None]:
dataStations = pd.read_csv("stations.csv", dtype={'id': 'category', 'name': 'string', 'lat': 'float64', 'lon': 'float64'})
dataStations

Grafiquemos las estaciones en el plano. 

In [None]:
ggplot(dataStations, aes(x='lng', y='lat')) + geom_point()

Podemos poner etiquetas (poco util si son muchos puntos):

In [None]:
ggplot(dataStations, aes(x='lng', y='lat')) + geom_point() + geom_label(aes(label='name', size=1))

### Usando mapas

Para mayor claridad, podemos usar un mapa. Por ejemplo, aca a partir de un *shapefile* de boston y Cambridge

[Fuente Boston](http://bostonopendata-boston.opendata.arcgis.com/datasets/142500a77e2a4dbeb94a86f7e0b568bc_9?geometry=-71.496%2C42.223%2C-70.617%2C42.401)

[Fuente Cambridge](https://www.cambridgema.gov/GIS/gisdatadictionary/Boundary/BOUNDARY_CDDNeighborhoods)

In [None]:
boston=GeoDataFrame.from_file('mapas/Boston_Neighborhoods.shp')
cambridge = GeoDataFrame.from_file('mapas/cambridge.shp')

In [None]:
ggplot() + geom_map(cambridge, fill='None') 

In [None]:
ggplot() + geom_point(dataStations, aes(x='lng', y='lat'))\
+ geom_map(boston, fill=None) + geom_map(cambridge, fill=None)

In [None]:
ggplot() + geom_point(dataStations, aes(x='lng', y='lat'))\
+ geom_map(boston, fill=None) + geom_map(cambridge, fill=None) \
+ coord_fixed(xlim=(-71.15,-71.02), ylim=(42.30,42.40),ratio=1.6)

Carguemos los datos de viajes:

In [None]:
dataTrips = pd.read_csv("trips_new.csv", dtype={'id': 'int64', 'duration': 'float64', 'start_date': 'object', 'start_station': 'category', 'end_date': 'object', 'end_station': 'category', 'bike_nr': 'category', 'subscription_type': 'category', 'zip_code': 'category', 'birth_date': 'float64', 'gender': 'category'})
dataTrips['start_date']=dataTrips['start_date'].astype('datetime64[ns]')
dataTrips['end_date']=dataTrips['end_date'].astype('datetime64[ns]')
dataTrips['duration']=dataTrips['duration']/60
dataTrips = dataTrips[dataTrips['duration']<24*60]
dataTrips=dataTrips.dropna(subset=['start_station', 'end_station'])
tmp1=pd.merge(dataTrips,dataStations,left_on='start_station', right_on='id')
finalData=pd.merge(tmp1,dataStations,left_on='end_station', right_on='id')
finalData

## Ejercicio 3:

Plotee las estaciones, pero donde el tamaño represente el número de viajes que iniciados desde cada estación.

## Otras geometrías de ggplot

Analicemos ahora los datos. Veamos a que hora se realizan los viajes. Para esto, usamos la geometría `Histogram`, que solo tiene un aesthetic: `x`.

Tomemos un subconjunto de 50000 viajes, para poder trabajar mas rápido

In [None]:
muestra = finalData.sample(50000)

In [None]:
muestra['hora_inicio']=muestra['start_date'].dt.hour
muestra['dia']=muestra['start_date'].dt.day_name()

In [None]:
muestra['dia']=muestra['dia'].astype('category').cat.reorder_categories(['Monday',  'Tuesday', 'Wednesday','Thursday','Friday','Saturday', 'Sunday'])


In [None]:
ggplot(muestra, aes(x='hora_inicio')) + geom_histogram(binwidth=1)

In [None]:
ggplot(muestra, aes(x='hora_inicio')) + geom_histogram(binwidth=1, color="black", fill="blue")

In [None]:
ggplot(muestra, aes(x='hora_inicio', fill="gender"))\
+ geom_histogram(binwidth=1, color="black")

In [None]:
ggplot(muestra, aes(x='hora_inicio', fill="gender"))\
+ geom_histogram(binwidth=1, color="black", position="dodge")

Aquí están graficados todos los datos agregados. Supongamos que queremos este gráfico pero para cada día de la semana. Podemos hacer multiples graficos separados usando `facet` (o sea, como un `groupby` de graficos)


In [None]:
ggplot(muestra, aes(x='hora_inicio')) \
+ geom_histogram(binwidth=1, color="black", fill="blue") \
+ facet_grid('dia~.')

## Ejercicio 4
Haga un histograma con la duración del viaje, con bins de 10 minutos, y separelo para cada tipo de subscripción.

Si no queremos que vaya uno sobre el otro, podemos 
fijar su posicion con `position = 'identity'`. 
(no olvidar usar trasparencia para verlo, `alpha=0.5`)

Histogramas son utiles, pero solo permiten explorar en una dimensión. Si queremos ver el dia y la hora simulateamente, podemos hacer histogramas de dos dimensiones.

In [None]:
ggplot(muestra, aes(x='hora_inicio', y='dia')) + geom_bin2d(bins=24) 


In [None]:
ggplot(muestra, aes(x='hora_inicio', y='dia')) + geom_bin2d(bins=24) \
+ scale_fill_gradient(low = "yellow", high = "red")




### Boxplot
Permite estudiar distintos parametros estadísticos de un conjunto de datos. La caja representa los datos en entre el primer y tercer cuantíl. Los puntos son outliers.
![Boxplot_vs_PDF.svg](attachment:Boxplot_vs_PDF.svg)

In [None]:
ggplot(muestra, aes(x='dia', y='duration')) + geom_boxplot()
    


y mucho mas...  

Mas ejemplos: [https://plotnine.readthedocs.io]