# PLOTNINE - GGPLOT

In [None]:
import pandas as pd

df = pd.read_table('iris.data', sep=',', header = None)
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 
              'petal_width', 'type']

# Primeras observaciones
df.head()

In [None]:
# Principales estadísticas
df.describe()

In [None]:
# Filas x columnas
df.shape

### Instalación previa de plotnine

**pip install plotnine**

In [None]:
from plotnine import *

## Elementos básicos

Plotnine sique la misma filosofía que gglpot, es decir, trabajar en capas, es decir, primero definimos con la función <code>**ggplot**</code> el set de datos con el que trabajaremos y posteriormente iremos añadiendo más capas en las que incluiremos la variable o variables a mostrar, el tipo de gráfico, color, elementos estéticos como etiquetas, títulos etc...

Mostramos un par de ejemplos básicos, primero un histograma, solamente necesita una componente para poder mostrarse y, posteriormente una nube de puntos que necesita compoenentes x e y para poder visualizarse correctamente.

Cualquier categoría de un gráfico vendrá dada por el prefijo **geom__** y la categoría de la visualización **geom_histogram** o **geom_points**

In [None]:
(
    ggplot(df) +
     geom_histogram(aes(x='petal_width'))
)

In [None]:
(
    ggplot(df) +
     geom_histogram(aes(x='petal_width'), bins = 20)
)

In [None]:
(
    ggplot(df) +
     geom_point(aes(x='petal_width', y = 'sepal_width'))
)

## Modificando el color

Vemos que, si no especificamos nada, automáticamente toma los nombres de las variables como etiquetas x e y, probaremos a agregar color a las visualizaciones.

In [None]:
(
    ggplot(df) +
     geom_histogram(aes(x='petal_width'), color = 'blue')
)

In [None]:
(
    ggplot(df) +
     geom_point(aes(x='petal_width', y = 'sepal_width'), color = 'red')
)

Vemos que el efecto en el histograma no es el deseado, ya que toma por defecto el parámetro color el borde del histograma, en este caso tenemos que tener cuidado, cuando haya dos componentes diferentes de color existirán al menos: **color** y **fill**.

In [None]:
(
    ggplot(df) +
     geom_histogram(aes(x='petal_width'), color = 'blue', 
                    fill = 'lightgreen')
)

## Parámetros de una capa

Del mismo modo, podemos encontrar aún más elementos estéticos dentro de la capa histograma.

In [None]:
(
    ggplot(df) +
     geom_histogram(aes(x='petal_width'), 
                    color = 'blue', 
                    fill = 'lightgreen', 
                    alpha = 0.2, 
                    linetype='solid')
)

In [None]:
(
    ggplot(df) +
     geom_histogram(aes(x='petal_width'), 
                    color = 'blue', 
                    fill = 'lightgreen', 
                    alpha = 0.8, 
                    linetype='dashed')
)


## Añadiendo texto

Para agregar elementos textuales a una visualización, también utilizaremos nuevas, en este caso <code>**labs**</code>, que podemos agregarle algunos elementos:
* title
* x
* y
* color (sólo cuando hay disponible leyenda).


In [None]:
(
    ggplot(df) +
     geom_point(aes(x='petal_width', y = 'sepal_width'), 
                color = 'tomato',
               alpha=1,
               shape='^',
               size = 5,
               stroke = 0.2) +
    labs(title='Anchura de pétalo y sépalo', 
         x = 'Anchura Pétalo',
         y = 'Anchura Sépalo')
)


## Categorías como color

Una vez vistos los principales elementos descriptivos que podemos agregar a una gráfica, mostraremos cómo mostrar gradientes de color o cómo mostrar una gráfica en base a una etiqueta o variable categórica. En este caso, tenemos la variable 'type'

In [None]:
df['type'].unique()

Nos devuelve tres tipos diferentes, por lo que podemos mostrar cualquier observación de nuestro dataset en base a qué tipo representa. Cuando queramos representar el color en base a una variable categórica, tenemos que mover el parámetro <code>**color**</code> dentro de la capa aesthetics (aes)

In [None]:
(
    ggplot(df) +
     geom_point(aes(x='petal_width', y = 'sepal_width', color = 'type'),
               alpha=1,
               shape='.',
               size = 5,
               stroke = 0.2) +
    labs(title='Anchura de pétalo y sépalo', 
         x = 'Anchura Pétalo',
         y = 'Anchura Sépalo',
         color = 'Tipo')
)


Otro gráfico interesante, es el diagrama de barras, para realizarlo, simplemente añadimos como capa <code>**geom_bar**</code>

In [None]:
(ggplot(df)         
 + aes(x='petal_length')   
 + geom_bar() 
)

In [None]:
(ggplot(df)         
 + aes(x='petal_length', fill = 'type')   
 + geom_bar(color = 'black', alpha = 0.6, show_legend=False) 
 + coord_flip() 
)

## Estadísticas en los gráficos

Otra funcionalidad interesante es la mostrar estadísticas en las visualizaciones. Para ello existen principalmente dos funciones para mostrar líneas verticales u horizontales en función de un parámetro estadístico:
* <code>**geom_vline**</code> recibe como parámetro **xintercept**
* <code>**geom_hline**</code> recibe como parámetro **yintercept**

In [None]:
(ggplot(df)         
 + aes(x='petal_length', fill = 'type')   
 + geom_bar(color = 'black', alpha = 0.6, show_legend=True) 
 + geom_vline(aes(xintercept = df.petal_length.mean()), color = 'red',
             linetype = 'dashed')
  + geom_vline(aes(xintercept = df.petal_length.median()), color = 'blue',
             linetype = 'solid')

)

## Un gráfico por categoría.

Uno de los elementos más potentes de ggplot es la capacidad de generar tantos gráficos de una variable como categorías tenga la variable que queramos explicar, esto es lo que se conoce como facet wraps, para ello utilizamos una función con el mismo nombre que recibirá como parámetro el número de categorías <code>**facet_wrap**</code>

In [None]:
(ggplot(df)         
 + aes(x='petal_length', fill = 'type')   
 + geom_bar(color = 'black', alpha = 0.6, show_legend=True) 
  + geom_vline(aes(xintercept = df.petal_length.mean()), color = 'red',
             linetype = 'dashed')
  + geom_vline(aes(xintercept = df.petal_length.median()), color = 'blue',
             linetype = 'solid')
 + facet_wrap('~type', ncol = 2)
 + labs(
     x = 'Longitud de pétalo',
     y = 'Valores',
     title = 'Diagrama de barras por tipo'
 )
 

)

## Añadiendo regresión lineal entre variables

Ya hemos visto cómo crear nubes de puntos, desde ggplot, también existe la posibilidad de incluir en la misma gráfica una recta de ajuste y su *smooth*, esto lo realizamos a través de una nueva capa <code>**geom_smooth**</code>

En esta gráfica además mostraremos cómo añadir un gradiente de color mediante el comando **fill**, en este caso en lugar de una variable categórica, utilizaremos una contínua.

In [None]:
(
    ggplot(df) +
     geom_point(aes(x='petal_width', y = 'petal_length', 
                    fill = 'petal_width'),
               alpha=0.5,
               shape='o',
               size = 2,
               stroke = 0.2) 
    + geom_smooth(
        aes(x='petal_width', y = 'petal_length')
    )
    + labs(title='Anchura y altura del pétalo', 
         x = 'Anchura Pétalo',
         y = 'Altura Sépalo')
)


Al igual que en variables categóricas podemos hacer *facetting*

In [None]:
(
    ggplot(df) +
     geom_point(aes(x='petal_width', y = 'petal_length', fill = 'petal_width'),
               alpha=0.5,
               shape='o',
               size = 2,
               stroke = 0.2) 
    + geom_smooth(
        aes(x='petal_width', y = 'petal_length')
    )
    + labs(title='Anchura y altura del pétalo', 
         x = 'Anchura Pétalo',
         y = 'Altura Sépalo')
    + facet_wrap('~petal_width', ncol = 4)
)


## Diagrama de caja y bigotes

In [None]:
(
    ggplot(df) 
    + geom_boxplot(
        aes(x='petal_width', y = 'petal_length', fill = 'type'),  
        alpha=0.4, 
        outlier_alpha = 1, 
        outlier_color ='red'
     )
    + labs(title='Anchura y altura del pétalo', 
         x = 'Anchura Pétalo',
         y = 'Altura Sépalo',
         fill  = 'Ancho Pétalo')
)


### Ejercicio 1

Toma el dataset vgsales y realiza un Análisis Exploratorio de Datos (**EDA**):

NOTA: Información adicional sobre vgsales https://www.kaggle.com/gregorut/videogamesales

1. Carga el csv como un dataframe
2. Revisa la codificación de las variables
3. ¿En qué años se publicaron más videojuegos?, muestralo tanto de forma numérica como visual
4. Muestra visualmente cómo se distribuyeron los géneros de los videojuegos a lo largo de los años.
5. Muestra un histograma sobre el volumen de ventas en el mercado Europeo.
6. Obtén una muestra del dataframe que esté delimitada por el volumen de ventas medio en Europa.
7. Repite el histograma sobre el volumen de ventas en Europa. ¿Qué conclusiones puedes extraer una vez que han sido borrados los outliers?
8. Muestra cómo se distribuye el volumen de ventas en Europa, con el dataset filtrado por cada uno de los géneros.
9. Muestra visualmente el número de publicaciones para cada año.

### 1. Carga el csv como un dataframe

In [None]:
# Leemos el dataset con información de videojuegos
games = pd.read_csv('vgsales.csv')

In [None]:
games.head()

### 2. Revisa la codificación de las variables

In [None]:
# Mostramos la información del dataset
games.info()

In [None]:
# Recodificamos las categóricas
for column in ['Platform', 'Genre', 'Publisher']:
    games[column] = pd.Categorical(games[column])

In [None]:
# Resumen estadístico de variables categóricas
games.describe(include='category')

In [None]:
# Resumen estadístico de variables numéricas
games.describe()

### 3. ¿En qué años se publicaron más videojuegos?, muestralo tanto de forma numérica como visual

In [None]:
# Visual
(
    ggplot(games) +
     geom_histogram(aes(x='Year'), fill = 'darkgreen', color = 'blue', alpha = 0.6 )
)

In [None]:
# De forma numérica
games.Year.value_counts()

Se publicaron más videojuegos entre 2009 y 2008

### 4. Muestra visualmente cómo se distribuyeron los géneros de los videojuegos a lo largo de los años.

In [None]:
(ggplot(games)         
 + aes(x='Year', fill = 'Genre')   
 + geom_bar(color = 'black', alpha = 0.6) 
)

In [None]:
(ggplot(games)         
 + aes(x='Year', fill = 'Genre')   
 + geom_bar(color = 'black', alpha = 0.6) 
) + facet_wrap('~Genre', ncol =4 )

Los videojuegos más publicados han sido los de acción y deportes.

### 5. Muestra un histograma sobre el volumen de ventas en el mercado Europeo.

In [None]:
(ggplot(games)         
 + aes(x='EU_Sales')   
 + geom_histogram(color = 'black') 
)

### 6. Obtén una muestra del dataframe que esté delimitada por el volumen de ventas medio en Europa como máximo.

In [None]:
games_eu_filtered = games.copy()

In [None]:
# Filtramos por media del mercado europeo
games_eu_filtered = games_eu_filtered[ (games_eu_filtered.EU_Sales <= games_eu_filtered.EU_Sales.mean())]

In [None]:
games_eu_filtered.describe()

### 7. Repite el histograma sobre el volumen de ventas en Europa. ¿Qué conclusiones puedes extraer una vez que han sido borrados los outliers?

In [None]:
(ggplot(games_eu_filtered)         
 + aes(x='EU_Sales')   
 + geom_histogram(color = 'black', fill = 'lightblue' )
)

Hay casi 6000 videojuegos (en esta muestra), con un volumen de ventas muy poco por encima de 100K unidades vendidas

### 8. Muestra cómo se distribuye el volumen de ventas en Europa, con el dataset filtrado por cada uno de los géneros.

In [None]:
(
    ggplot(games_eu_filtered) 
    + geom_boxplot(
        aes(x='Genre', y = 'EU_Sales', fill = 'Genre'),  
        outlier_alpha = 0.5, 
        outlier_color ='blue'
     )
    + labs(title='Ventas en Europa por género', 
         x = 'Género',
         y = 'Veolumen de ventas',
         fill = 'Género')
)


### 9. Muestra visualmente el número de publicaciones para cada año.

In [None]:
ventas_anio = games.groupby(['Year', 'Platform'])['Platform'].count()
ventas_anio

In [None]:
ventas_anio = ventas_anio.reset_index(name='counts')
ventas_anio

In [None]:
(
    ggplot(data=ventas_anio)
    + geom_line(
          aes(x='Year', 
              y='counts', 
              color='Platform') 
    )
    + labs(title='Publicaciones por plataforma y año', 
         x = 'Año',
         y = 'Nº Publicaciones',
         fill = 'Plataforma')
         
)