 # Sesion 5: Vizualizando


#######################################

## Matplotlib
Es la biblioteca de graficado científico más utilizada en Python.
* Comúnmente usa una sub-biblioteca llamada matplotlib.pyplot.
* Jupyter Notebook insertará los gráficos en el cuaderno si lo pedimos usando un comando "magico"
* Matplotlib es una biblioteca de gráficos excepcional, diseñada para la informática científica, con gráficos 2D y 3D de alta calidad.
* Salida en todos los formatos habituales (PDF, PNG, etc.)


In [None]:
# 1. Instalar la biblioteca Matplotlib
!pip install matplotlib

In [None]:
# 2. Importar la biblioteca
import matplotlib.pyplot as plt
# from matplotlib import pyplot as plt
#comando en Jupyer que fuerza la visualizacion de los graficos dentro del notebook
%matplotlib inline

## Line Plot

In [None]:
#El comando es plt.plot(x, y) pueden ser especificados como un argumento óptico
time = [0,1,2,3]
position= [0,100,200,300]

plt.plot(time, position)

## Personalizando el gráfico

In [None]:
time = [0, 1, 2, 3]
position = [0, 100, 200, 300]

plt.plot(time, position, marker="o", linestyle="--", color="r")

# crea nombres al eje x y eje y
plt.xlabel("time (hr)")
plt.ylabel("position (km)")

# crea el titulo
plt.title("time vs position")

plt.yticks([0, 100, 200, 300])

#muestra solo plot 
plt.show()

# Guarda el gráfico en un archivo
#plt.savefig('ejemplo1.png')

In [None]:
# Ejercicio


## Graficar datos directamente desde un dataframe de Pandas

* Esto usa implicitamente matplotlib.pyplot.
* Antes de graficar, convertimos las cabeceras de las columnas de una cadena a un tipo de dato entero, siendo que ellos representan valores numéricos.

In [None]:
import pandas as pd

data = pd.read_csv('data/gapminder_gdp_oceania.csv', index_col='country')
print(data)

In [None]:
# Extraer el año de los 4 últimos caracteres de cada nombre de columna
# Los nombres de columna actuales están estructurados como 'gdpPercap_(year)', 
# Entonces queremos mantener la parte del año (year) solo para claridad cuando grafiquemos PIB vs. años
# Para hacer esto, usamos strip(), el cual remueve de la cadena los caracteres declarados en el argumento 
# Este método funciona en cadenas, entonces llamamos str antes de strip()

years = data.columns.str.strip('gdpPercap_')

In [None]:
# Convierte los valores del año a enteros, 
# Guarda los resultados nuevamente en el Dataframe 

# sobreescribir nombres de columnas por una lista 
# con sus años correspondientes en numero entero 
data.columns = years.astype(int)
data.loc['Australia'].plot()

## Selecciona y transforma los datos y lo graficas.
* Por defecto, DataFrame.plot grafica con las filas como el eje X .
* Podemos transponer los datos para graficar multiples series.

In [None]:
data.T

In [None]:
data.T.plot()
plt.ylabel('PIB per capita')

## Bar Plot

In [None]:
x = ['Argentina', 'Bolivia', 'Colombia', 'Uruguay']
y = [44, 11, 50, 3]
plt.bar(x,y)
plt.show()

* Por ejemplo, se puede hacer un diagrama de barras usando un estilo mas elegante

## Varios Estilos de gráficos están disponibles
Las versiones más recientes de matplotlib permiten la aplicación de "estilos" que mejoran la apariencia de las gráficas creadas o que las modifican de forma tal que las hacen más amigables en ciertos entornos.

In [None]:
# Podemos comprobar los estilos disponibles con la instrucción 
plt.style.available

In [None]:
# Para usar un estilo, por ejemplo, "ggplot", basta ejecutar la siguiente instrucción:

plt.style.use('ggplot')
data.T.plot(kind='bar')
plt.ylabel('GDP per capita')


In [None]:
plt.style.use('seaborn')
data.T.plot(kind='bar')
plt.ylabel('GDP per capita')

# Los datos pueden ser también graficados llamando a la función plot de matplotlib directamente.

El comando es plt.plot(x, y)
El color / formato de los marcadores también pueden ser especificados como un argumento óptico: ejemplo. ‘b-‘ es una linea azul, ‘g--’ es una linea verde discontinua

### 1. Obtener datos de Australia desde el DataFrame

In [None]:
years = data.columns
gdp_australia = data.loc['Australia']

plt.plot(years, gdp_australia, 'g--')


In [None]:
# Ejercico 2. Obtener datos de New Zealand desd el DatFrame


### 2. Se puede trazar varios conjuntos de datos juntos.

In [None]:
# Selecciona el valor de los datos de dos países.
gdp_australia = data.loc['Australia']
gdp_nz = data.loc['New Zealand']

# Grafica con marcadores de diferentes colores.
plt.plot(years, gdp_australia, 'b-', label='Australia')
plt.plot(years, gdp_nz, 'g--', label='New Zealand')

# Crea leyenda "arriba a la izquierda"
plt.legend()

#Crea nombres al eje x, y
plt.xlabel('Year')
plt.ylabel('GDP per capita ($)')

## Añadiendo una Leyenda
A menudo, al trazar múltiples conjuntos de datos en la misma figura, es deseable tener una leyenda describiendo los datos.

Esto se puede hacer en matplotlib en dos etapas:

1. Provee una etiqueta por cada set de datos en la figura:
 - plt.plot(years, gdp_australia, label='Australia')
 - plt.plot(years, gdp_nz, label='New Zealand')

2. Instruye a matplotlib para que crea una leyenda.
plt.legend()

* Por defecto matplotlib intentara colocar la leyenda en una posición adecuada. Si preferirías especificar una posición se podría hacer con el argumento loc=, por ejemplo, para colocar la leyenda en la esquina superior izquierda de la gráfica, se puede especificar loc='upper left'

In [None]:
plt.plot(years, gdp_australia, 'b-', label='Australia') 
plt.plot(years, gdp_nz, 'g-', label='New Zealand')
plt.legend(loc='upper left')

## Diagrama de Dispersión (Scatterplot)
Se usa comúnmente para mostrar cómo dos variables se relacionan entre sí.
Una relación entre los puntos se muestra, algunas veces, como positiva, negativa, sólida o débil.


In [None]:
#Grafica un diagrama de dispersión que correlacione el PIB de Australia y Nueva Zelanda
# Utiliza plt.scatter 
plt.scatter(gdp_australia, gdp_nz)

In [None]:
# DataFrame.plot.scatter
data.T.plot.scatter(x = 'Australia', y = 'New Zealand', color='r')

## Minimo y Maximo
* Grafica el PIB mínimo per cápita a lo largo del tiempo para todos los países en Europa. 
* Modificalo de nuevo para graficar el PIB máximo per cápita a lo largo del tiempo para Europa.

In [None]:
data_europe = pd.read_csv('data/gapminder_gdp_europe.csv', index_col='country')
print(data_europe)

In [None]:
# GPP min y max
data_europe.min().plot(label='min')
data_europe.max().plot(label='max')
plt.legend(loc='best')
plt.xticks(rotation=90)


## Mas correlaciones
Este breve programa crea un gráfico que muestra la correlación entre el PIB y la esperanza de vida para 2007, normalizando el tamaño del marcador por población:

In [None]:
data_all = pd.read_csv('data/gapminder_all.csv', index_col='country')
print(data_all)

In [None]:
#Usando ayuda en línea y otros recursos, explica lo que hace cada argumento para plot.
data_all.plot(kind='scatter', x='gdpPercap_2007', y='lifeExp_2007', s=data_all['pop_2007']/1e6)
# NOTA: El parametro "s", usa el valor data_all['pop_2007']/1e6 para ue las esferas 
# tengan una visivilidad apropiada

# Guardar el grafico
#plt.savefig('my_figure1.png')

Un buen lugar para buscar es la documentación para la función plot - help(data_all.plot).

kind - Como ya se ha visto, esto determina el tipo de gráfico que se dibujará.

“x” e “y” - Un nombre de columna o índice que determina qué datos serán colocado en los ejes x e y del gráfico

s - Determina el tamaño de los puntos graficados. 

## Guardando tu gráfico en un archivo
Para guardar el grafico en un archivo. Hay una función en el módulo matplotlib.pyplot que cumple con esto: savefig

In [None]:
#Guarda el grafico en un archivo usando savefig. 
plt.savefig('my_figure.png')

Guardará la figura actual en el archivo my_figure.png. El formato de archivo se deducirá automáticamente de la extensión del nombre del archivo (otros formatos son pdf, ps, eps y svg).

## Gráficas accesibles
* Usa el parámetro fontsize en xlabel, ylabel, title, y legend, y tick_params con labelsize para aumentar el tamaño del texto de los números en sus ejes.
* Del mismo modo, usa s para aumentar el tamaño de los marcadores de tu diagrama de dispersión y linewidth para aumentar el tamaño de las líneas del trazado.
* Usar solo colores para distinguir entre diferentes elementos del gráfico hará que los trazados sean ilegibles para cualquier persona daltónica o que tenga una impresora en blanco y negro. 
* Para líneas, el parámetro linestyle permite utilizar diferentes tipos de líneas. 
* Para diagramas de dispersión, marker permite cambiar la forma de los puntos. 

# Puntos clave
* matplotlib es la biblioteca de generación de gráficos científicos más utilizada en Python.

* Grafica datos directamente desde un dataframe de Pandas.

* Selecciona y transforma datos, luego grafícalos.

* Muchos estilos de gráfico están disponibles: ve la [Galería de Gráficos](https://www.python-graph-gallery.com/matplotlib/) de Python para más opciones.

* Puedes graficar muchos conjuntos de datos juntos.

### Referencias
- [Leyendas](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.legend.html#matplotlib.pyplot.legend)
- [Markers, linestyle, colors](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html)