# **TALLER INTRODUCTORIO A PYTHON**

# Sesión 2 - "Visualización de datos en Python" 
Este taller introductorio está dirigido a estudiantes de la Universidad Nacional Toribio Rodríguez de Mendoza de Amazonas y aborda los fundamentos para el desarrollo de habilidades de programación con Python. El objetivo es otorgar los conocimientos fundamentales al estudiante sobre la estructuración del contenido, las mecánicas de funcionamiento y las capacidades de Python como herramienta para la investigación cuantitativa en la ciencia de datos. 

#### Fecha:
12 de julio
#### Duración: 
3.50pm- 5:50pm
#### Instructores: 
Esteban Cabrera (esteban.cabrera@pucp.edu.pe)

Michael Encalada (michael.encalada@pucp.edu.pe)

## Índice

- <a href='#t10'>10. Visualizacion de datos en Python</a>
     - <a href='#10.1.'>10.1. Visualizacion con Matplotlib</a>
     - <a href='#10.2.'>10.2. Plot de linea</a>
     - <a href='#10.3.'>10.3. Plots de Area</a>


# <font color=blue>10. Visualizacion de datos en Python </font>


In [1]:
import pandas as pd
import numpy as np

Montar el drive para poder acceder a nuestros archivos.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

In [None]:
data = pd.read_excel('/content/Terminos_tiempo.xlsx')
data.head()

In [None]:
data.tail()

In [None]:
data.info()

In [None]:
data.describe()

## Resaltando Máximos y Minimos con colores

In [None]:
data.style.highlight_max(color='green').highlight_min(color='red')

funcion <b>background_gradient()</b>para pintar las celdas con un color de acuerdo a su valor. Existe varios mapas de colores disponibles (https://matplotlib.org/gallery/color/colormap_reference.html)

In [None]:
data.style.background_gradient(subset=['data science', 'machine learning'], cmap='BuGn')

In [None]:
data.style.background_gradient(subset=['data science'], cmap='BuGn').background_gradient(subset=['machine learning'], cmap='Greys')

## Usando barras para mostrar valores de tablas

In [None]:
data.style.bar(color='green', subset=['data science', 'deep learning'])

In [None]:
df_estilizado = data.style.format({'Mes':'{:%m/%Y}'}).background_gradient(subset=['data science'], cmap='BuGn').bar(color='red', subset=['deep learning']).background_gradient(subset=['machine learning'], cmap='plasma')
df_estilizado

In [None]:
df_estilizado.to_excel('prueba.xlsx')

<a name='matplotlib'></a>
# <font color=blue>Visualizacion con Matplotlib</font>

<b>matplotlib.pyplot</b> provee una colección de funciones al estilo de comandos. Cada función de pyplot realiza algún cambio en una figura

In [None]:
import matplotlib.pyplot as plt

## Plot de linea

In [None]:
data = pd.read_excel('/content/Terminos_tiempo.xlsx')
plt.figure(figsize=(8,4))
plt.plot( data['Mes'], data['data science'] )
plt.show()

In [None]:
plt.figure(figsize=(8,4))
plt.plot(data['Mes'], data['data science'], label='data science')
plt.title('Popularidad de Terminos Buscados por fecha')
plt.xlabel('Fecha')
plt.ylabel('Popularidad')
plt.grid(True)
plt.legend()
plt.show()

### Ploteando multiples variables  


In [None]:
plt.figure(figsize=[10,8])
plt.plot(data['Mes'], data['data science'], label='data science', color='black',linestyle='dashed', linewidth=4)
plt.plot(data['Mes'], data['machine learning'], label='machine learning')
plt.plot(data['Mes'], data['deep learning'], label='deep learning')
plt.title('Popularidad de Terminos Buscados por fecha')
plt.xlabel('Fecha')
plt.ylabel('Popularidad')
plt.grid(True)
plt.legend()
plt.savefig('grafico.pdf')
plt.show()

### Ploteando directamente un Dataframe

Dataframes tienen el metodo .plot() que plotea sus columnas con respecto a su indice

In [None]:
data1 = data[['data science', 'machine learning', 'deep learning']]
data1.index = data['Mes']
data1.head()

In [None]:
data1.plot(figsize=(10,8))
plt.title('Popularidad de Terminos Buscados por fecha')
plt.xlabel('Fecha')
plt.ylabel('Popularidad')
plt.grid(True)
plt.legend()
plt.show()

## Plots de Area

In [None]:
data = pd.read_excel('ImmigrantsCanada.xlsx', sheet_name='Canada by Citizenship' )
data

In [None]:
data.columns

In [None]:
data.columns = list(map(str, data.columns))
data.columns

In [None]:
data.set_index('Country', inplace=True)
data.head()

In [None]:
data['Total'] = data.sum(axis=1)
data.head(3)

In [None]:
years = list(map(str, range(1980, 2014)))
print(years)

In [None]:
data.sort_values(by='Total', ascending=False, axis=0, inplace=True)
data_top5 = data[years].head(5)
data_top5

In [None]:
data_top5 = data_top5.transpose()
data_top5.head()

In [None]:
data_top5.plot( figsize= [12,8] )
plt.title('Evolucion de Inmigracion a Canada de los 5 paises mas aportan inmigrantes',fontdict={'fontsize':16})
plt.xlabel('Año')
plt.ylabel('Numero de Inmigrantes')
plt.grid(True)
plt.show()

In [None]:
data_top5.plot(kind='area', stacked=True, figsize=(15, 8), alpha=0.2)
plt.title('Evolucion de Inmigracion a Canada de los 5 paises mas aportan inmigrantes')
plt.ylabel('Numero de Inmigrantes')
plt.xlabel('Año')
plt.grid(True)
plt.show()

## Plot de barras

* <b>kind=bar</b> a la funcion plot  genera un plot de barras verticales.  
* <b>kind=barh</b> a la funcion plot  genera un plot de barras horizontales.

### Barras verticales

In [None]:
data

In [None]:
data_haiti = data.loc['Haiti', years]
data_haiti.head()

In [None]:
data_haiti.plot(kind='bar', figsize=(12, 6))
plt.xlabel('Año')
plt.ylabel('Numero de Inmigrantes')
plt.title('Inmigrants de Haiti hacia Canada entre 1980 a 2013')
plt.show()

In [None]:
data_haiti_peru = data.loc[['Haiti', 'Peru'], years]
data_haiti_peru.head()

In [None]:
data_haiti_peru.plot(kind='bar', figsize=(12, 6) )
plt.show()

In [None]:
data_haiti_peru = data_haiti_peru.transpose()

In [None]:
data_haiti_peru.plot( kind='bar', figsize=(12, 6) )
plt.xlabel('Año')
plt.ylabel('Numero de Inmigrantes')
plt.title('Inmigrants de Haiti y Peru hacia Canada entre 1980 a 2013')
plt.grid()
plt.show()

### Barras horizontales

In [None]:
data.sort_values(by='Total', ascending=False, inplace=True)
data_top10 = data['Total'].head(10)
data_top10

In [None]:
data_top10.plot(kind='barh', figsize=(12, 12), color='steelblue', )
plt.xlabel('Numero de Inmigrantes')
plt.title('10 Paises que mas contribuyen a la Inmigración a Canada entre 1980 - 2013')
plt.show()

In [None]:
data_top10.sort_values( ascending=True, inplace=True)
data_top10.plot(kind='barh', figsize=(12, 12), color='steelblue', )
plt.xlabel('Numero de Inmigrantes')
plt.title('10 Paises que mas contribuyen a la Inmigración a Canada entre 1980 - 2013')
plt.show()

## Pie Plots

In [None]:
data

In [None]:
data_continents = data.groupby('Continent').sum()
data_continents

In [None]:
data_continents['Total'].plot(kind='pie',
                              figsize=(5, 6),
                              autopct='%.1f%%',
                              startangle=90,
                              shadow=False )

plt.title('Inmigraciona a Canada por Continente entre 1980 - 2013')
plt.axis('equal')
plt.show()

## Scatter Plots

In [None]:
data_insurance = pd.read_csv('Insurance.csv')
data_insurance

In [None]:
data_insurance.isnull().values.any()

In [None]:
data_insurance.info()

In [None]:
data_insurance.plot(kind='scatter', x='age', y='charges', figsize=(10, 6), color='darkblue')

plt.title('Scatter plot: Prima de seguro de salud vs edad ')
plt.xlabel('Edad')
plt.ylabel('Prima de seguro')
plt.show()

## Histogramas

In [None]:
data_insurance['age'].plot(kind='hist', bins=20, figsize=(8, 6))
plt.title('Histograma de la edad de los usuarios')
plt.ylabel('conteo')
plt.xlabel('edad')
plt.show()

In [None]:
data_insurance['bmi'].plot(kind='hist', bins=50, figsize=(8, 6))
plt.title('Histograma del BMI')
plt.ylabel('conteo')
plt.xlabel('bmi')
plt.show()

## Plot de Densidad

In [None]:
data_insurance['bmi'].plot(kind='density', figsize=(8,6))
plt.title('Plot de densidad del BMI')
plt.ylabel('densidad')
plt.xlabel('bmi')
plt.show()

## Plot de Matriz de Correlaciones

In [None]:
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data_diabetes = pd.read_csv(filename, names=names)
data_diabetes.head()

In [None]:
correlations = data_diabetes.corr( )
correlations

In [None]:
correlations.style.background_gradient()