# $\Large \color{blue}{Introdução \, a \, Visualização \, de \, Dados\, com \,Python}$ 


## Aprenderemos como criar gráficos básicos usando [Pandas](https://pandas.pydata.org/) e as bibliotecas [Matplotlib](https://matplotlib.org/),  [Seaborn](https://seaborn.pydata.org/) e [Plotly](https://plot.ly/python/)


<img align="center" style="padding-right:0px;" src="ferramentas.jpg">
<!--BOOK_INFORMATION-->

In [None]:
from IPython.display import Video
Video("video.mp4")

# Pra não dizer que não falei das flores

<img align="left" style="padding-right:0px;" src="iris.png">

In [1]:
# Importando as bibliotecas do Python para manipulação de dados e plotagem de gráficos
#
import pandas as pd # biblioteca para criação e manipulaçõa de DataFrames
import numpy as np # cálculo algébrico
import matplotlib.pyplot as plt # visualizações dos dados
%matplotlib inline   
#
import seaborn as sns  # visualização mais elaborado
sns.set() # configuração padrão do Seaborn

In [None]:
# Instalando plotly
#
!pip install plotly

In [None]:
# Plotly para criação de gráficos interativos
#
import plotly.offline as py # mostrar o gráfico no notebook e salvar o resultado em um arquivo
#
import plotly.graph_objs as go  # gera os gráficos de fato: gráficos de line, barra, setores, etc
#
py.init_notebook_mode(connected=True)   # Plota os gráficos offline no Jupyter notebook
#
#plt.savefig('nome_arquivo.png')

# Importando o $dataset \, \color{red}{iris.csv}$ do repositório [UCI](https://archive.ics.uci.edu)

In [None]:
# Importando a base de dados "iris" do repositório "UCI"
# A url abaixo foi pesquisada no google
#
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
#
colunas=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
#
iris = pd.read_csv(url, names=colunas)

## Verificando as primeiras linhas do dataset

In [None]:
iris.head()

In [None]:
iris.describe()

# Gráfico de Barras

## •	Os gráficos de barras são usados para representar dados categóricos.

## •	Podem ficar confusos se houver muitas (mais de 10 p.e.) categorias.

## •	Geralmente o eixo $x$  representa as categorias e o eixo $y$ representa uma variável com a qual ele está relacionado. 

In [None]:
# Gráfico de barras vertical Matplotlib
# 
#
#plt.figure(figsize=(10,8))
plt.bar(iris['class'], iris['sepal_width'])
#plt.title('Distribuição da largura da sépala')
#plt.xlabel('Classes do dataset')
#plt.show()

In [None]:
# Gráfico de barras horizontal Matplotlib
# 
#plt.figure(figsize=(8,6))
plt.barh(iris['class'], iris['sepal_width'], color='red')
#plt.title('Distribuição da largura da sépala')
#plt.ylabel('Classes do dataset')
#plt.show()

## Usando Seaborn

In [None]:
# Gráfico de barras vertical Seaborn
#
#plt.figure(figsize=(10,6))
sns.barplot(x='class', y='petal_length',data=iris, ci=None)
#plt.title('Distribuição da largura da sépala')
#plt.xlabel('Classes do dataset')
#plt.ylabel('Largura da Sépala')
#plt.show()

## [Estação Meteorológica de Observação de Superfície Automática](http://www.inmet.gov.br/portal/index.php?r=estacoes/estacoesAutomaticas)

# Criando gráfico de barras com plotly

In [None]:
clima=pd.read_csv('clima.csv')

In [None]:
clima.head()

In [None]:
chuva = go.Bar(x = clima['hora'], y = clima['precipitacao'] , name = 'Precipitação')
data = [chuva]
py.iplot(data)

## Múltiplos gráfico de barras

In [None]:
umid_max = go.Bar(x = clima['hora'], y = clima['umid_max'], name = 'Umid. Máxima', marker = {'color': '#0f9ffa'})
umid_min = go.Bar(x = clima['hora'], y = clima['umid_min'], name = 'Umid. Mínima')
data = [umid_max, umid_min]
py.iplot(data)

## Empilhando barras (Stacked Bar)

In [None]:
trace1 = go.Bar(x = clima['hora'], y = clima['vento_vel'], name = 'Normal', marker = {'color': '#feca57'})
trace2 = go.Bar(x = clima['hora'], y = clima[' vento_rajada'], name = 'Rajada', marker = {'color': '#000fff'})
data = [trace1, trace2]
layout = go.Layout(title = 'Velocidade do Vento (com Rajadas)', xaxis = {'title': 'Hora do Dia'}, 
                   yaxis = {'title': 'Velocidade (km/h)'}, barmode = 'stack')
fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

#  Histograma

## O histograma também representa uma distribuição de dados através de barras. 

## • Na maioria das vezes usado com dados $\color{red}{numéricos \, contínuos}$. 

## • O eixo $x$ geralmente representa os intervalos e o eixo $y$ representa a frequência dos dados.

In [None]:
# Histograma com Matplotlib
# para dados categóricos
#
iris['class'].hist()
plt.show()

In [None]:
# Histograma com Matplotlib
# para um atributo contínuo específico
#
iris['sepal_length'].hist()
plt.show()

In [None]:
# Histograma com Matplotlib
# para todos os atributos contínuos do dataset
#
iris.hist()
plt.show()

In [None]:
# Vários Histogramas em uma mesma janela
#
iris.plot.hist(subplots=False, layout=(2,2), figsize=(10, 6), bins=15)
plt.show()

In [None]:
# Vários Histogramas em janela diferentes
#
iris.plot.hist(subplots=True, layout=(2,2), figsize=(10, 6), bins=15)
plt.show()

## Histograma $- distplot() -$ com $Seaborn$

In [None]:
#def distplot(dataframe, title, y):
plt.figure(figsize=(12,8))
sns.distplot(iris["sepal_width"], bins=10, kde=True, color='red')
plt.title('Distribuição da largura da sépala')
plt.xlabel('Largura da sépala(cm)')
plt.show()

# Gráfico de Linha
## •	Gráficos de linhas geralmente são usados para observações ocorridas ao longo do tempo e/ou a relação entre as variáveis. 

## •	O eixo $x$ pode representar o tempo, enquanto o eixo $y$ pode representar o que aconteceu a um atributo em relação ao tempo.

In [None]:
#clima

## Gráfico de linha com Pandas (Matplotlib)

In [None]:
#
temp=clima['temp_inst']
plt.figure(figsize=(12,8))
temp.plot.line(title='Variação da Temperatura em Manaus (05/03/2020)', color="green")
plt.xlabel('Hora do dia')
plt.ylabel('Temperatura (ºC)')

In [None]:
#
media_temperatura=clima['temp_inst'].sum() / 24 # calcula a média da temperatura ao longo do dia
#
x= np.arange(-1, 25)  # define o intervalo do eixo x para potar uma reta
#
plt.figure(figsize=(12,8))
temp.plot.line(title='Variação da Temperatura em Manaus (05/03/2020)', color="green")
plt.plot(x, media_temperatura*x**0, color='red',label='Média')
plt.xlabel('Hora do dia')
plt.ylabel('Temperatura (ºC)')

## Gráfico de linhas com Seaborn

In [None]:
#def distplot(dataframe, title, y):
temp=[clima['temp_min'],clima['temp_inst'],clima['temp_max']]
plt.figure(figsize=(14,8))
sns.lineplot(data=temp)
plt.xlabel('Hora do dia')
plt.ylabel('Temperatura (ºC)')

## Gráfico de linhas com plotly

In [None]:
# Gráfico de linhas com marcadores (única linha)
#
temperatura = go.Scatter(x = clima['hora'], y = clima['temp_inst'], mode = 'markers+lines', name = 'Temp. Inst.')
#
#
data=[temperatura]

py.iplot(data)

In [None]:
# Gráfico de linhas com marcadores (múltiplas linhas)
#
media_temp = (clima['temp_min'] + clima['temp_max']) /2    # Cálculo da média das temperaturas
#
temp_min = go.Scatter(x = clima['hora'], y = clima['temp_min'], mode = 'markers+lines', name = 'Temp. Mínima')
#
temp_inst = go.Scatter(x = clima['hora'], y = clima['temp_inst'], mode = 'markers+lines', name = 'Temp. Inst.')
#
temp_max = go.Scatter(x = clima['hora'], y = clima['temp_max'], mode = 'markers+lines', name = 'Temp. Máxima')
#
temp_media = go.Scatter(x = clima['hora'], y = media_temp, mode = 'markers+lines', name = 'Temp. Média')
#
data=[temp_min, temp_inst, temp_max, temp_media]

py.iplot(data)

# Gráficos de Dispersão - Scatter Plot

## •	Gráficos de dispersão são usados para visualizar a distribuição dos dados em relação a duas variáveis.

## •	Muito útil para observar a correlação entre as variáveis,

<img align="left" style="padding-right:0px;" src="correlacao.png">

In [None]:
### Scatter Plot
#
fig= plt.subplots(figsize=(15,8))
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris, hue="class")

In [None]:
# Importar scatter_matrix
#
from pandas.plotting import scatter_matrix
#
## PLotar o gráfico
#
fig, ax = plt.subplots(figsize=(16,14))
scatter_matrix(iris,ax=ax, color='red')
plt.show()

## Pairplot

In [None]:
#sns.pairplot(iris) 
sns.pairplot(iris, hue='class', size=3.5);

# Mapa de calor (Heatmap)
## •	 Os mapas de calor são muito usados para a observação da correlação entre atributos em um conjunto de dados

In [None]:
# Explicar em datalhes o gráfico abaixo
#
fig= plt.subplots(figsize=(10,6))
sns.heatmap(iris.corr(), annot=True)

In [None]:
# Explicar em datalhes o gráfico abaixo
#
fig= plt.subplots(figsize=(18,6))
sns.heatmap(clima.corr(), annot=True)

# Gráfico de Setores (Pizza)

## Relaciona as partes com o todo

<img align="center" style="padding-right:0px;" src="matematica_AM.jpg">

## [Kaggle - Predict survival on the Titanic and get familiar with ML basics](https://www.kaggle.com/c/titanic)

<img align="center" style="padding-right:10px;" src="titanic_kaggle.png">
<!--BOOK_INFORMATION-->

# Carregando o dataset $\color{red}{titanic.csv}$ baixado do Kaggle e pré-processado

In [None]:
titanic = pd.read_csv('train.csv')

In [None]:
titanic.head()

In [None]:
# Gráfico de setores com Pandas
# (autopct='%.2f%%') mostra a porcentagem
## (shadow=True) o gráfico fica sombreado
## (startangle=90) levemente inclinado
#
#
nclasses=titanic.Pclass.value_counts()
fig=plt.figure(figsize=(10,6))
nclasses.plot(kind='pie', autopct='%.2f%%', shadow=True, startangle=90)
plt.axis('equal')  # Para deixar o gráfico redondo
plt.title('Percentual de passageiros por Classe')
plt.show()

In [None]:
nsobreviventes=titanic.Survived.value_counts()
fig=plt.figure(figsize=(14,8))
nsobreviventes.plot(kind='pie', autopct='%.2f%%', shadow=True, startangle=90)
plt.axis('equal')  # Para deixar o gráfico redondo
plt.title('Percentual de passageiros que sobreviveram "0 => Não"  "1 => Sim"')
plt.show()

# Box Plot 

## •	 A "Caixa" (Box) inicia no 1º quartil (25% dos dados ordenados) e termina no 3º quartil ( 75% dos dados ordenados). A linha no interior do retângulo indica o valor da $\color{red}{mediana}$ (50% dos dados ordenados). Os dois $\color{red}{bigodes}$ na parte superior e inferior do retângulo são obtidos a partir da $\color{red}{amplitude}$ da caixa. 
## • Muito utilizado para a identificação de $\color{red}{outliers}$

<img align="center" style="padding-right:10px;" src="box1.jpg">

<img align="center" style="padding-right:10px;" src="box.png">

<img align="center" style="padding-right:10px;" src="box_.png">

In [None]:
# Box Plot com Pandas (Matplotlib)
fig=plt.figure(figsize=(12,8))
iris['sepal_width'].plot(kind='box', color='')
plt.show()

In [None]:
iris.sort_values(by=['sepal_width'])

In [None]:
iris['sepal_width'].max()

In [None]:
# Confirmar o valor da mediana
iris.median()

In [None]:
clima.columns

In [None]:
# Box Plot com Pandas (Matplotlib)
fig=plt.figure(figsize=(12,8))
clima[' vento_rajada'].plot(kind='box', color='')
plt.show()

In [None]:
clima['precipitacao'].max()
#clima[' vento_rajada'].max()
#clima['vento_vel'].mean()
#clima[' vento_rajada'].mean()

In [None]:
muita_chuva=clima[clima['precipitacao']==39.2]

In [None]:
muita_chuva

In [None]:
# Box Plot com Pandas (Matplotlib)
#
fig=plt.figure(figsize=(12,8))
titanic['Age'].plot(kind='box', color='')
plt.show()

In [None]:
# Box Plot com Seaborn
sns.catplot(x="Survived", y="Age", kind = "box", data=titanic, size=8)

# FactorPlot (Seaborn)

In [None]:
# Explicar os detalhes desse gráfico
#
sns.factorplot('Sex', 'Survived', hue='Pclass', size=7, aspect=2, data=titanic)
plt.xlabel('Sexo do passageiro')  #
#plt.title('Comparativo entre os sobreviventes por Sexo de acordo com a Classe em que viajava')
plt.ylabel('Percentual de sobreviventes')
plt.show()

# Outros usos de factorplot()

# Exoplanetas

# Dados dos planetas
## •	 Usaremos o conjunto de dados Planetas, disponível no pacote Seaborn
## •	 Fornece informações sobre planetas que os astrônomos descobriram em torno de outras estrelas (conhecidas como planetas extra-solares ou exoplanetas).

[<img align="left" style="padding-right:0px;" src="nsted_banner.jpg">](https://exoplanetarchive.ipac.caltech.edu/cgi-bin/TblView/nph-tblView?app=ExoTbls&config=planets)

In [None]:
# Carregar o dataset disponibilizado pelo Seaborn
#
# planetas = sns.load_dataset('planets')

In [None]:
# Arquivo baixado da nasa
#
# planets = pd.read_csv("planets_2020.02.29_20.45.43.csv", sep=',', comment='#')

In [None]:
# planets.head()

In [None]:
# Elimina coluna indesejada
#
#planets.drop('loc_rowid', axis=1, inplace=True)

In [None]:
#planets.columns

In [None]:
# Renomeia as colunas do dataset
#
# planets.columns=['nome','metodo_descoberta','num_plan_sist','periodo_orbita','distancia','massa','raio_terra', 'ano_descoberta',
# 'num_luas','link','data_publicacao']

In [None]:
# Ordena pelo ano da descoberta do planeta
#
#planets=planets.sort_values(by=['ano_descoberta'])

In [None]:
# Salva o arquivo pre-procesado
#
#planets.to_csv('planets_mar_2020.csv', index=False)

In [None]:
# Carrega o arquivo que já foi pre-processado
#
planetas=pd.read_csv('planets_mar_2020.csv')

In [None]:
planetas.shape

In [None]:
planetas.head()

In [None]:
planetas.sort_values(by='raio_terra')

In [None]:
gigantao=planetas[planetas['raio_terra']>40]

In [None]:
gigantao

# Voltando às visualizações...

In [None]:
# Usando o método factorplot do Seaborn
#
grafico = sns.factorplot("ano_descoberta", data=planetas, aspect=3, kind="count", color='steelblue')
grafico.set_xticklabels(step=1)
plt.show()

# Verificando o método de descoberta de cada um desses planetas:

In [None]:
# Variar o parâmetro "aspect"
#
grafico = sns.factorplot("ano_descoberta", data=planetas, aspect=2.0, kind='count', hue='metodo_descoberta', 
                         order=range(2019, 2020))
grafico.set_ylabels('Quantidade de Planetas Descobertos')
grafico.set_xlabels('Ano da Descoberta do Planetas')

# Gráfico do Violino (Violin Plot) 
## • Combina "KDE" (Estimativa da Densidade do Kernel) com Boxplot
## • Melhor descrição da distribuição dos valores. 
## • Os valores dos quartis são exibidos dentro do violino. 

### Age x Survived

In [None]:
fig = plt.figure(figsize=(18,8))

sns.violinplot(x="Pclass", y="Age", hue="Survived", data=titanic)

A partir do gráfico $violinplot$ para o atributo Pclass (Classe), podemos ver que:

- A 1ª classe bem menos crianças em comparação com as outras duas classes.
- A 1ª classe tem mais idosos do que as outras duas classes.
- Quase todas as crianças (entre 0 e 10 anos) da 2ª classe sobreviveram.
- A maioria das crianças da 3ª classe sobreviveu.
- Tiveram mais sobreviventes mais jovens na 1ª Classe que sobreviventes mais velhos.

In [None]:
fig = plt.figure(figsize=(18,8))

sns.violinplot(x="Sex", y="Age", hue="Survived", data=titanic)