## 5. Visualização de dados


A apresentação dos dados estatísticos através de tabelas ou medidas de centralidade e
variabiliadade nem sempre proporciona um entendimento adequado dos dados. Assim,
com a finalidade de melhorar esse processo, muitos recorrem ao uso dos gráficos. Para
isso, é necessário saber o que se pretende mostrar, como elaborar o gráfico e qual o tipo de
gráfico mais apropriado para cada tema abordado.

### 5.1 Import

In [None]:
import pandas as pd
import seaborn as sns
import time
import libs.utils as utl

### 5.2 Carregando o dataset

In [None]:
#carrengo o dataset
meu_data_frame = pd.read_csv("../data/cereal.csv")

#criando versoes normalizada e padronizada do dataset
meu_data_frame_norm = utl.normalize_dataset(meu_data_frame)
meu_data_frame_stda = utl.standarlize_dataset(meu_data_frame)

print("bruto")
display(meu_data_frame.head())

print("normalizado")
display(meu_data_frame_norm.head())

print("padronizado")
display(meu_data_frame_stda.head())

### 5.3 Gráficos de barra

No gráfico de barras, cada categoria é representada por uma barra de comprimento proporcional à sua frequência, conforme identificação no eixo horizontal.

In [None]:
#histograma
print("bruto")
sns.displot(meu_data_frame, x="calories")

print("normalizado")
sns.displot(meu_data_frame_norm, x="calories_norm")

print("padronizado")
sns.displot(meu_data_frame_stda, x="calories_stda")

In [None]:
#frequencia de um atributo em barras de cores diferentes
print("bruto")
sns.catplot(data=meu_data_frame, kind="count", x='type')

In [None]:
#exibindo a frquencia de calorias agrupando pelo tipo

print("bruto")
sns.catplot(data=meu_data_frame, hue="type", kind="count", x='calories', aspect=2)

print("normalizado")
sns.catplot(data=meu_data_frame_norm, hue="type", kind="count", x='calories_norm', aspect=2).set_xticklabels(rotation=90)

print("padronizado")
sns.catplot(data=meu_data_frame_stda, hue="type", kind="count", x='calories_stda', aspect=2).set_xticklabels(rotation=90)

In [None]:
#agora agrupando pelo rating

sns.catplot(data=meu_data_frame, hue="rating", kind="count", x='calories', aspect=2, palette="cool")
#matplot color pallete https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html

### 5.4 Gráficos de linha

In [None]:
print("bruto")
sns.relplot(data=meu_data_frame['rating'], kind="line",  palette="cool", aspect=2)

print("normalizado")
sns.relplot(data=meu_data_frame_norm['rating_norm'], kind="line",  palette="cool", aspect=2)

print("padronizado")
sns.relplot(data=meu_data_frame_stda['rating_stda'], kind="line",  palette="cool", aspect=2)

In [None]:
#exibindo o gráfico de linha usando dois atributos do domínio

print("bruto")
sns.relplot(data=meu_data_frame, x='calories', estimator=None, kind="line", y="sugars", palette="cool")

In [None]:
#usando o interpolador

print("bruto")
sns.relplot(data=meu_data_frame, x='calories', kind="line", y="sugars", palette="cool")

### 5.5 Gráficos de disperssão

Gráficos de Dispersão são utilizados para pontuar dados em um eixo vertical e horizontal com a intenção de exibir quanto uma variável é afetada por outra.

In [None]:
print("bruto")
sns.catplot(data=meu_data_frame, aspect=2) #kind="swarm"

print("normalizado")
sns.catplot(data=meu_data_frame_norm, aspect=2).set_xticklabels(rotation=90)

print("padronizado")
sns.catplot(data=meu_data_frame_stda, aspect=2).set_xticklabels(rotation=90)

In [None]:
#gráfico de dispersão com dois atributos "calories" e "sugars" onde cada amostra esta marcada pelo atributo "rating"

print("bruto")
sns.relplot(data=meu_data_frame, x='calories', y="sugars", hue="rating", palette="cool")


print("normalizado")
sns.relplot(data=meu_data_frame_norm, x='calories_norm', y="sugars_norm", hue="rating_norm", palette="cool")


print("padronizado")
sns.relplot(data=meu_data_frame_stda, x='calories_stda', y="sugars_stda", hue="rating_stda", palette="cool")


### 5.6 Diagramas de caixa

Um boxplot (diagrama de caixa) é um gráfico apresentado em formato de caixa, em que a aresta inferior da caixa representa o primeiro quartil (Q1), a aresta superior representa o terceiro quartil (Q3) e um traço interno à caixa representa a mediana (Q2) de uma amostra.

* Limite Inferior = Primeiro Quartil – 1,5 * (Terceiro Quartil – Primeiro Quartil)
* Limite Superior = Terceiro Quartil + 1,5 * (Terceiro Quartil – Primeiro Quartil)

<img src="imgs/box.png" width=40% />

In [None]:
print("bruto")
sns.boxplot(data=meu_data_frame, orient="h", order=['protein', 'sugars','fat','calories'])

#print("normalizado")
#sns.boxplot(data=meu_data_frame_norm, orient="h", order=['protein_norm', 'sugars_norm','fat_norm','calories_norm'])

#print("padronizado")
#sns.boxplot(data=meu_data_frame_stda, orient="h", order=['protein_stda', 'sugars_stda','fat_stda','calories_stda'])

### 5.7 Tabela de correlação

Como visto na atividade 2, a correlação representa, sob o ponto de vista da estatística, uma medida de associação
entre duas ou mais variáveis. 

In [None]:
#calculando a tabela de correlação
corr = meu_data_frame.corr()

sns.heatmap(corr)