# Python para data science na prática
---

## Análise exploratória de dados (EDA) - Visualização de dados em Python

A visualização de dados é um componente crítico da Análise Exploratória de Dados (EDA). Isso nos ajuda a entender muito melhor os relacionamentos, padrões e tendências ocultas em nossos dados. Com os gráficos ou recursos visuais corretos, as tendências em conjuntos de dados grandes e complexos podem ser facilmente interpretadas e os padrões ocultos ou discrepantes podem ser facilmente identificados. 

Os dados podem ser visualizados usando uma ampla variedade de bibliotecas. A seguir exploraremos as bibliotecas de visualização de dados mais comuns em Python:
- Preparação para visualização 
- Visualização de dados em Matplotlib
- Visualização de dados em Seaborn 
- Visualização de dados em Bokeh

In [1]:
# importando as bibliotecas
import matplotlib as mpl                       # usada ocasionalmente 3D
import matplotlib.pyplot as plt                # importar a biblioteca matplotlib
import numpy as np                             # importar numpy
import pandas as pd                            # importat pandas
#                                              # estilo da biblioteca
%matplotlib inline                            
#%config InlineBackend.figure_format='svg'
#plt.style.use('classic')                       # estilo da biblioteca

### Preparação para visualização

In [None]:
# leitura do dataset
casa_data = pd.read_csv("data/HousingPricesData.csv",index_col=0) # ,index_col=0)
casa_data.head()

Usar colunas com dados relevantes

In [None]:
casas_data = casa_data[['Zip', 'Price', 'Area', 'Room']]
casas_data.head()

In [None]:
# dimesões
print('Dim:',casas_data.shape)
print('Tipos:',casas_data.dtypes)

Criar uma variável `PricexM2` baseadas nas variáveis `Price` e `Area`.

In [None]:
pd.options.mode.copy_on_write = True # erro
casas_data['PricexM2'] = casas_data['Price']/ casas_data['Area']
casas_data.head()

### Visualização de dados em Matplotlib

Matplotlib é uma biblioteca para visualização de dados em Python, permitindo a criação de visualizações tanto estáticas quanto interativas. Ela oferece uma ampla variedade de opções visuais, incluindo gráficos de linhas, gráficos de barras, histogramas e mais. 

Construída sobre matrizes NumPy, Matplotlib é uma API de baixo nível que proporciona flexibilidade para criar visuais simples e complexos. Contudo, essa flexibilidade também significa que tarefas simples podem ser mais complicadas de realizar.

O módulo `pyplot` dentro do matplotlib lida com as necessidades de visualização. Alguns conceitos importantes encontrados ao usar a biblioteca matplotlib incluem o seguintes: 
- *Figura*: Este é o quadro dentro do qual os gráficos são plotados Simplificando, a figura é onde a plotagem é feita.
- *Eixos*: São as linhas horizontais e verticais (eixos x e y) que fornecem a borda do gráfico e atuam como referência para medição.
- *Marcas*: São as pequenas linhas que nos ajudam a demarcar nossos eixos.  
- *Título*: Este é o título do nosso gráfico dentro da figura.
- *Rótulos*: Estes são os rótulos dos nossos ticks ao longo dos eixos. 
- *Legenda*: Fornece informações adicionais sobre o gráfico para auxiliar na interpretação correta.  

In [None]:
# Exemplo: usando o dataset da seção anterior
casas_data.head()

In [None]:
# verificando tipos
casa_data.dtypes

Classificar o dataframe com base nos preços das casas e inspecione a saída

In [None]:
# classificação em função do preco
casas_sorted = casas_data.sort_values(['Price'], ascending = False) 
casas_sorted.head()

Gráfico de barras usando matplotlib com detalhes básicos

In [None]:
# grafico de barras
plt.figure(figsize=(12,6))
x = casas_sorted['Zip'][0:10]
y = casas_sorted['Price'][0:10]
plt.bar(x,y)
plt.show()

Gráfico de barras usando matplotlib com detalhes adicionais

In [None]:
# grafico de barras com detalhes adicionais
plt.figure(figsize=(12,6))
x = casas_sorted['Zip'][0:10]
y = casas_sorted['Price'][0:10]
plt.bar(x,y)
plt.title('10 áreas mais valorizadas', fontsize=15)
plt.xlabel('Código de CEP', fontsize=12)
plt.xticks(fontsize=10)
plt.ylabel('Preço das casas em millhões', fontsize=12)
plt.yticks(fontsize=10)
plt.show()

Criando subplots

In [None]:
fig, ax = plt.subplots(figsize=(40,18)) 
x = casas_sorted['Zip'][0:10] 
y = casas_sorted['Price'][0:10] 
y1 = casas_sorted['PricexM2'] [0:10] 
#
plt.subplot(1,2,1) 
#
plt.bar(x,y) 
plt.xticks(fontsize=15) 
plt.ylabel('Preços de casas em milhões', fontsize=25) 
plt.yticks( fontsize=20) 
plt.title('10 principais áreas com os preços de casas mais altos', fontsize=25)
#
plt.subplot(1,2,2) 
#
plt.bar(x,y1)
plt.xticks(fontsize=15) 
plt.ylabel('Preços de casas por m²', fontsize=25) 
plt.yticks(fontsize=20) 
plt.title('10 principais áreas com os preços de casas mais altos por m²', fontsize= 25)
plt.show()

### Visualizando dados no Seaborn 

Seaborn é outra popular biblioteca de visualização de dados em Python, baseada no Matplotlib e que se integra bem com as estruturas de dados do Pandas. Usado principalmente para criar gráficos estatísticos, Seaborn é ideal para Análise Exploratória de Dados (EDA). 

Seaborn utiliza o Matplotlib para desenhar os gráficos nos bastidores, mas sua API de alto nível torna o uso mais fácil e rápido. Enquanto o Matplotlib pode ser complicado e exigir várias linhas de código para tarefas simples, Seaborn oferece uma configuração mais fácil e intuitiva, facilitando o ajuste e a criação de visualizações.

Muitos dos termos do matplotlib também se aplicam ao Seaborn, como eixos, marcações, legendas, títulos, rótulos e assim por diante.

In [24]:
# importando a biblioteca
import seaborn as sns

In [None]:
# usando o mesmo dataset anterior
casas_sorted.head()

Grafico de barras usando Seaborn

In [None]:
# usando seaborn
plt.figure(figsize=(12,6))
data = casas_sorted[0:12]
sns.barplot(data=data,x='Zip',y='Price',hue='Zip');

Gráfico de barras em Seaborn com detalhes informativos adicionais, como título, rótulo x e rótulo y

In [None]:
# usando seaborn
plt.figure(figsize=(12,6))
data = casas_sorted[0:12]
#
fx = sns.barplot(data=data,x='Zip',y='Price',hue='Zip')
fx.set_xlabel('Código de CEP',fontsize=12)
fx.set_ylabel('Preço das casas em millões', fontsize=12)
fx.set_title('As 10 casas mais caras',fontsize=15);


Criando subplot com Seaborn

In [None]:
fig, ax= plt.subplots(1, 2,figsize=(45,20)) 
data = casas_sorted[0:10] 
sns.set_theme(font_scale = 3) 
#
ax1 = sns.barplot(data=data, x='Zip',y='Price', ax=ax[0],hue='Zip') 
ax1.set_xlabel('Código postal') 
ax1.set_ylabel('Preços de casas em milhões') 
ax1.set_title('10 principais áreas com os preços de casas mais altos')
# 
ax2 = sns.barplot(data=data, x='Zip', y ='PricexM2', ax=ax[1],hue='Zip') 
ax2.set_xlabel('CEP') 
ax2.set_ylabel('Preços de casas por m²') 
ax2.set_title('10 principais áreas com o preço mais alto por m²');

### Visualizando dados em Bokeh 

Bokeh é uma popular biblioteca de visualização de dados em Python, que oferece gráficos interativos e visualmente atraentes. Esses gráficos permitem que os usuários analisem diversos cenários de forma interativa. 

Bokeh também suporta JavaScript personalizado para casos de uso avançados e específicos de visualização. Além disso, os gráficos criados com Bokeh podem ser facilmente incorporados em páginas da web. 

Os glifos são os blocos de construção das visualizações Bokeh. Um glifo é uma forma geométrica ou marcador usado para representar dados. Normalmente, um gráfico é composto por uma ou mais dessas formas geométricas, como linha, quadrado, círculo e retângulo, que fornecem informações visuais sobre o dataset correspondente. 

Muitos dos termos usados em matplotlib também se aplicam ao bokeh, e a sintaxe também é bastante semelhante.

In [None]:
# importando as bibliotecas
from bokeh.plotting import figure, show
import bokeh.plotting as bk_plot
from bokeh.io import output_notebook
output_notebook()

In [None]:
# usando o mesmo dataset
casas_sorted.head()

Gráfico de barras usando `Bokeh` com detalhes básico

In [None]:
# exemplo bokeh
datab = casas_sorted[0:12]
fig = figure(x_range=datab['Zip'],plot_width=700,plot_height=500)
fig.vbar(x=datab['Zip'],top=datab['Price'],width=0.9)
show(fig)

Gráfico bokeh com detalhes

In [None]:
# exemplo bokeh
datab = casas_sorted[0:12]
fig = figure(x_range=datab['Zip'],plot_width=700,plot_height=500,
title='10 casas mais vlorizadas',
x_axis_label='Código CEP',
y_axis_label ='valor das casas em milhões')
#
fig.vbar(x=datab['Zip'],top=datab['Price'],width=0.9)
#
fig.xaxis.axis_label_text_font_size = "15pt" 
fig.xaxis.major_label_text_font_size = "10pt" 
fig.yaxis.axis_label_text_font_size = "15pt" 
fig.yaxis.major_label_text_font_size = "10pt" 
fig.title.text_font_size = '15pt'
#
show(fig)

Criar subolts em bokeh para visualizar múltiplas perspectivas ao mesmo tempo

In [None]:
p1 = figure(x_range = datab['Zip'],plot_width = 480, plot_height = 400, 
            title = 'Top 10 áreas com maior valor', 
            x_axis_label = 'CEP', 
            y_axis_label = 'Preços de casas em milhões') 
p1.vbar(x= datab['Zip'], top=datab['Price'], width = 0.9)
# 
p2 = figure(x_range = datab['Zip'],
            plot_width = 480, 
            plot_height = 400, 
            title = ' As 10 principais áreas com casa de maior valor por m²', 
            x_axis_label = 'CEP', 
            y_axis_label = 'Preços de casas por m²') 
p2.vbar(x= data['Zip'], top = data['PricexM2'], width = 0.9) 
#
gp = bk_plot.gridplot(children=[[p1, p2]]) 
bk_plot.show(gp)

---
Python para data science na prática &copy; Jorge Zavaleta, 2024