<a href="https://colab.research.google.com/github/Thaleslsilva/DataScience/blob/master/Plots_Estatisticos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de Plots Estatísticos

### Pacotes Python Para Manipulação de Dados e Visualização

In [None]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [None]:
# Manipulação de Dados
import numpy as np
import pandas as pd

# Plotly
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.colors import n_colors
from plotly.subplots import make_subplots

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Thales de Lima Silva" --iversions

## Carregando os Dados

In [None]:
# Carrega os dados
campus = pd.read_csv('https://raw.githubusercontent.com/Thaleslsilva/DataScience/master/VisualizacaoDados/Metodos_Visualizacao/dados/factors-affecting-campus-placement-Placement_Data_Full_Class.csv')
#campus.head()

In [None]:
# Carrega os dados
house = pd.read_csv("https://raw.githubusercontent.com/Thaleslsilva/DataScience/master/VisualizacaoDados/Metodos_Visualizacao/dados/house-prices-advanced-regression-techniques-train.csv")
#house.head()

In [None]:
# Carrega os dados
world = pd.read_csv('https://raw.githubusercontent.com/Thaleslsilva/DataScience/master/VisualizacaoDados/Metodos_Visualizacao/dados/world-university-rankings-cwurData.csv')
#world.head()

In [None]:
# Carrega os dados
google = pd.read_csv("https://raw.githubusercontent.com/Thaleslsilva/DataScience/master/VisualizacaoDados/Metodos_Visualizacao/dados/google-play-store-apps-googleplaystore.csv")
#google.head()

### Histograma
**Objetivo**: Exibir distribuição de uma variável contínua.

Qual é a distribuição salarial dos graduados em Computação?

In [None]:
# Prepara os dados
campus_computer = campus[campus['degree_t']=='Comm&Mgmt'].dropna()['salary']

# Figura
fig = go.Figure(data = [go.Histogram(x = campus_computer, 
                                     marker_color = "orange",
                                     xbins = dict(start = 200000, end = 1000000,  size = 10000))])

# Layout
fig.update_layout(title = "Distribuição de Salários Para Graduados em Computação",
                  xaxis_title = "Salário",
                  yaxis_title = "Frequência")

# Gráfico
fig.show()

### Histograma Normalizado
**Objetivo**: Exibir distribuição de uma variável contínua.

Qual a distribuição salarial dos graduados em Ciência e Tecnologia de forma normalizada?

In [None]:
# Prepara os dados
campus_science = campus[campus['degree_t']=='Sci&Tech']['salary']

# Figura
fig = go.Figure(data = [go.Histogram(x = campus_science,
                                     histnorm = 'probability',
                                     marker_color = "magenta")])

# Layout
fig.update_layout(title = "Distribuição de Salários Para Graduados em Ciências",
                  xaxis_title = "Salário",
                  yaxis_title = "Frequência")

# Gráfico
fig.show()

### Histogramas Sobrepostos
**Objetivo**: Exibir a distribuição de uma variável contínua para diferentes grupos.

Qual é a distribuição percentual de graduados em Computação e Ciências de forma sobreposta?

In [None]:
# Prepara os dados
per_com = campus[campus['degree_t']=='Comm&Mgmt']['degree_p']
per_sci = campus[campus['degree_t']=='Sci&Tech']['degree_p']

# Figura
fig = go.Figure()

# Adiciona os historamas
fig.add_trace(go.Histogram(x = per_com, marker_color = "green", name = "Graduados em Computação"))
fig.add_trace(go.Histogram(x = per_sci, marker_color = "orange", name = "Graduados em Ciências"))

# Sobreposição dos histogramas
fig.update_layout(barmode = 'overlay')

# Reduz a opacidade dos histogramas
fig.update_traces(opacity = 0.74)

# Layout
fig.update_layout(title = "Distribuição da Porcentagem de Graduados em Computação e Ciências",
                  xaxis_title = "Percentual",
                  yaxis_title = "Frequência")

# Gráfico
fig.show()

### Histogramas Empilhados
**Objetivo**: Exibir a distribuição de uma variável contínua para diferentes grupos.

Mesmo gráfico anterior, mas agora em formato empilhado.

In [None]:
# Figura
fig = go.Figure()

# Histogramas
fig.add_trace(go.Histogram(x = per_com, marker_color = "green", name = "Graduados em Computação"))
fig.add_trace(go.Histogram(x = per_sci, marker_color = "orange", name = "Graduados em Ciências"))

# Stack 
fig.update_layout(barmode='stack')

# Redução da opacidade
fig.update_traces(opacity = 0.73)

# Layout
fig.update_layout(title = "Distribuição da Porcentagem de Graduados em Computação e Ciências",
                  xaxis_title = "Percentual",
                  yaxis_title = "Frequência")

# Gráfico
fig.show()

## Distplot
**Objetivo**: Exibir distribuição de uma variável contínua.

Qual é a distribuição de preços para casa com nota de avaliação igual a 4?

In [None]:
# Preparação dos dados
class_1 = house[house['OverallCond']==4]['SalePrice']

# Dados para o histograma
hist_data = [class_1]

# Labels
group_labels = ['Distribuição de Preços Para Casas com Avaliação 4']

# Cores
colors = ['green']

# Figura
fig = ff.create_distplot(hist_data, group_labels, colors = colors, bin_size = [10000])

# Gráfico
fig.show()

### Distplot Múltiplo
**Objetivo**: Exibir distribuição de uma variável contínua para várias categorias.

Mesmo gráfico anterior para as avaliações 4, 5 e 6.

In [None]:
# Preparação dos dados
class_1 = house[house['OverallCond']==4]['SalePrice']
class_2 = house[house['OverallCond']==5]['SalePrice']
class_3 = house[house['OverallCond']==6]['SalePrice']

# Dados para cada histograma
hist_data = [class_1, class_2, class_3] 

# Labels
group_labels = ['Distribuição de Preços Para Casas com Avaliação 4',
                'Distribuição de Preços Para Casas com Avaliação 5',
                'Distribuição de Preços Para Casas com Avaliação 6']

# Cores
colors = ['blue', "green", "magenta"]

# Figura
fig = ff.create_distplot(hist_data, group_labels, colors = colors, bin_size = [10000,10000,10000])

# Gráfico
fig.show()

### Distplot Curve
**Objetivo**: Exibe a distribuição de uma variável contínua para várias categorias com curva em vez de barra.

Mesmo gráfico anterior somente com as linhas.

In [None]:
# Dados para cada histograma
hist_data = [class_1, class_2, class_3] 

# Labels
group_labels = ['Distribuição de Preços Para Casas com Avaliação 4',
                'Distribuição de Preços Para Casas com Avaliação 5',
                'Distribuição de Preços Para Casas com Avaliação 6']

# Cores
colors = ['blue', "green", "magenta"]

# Figura
fig = ff.create_distplot(hist_data, group_labels, show_hist = False, colors = colors, bin_size = [10000,10000,10000])

# Gráfico
fig.show()

### Density Contour
**Objetivo**: Exibe 2 histogramas e um scatter plot na mesma área de plotagem.

Relação das variáveis tamanho do lote e preço da casa.

In [None]:
# Prepara os dados
cond_8 = house[house['OverallQual']==8]

# x e y
x = cond_8['LotArea']
y = cond_8['SalePrice']

# Figura
fig = go.Figure()

# Countour
fig.add_trace(go.Histogram2dContour(x = x,
                                    y = y,
                                    colorscale = 'gray',
                                    reversescale = True,
                                    xaxis = 'x',
                                    yaxis = 'y'))

# Scatter Plot
fig.add_trace(go.Scatter(x = x,
                         y = y,
                         xaxis = 'x',
                         yaxis = 'y',
                         mode = 'markers',
                         marker = dict(color = "red", size = 3)))

# Histograma
fig.add_trace(go.Histogram(y = y,
                           xaxis = 'x2',
                           marker = dict(color = "blue")))

# Histograma
fig.add_trace(go.Histogram(x = x,
                           yaxis = 'y2',
                           marker = dict(color = "blue")))

# Layout
fig.update_layout(autosize = False,
                  xaxis = dict(zeroline = False, domain = [0,0.85], showgrid = False),
                  yaxis = dict(zeroline = False, domain = [0,0.85], showgrid = False),
                  xaxis2 = dict(zeroline = False, domain = [0.85,1], showgrid = False),
                  yaxis2 = dict(zeroline = False, domain = [0.85,1], showgrid = False),
                  height = 600,
                  width = 600,
                  bargap = 0,
                  hovermode = 'closest',
                  showlegend = False,
                  title_text = "Density Contour e Tamanho e Preço Para Casas de Avaliação Igual a 8", title_x = 0.5)

# Gráfico
fig.show()

### Box Plot
**Objetivo**: Exibir distribuição de uma variável contínua.

Como a pontuação é distribuída para diferentes universidades na Alemanha?

In [None]:
# Prepara os dados
germany_score = world[world['country']=="Germany"]['score']

# Figura
fig = go.Figure(go.Box(y = germany_score, name = "Pontuação"))

# Layout
fig.update_layout(title = "Distribuição de Pontuação das Universidades da Alemanha")

# Gráfico
fig.show()

### Box Plot Agrupado
**Objetivo**: Exibe a distribuição de uma variável contínua para dois ou mais grupos.

Compare as avaliações das universidades no Canadá e no Brasil.

In [None]:
# Prepara os dados
score_canada = world[world['country']=="Canada"]['score']
score_brazil = world[world['country']=="Brazil"]['score']

# Figura
fig = go.Figure()

# Adiciona o box plot do Canadá
fig.add_trace(go.Box(y = score_canada, marker_color = "red", name = "Avaliação das Universidades do Canadá"))

# Adiciona o box plot do Brasil
fig.add_trace(go.Box(y = score_brazil, marker_color = "green", name = "Avaliação das Universidades do Brasil"))

# Layout
fig.update_layout(title = "Distribuição das Avaliações das Universidades no Canadá e no Brasil")

# Gráfico
fig.show()

### Box Plot com Média e Desvio Padrão
**Objetivo**: Exibir a distribuição de uma variável contínua para dois ou mais grupos com média e desvio padrão.

Como é a distribuição de classificação para as categorias de aplicativos da Play Store?

In [None]:
# Prepara os dados
rating_maps = google[google['Category']=="MAPS_AND_NAVIGATION"]['Rating']
rating_life = google[google['Category']=="LIFESTYLE"]['Rating']

# Figura
fig = go.Figure()

# Adiciona o primeiro box plot
fig.add_trace(go.Box(y = rating_maps,
                     boxmean = 'sd', 
                     marker_color = "darkorchid",
                     name = "Avaliação de Apps de Mapas"))

# Adiciona o segundo box plot
fig.add_trace(go.Box(y = rating_life,
                     boxmean = 'sd', 
                     marker_color = "blue",
                     name = "Avaliação de Apps Sobre Lifestyle"))

# Layout
fig.update_layout(title = "Distribuição de Avaliações de Apps da Google Playstore")

# Gráfico
fig.show()

### Scatter Plot
**Objetivo**: Relação entre valores numéricos.

Quanta dependência existe entre Tamanho do Lote e Preço da Casa?

In [None]:
# Figura
fig = px.scatter(house, x = 'LotArea', y = 'SalePrice')

# Layout
fig.update_layout(title = 'Tamanho do Lote x Preço', xaxis_title = "Tamanho do Lote", yaxis_title = "Preço")

# Gráfico
fig.show()

### Scatter Plot Categorizado
**Objetivo**: Relação entre valores numéricos com um campo categórico.

Quanta dependência existe entre Tamanho do Lote e Preço com o Shape da Casa?

In [None]:
# Figura
fig = px.scatter(house, x = 'LotArea', y = 'SalePrice', color = 'LotShape') 

# Layout
fig.update_layout(title = 'Tamanho do Lote x Preço x Shape', xaxis_title = "Tamanho do Lote", yaxis_title = "Preço")

# Gráfico
fig.show()

### Scatter Plot Customizado
**Objetivo**:  Relação entre valores numéricos com adição de categorização por um campo e aumento do tamanho do ponto de dados por outro campo numérico.

Quanta dependência existe entre a qualidade da educação e a pontuação dos alunos em diferentes países com base no número de alunos?

In [None]:
# Figura
fig = px.scatter(world, x = "quality_of_education", y = "score", color = "country", size = "citations")

# Layout
fig.update_layout(title = 'Qualidade da Educação x Pontuação x Número de Alunos',
                  xaxis_title = "Qualidade da Educação",
                  yaxis_title = "Pontuação", 
                  template = 'seaborn')

# Gráfico
fig.show()

# Fim