# <font color='blue'>Python Fundamentos - Visualização de dados</font>

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


## Gráficos
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Visualização de dados, ou DataViz, é a representação dos dados no formato gráfico. <br>
Gráfico é uma representação visual dos dados com forma geométrica, construído a partir de informações numéricas organizadas em tabelas, que servem para facilitar a interpretação dos dados. <br> Normalmente, possui dois eixos, ou axis: x e y. <br>
Os dados do eixo y são influenciados pelo comportamento de x. Logo, y é a variável dependente e x é a variável independente. <br>
Gramática dos Gráficos: os gráficos são construídos em sete camadas, e cada uma delas adiciona um elemento visual. <br>
As sete camadas são: <br>
- **Dados**: Conjunto de dados que será analisado; <br>
- **Estética**: A escala em que os dados são mapeados; <br>
- **Geometria**: Elementos visuais usados para representar os dados (pontos, linhas, marcadores etc); <br>
- **Facets**: Visualização dos dados em porções menores; <br>
- **Estatística**: Representação e análise dos dados; <br>
- **Coordenadas**: A área na qual o gráfico será desenhado; <br>
- **Tema**: Visual geral do gráfico. <br><br>
  
</details>


In [2]:
# Importando os pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'pandas'

In [None]:
# Verificando os datasets disponíveis.Exige conexão com a internet.
sns.get_dataset_names()

In [None]:
# Carregando o dataset Tips. Exige conexão com a internet.
df = sns.load_dataset("tips")

In [None]:
# Coletando os dados
# https://www.kaggle.com/ranjeetjain3/seaborn-tips-dataset
df = pd.read_csv('Dados/Tips/tips.csv')
df

In [None]:
# Renomenando as colunas
df.columns = ["Total da Conta", "Valor da Gorjeta", "Sexo", "Fumante", "Dia", "Horário", "Quantidade de Pessoas"]
df

In [None]:
# Agrupa os dados indexando a variável "Dia"
df1 = df.groupby(["Dia"])

In [None]:
# Calcula a soma das variáveis de acordo com a variável "Dia" e reiniciar o índice
dfSoma = df1.sum(["Total da Conta", "Valor da Gorjeta", "Sexo", "Fumante", "Horário", "Quantidade de Pessoas"]).reset_index()
dfSoma

# <font color='blue'>Matplotlib</font>
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Matplotlib é uma biblioteca desenvolvida para criar visualizações estáticas, animadas, e interativas em Python. <br>
Matplotlib é orientado a objetos. É recomendado trabalhar diretamente com os objetos, caso necessite de mais controle e personalização de seus gráficos.<br>
Basicamente, criamos dois tipos de objetos: um do tipo Figure e um ou mais do tipo Axes. <br>
Cada objeto possui atributos e métodos que utilizamos para configurar os gráficos. <br>
  
https://matplotlib.org/
    
</details>


In [None]:
# Verificando a versão da biblioteca Matplotlib instalada
!pip show matplotlib

In [None]:
# Instalando uma versão específica de um módulo
!pip install matplotlib==3.7.1

### Gráfico de barras verticais
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O gráfico de barras, também chamado de gráfico de colunas, é usado na comparação de quantitativos. <br>
Os dados são colocados no eixo x e os valores das quantidades no eixo y. 
    
</details>


In [None]:
fig, ax = plt.subplots(figsize=(10, 6)) # Cria uma figura com eixos simples (x, y)
ax.bar(dfSoma["Dia"], dfSoma["Valor da Gorjeta"]) # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Soma das gorjetas em relação ao dia da semana", fontsize = 16)
ax.set_xlabel("Dia da semana", fontsize = 12)
ax.set_ylabel("Soma das gorjetas (US$)", fontsize = 12)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.5
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de barras horizontais

In [None]:
fig, ax = plt.subplots(figsize=(10, 6)) # Cria uma figura com eixos simples (x, y)
ax.barh(dfSoma["Dia"], dfSoma["Valor da Gorjeta"]) # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Soma das gorjetas em relação ao dia da semana", fontsize = 16)
ax.set_xlabel("Soma das gorjetas (US$)", fontsize = 12)
ax.set_ylabel("Dia da semana", fontsize = 12)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() 
    _y = p.get_y() + p.get_height() - 0.5
    value = int(p.get_width())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de barras verticais agrupadas

In [None]:
diasDaSemana = dfSoma.Dia # Salva a lista de dias da semana
ax = dfSoma.plot.bar(rot=0, figsize=(10, 6)) # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente. O parâmetro "rot" define a rotação dos nomes dos dias da semana no gráfico
ax.set_title("Visão geral", fontsize = 16)
ax.set_xlabel("Dia da semana", fontsize = 12)
ax.set_ylabel("Valor", fontsize = 12)
ax.set_xticklabels(diasDaSemana) # exibe os nomes dos dias da semana
ax.legend(bbox_to_anchor=(1., 0., 0.5, 1.)) # exibe a legenda
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.17
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de barras horizontais agrupadas

In [None]:
diasDaSemana = dfSoma.Dia # Salva a lista de dias da semana
ax = dfSoma.plot.barh() # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente. 
ax.set_title("Visão geral", fontsize = 16)
ax.set_xlabel("Valor", fontsize = 12)
ax.set_ylabel("Dia da semana", fontsize = 12)
ax.set_yticklabels(diasDaSemana) # exibe os nomes dos dias da semana 
ax.legend(bbox_to_anchor=(1., 0., 0.5, 1.)) # exibe a legenda
for p in ax.patches:
    _x = p.get_x() + p.get_width() 
    _y = p.get_y() + p.get_height() - 0.1
    value = int(p.get_width())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Scatter plot (Gráfico de dispersão)
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Exibe a relação entre duas variáveis. <br>
Os dados da variável **independente** ficam no eixo x e os dados da variável **dependente** ficam no eixo y do gráfico. <br>
Utilizamos marcadores para identificar os pontos de intersecção entre os eixos x e y.
    
</details>


In [None]:
# tipos de marcadores https://matplotlib.org/stable/api/markers_api.html

# Define as cores dos marcadores
np.random.seed(196)
quantidaDeCores = 4
cores = np.random.rand(quantidaDeCores)

fig, ax = plt.subplots() # Cria uma figura com eixos simples (x, y)
ax.scatter(dfSoma["Quantidade de Pessoas"], dfSoma["Valor da Gorjeta"], c = cores, marker = "8") # Define os valores para o eixo x e para o eixo y respectivamente.
ax.set_title("Soma das gorjetas em relação ao total de pessoas", fontsize = 16)
ax.set_xlabel("Total de pessoas", fontsize = 12)
ax.set_ylabel("Soma das gorjetas (US$)", fontsize = 12)
plt.grid()
plt.show()

### Gráfico de linhas
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Representa o progresso dos valores de uma variável no decorrer do tempo. <br>
Normalmente, no eixo x, temos a divisão do tempo em dias, meses ou qualquer unidade de tempo (ou quaisquer valores ordenados). <br>
É importante que a sequência de dados do eixo x esteja em uma escala de tempo dividida em períodos iguais. <br>
É possível definir mais de uma varável para o eixo y. 
    
</details>


In [None]:
fig, ax = plt.subplots() # Cria uma figura com eixos simples (x, y)
ax.plot(dfSoma.Dia, dfSoma["Valor da Gorjeta"], marker = "8", label = "Valor da Gorjeta") # Define a primeira linha.
ax.plot(dfSoma.Dia, dfSoma["Total da Conta"], marker = "v", label = "Total da Conta") # Define a segunda linha.
ax.plot(dfSoma.Dia, dfSoma["Quantidade de Pessoas"], marker = "*", label = "Quantidade de Pessoas") # Define a terceira linha.
ax.set_title("Comportamento das variáveis em relação aos dias da semana", fontsize = 16)
ax.set_xlabel("Dias da semana", fontsize = 12)
ax.legend(bbox_to_anchor=(1., 0., 0.5, 1.))
plt.grid()
plt.show()

### Boxplot
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O boxplot permite visualizar a distribuição dos dados de uma variável divididos entre os quartis. <br>
Quartis são valores que dividem um conjunto de elementos ordenados em quatro partes iguais, ou seja, cada parte contém 25% desses elementos. <br>
Exibe onde a maioria dos dados se encontra e se há outliers. <br>
O boxplot exibe uma análise visual da posição, dispersão, simetria, caudas e outliers do conjunto de dados:<br>
    - **Posição**: observa-se a linha central do retângulo que é a mediana ou segundo quartil; <br>
    - **Outliers**: valores atípicos, ou seja, que se afastam da maioria dos valores encontrados no conjunto de dados; <br>
    - **Dispersão**: representada pela caixa, indica onde a maioria dos dados se encontra; <br>
    - **Cauda**: Os valores no fim da cauda tem uma probabilidade de ocorrência muito baixa. <br>
    - **Simetria**: A distribuição dos dados é simétrica quando as três medidas de tendência central, média, mediana e moda são iguais.  
    
</details>

In [None]:
nomeVariavel = ["Valor da Gorjeta"] # Salva o nome da variável
fig, ax = plt.subplots()  # Cria uma figura com eixos simples (x, y)
ax.boxplot(df["Valor da Gorjeta"], labels=nomeVariavel)
ax.set_title("Análise do valor das gorjetas", fontsize = 16)
plt.grid()
plt.show()

### Boxplot múltiplos

In [None]:
nomeDasVariáveis = ["Valor da Gorjeta", "Quantidade de Pessoas"] # Salva uma lista com o nome das variáveis
dados = [df["Valor da Gorjeta"], df["Quantidade de Pessoas"]]
fig, ax = plt.subplots()  # Cria uma figura com eixos simples (x, y)
ax.boxplot(dados, labels=nomeDasVariáveis)
ax.set_title("Múltiplos Boxplots", fontsize = 16)
plt.grid()
plt.show()

### Boxplot horizontal

In [None]:
nomeVariavel = ["Valor da Gorjeta"] # Salva o nome da variável
fig, ax = plt.subplots()  # Cria uma figura com eixos simples (x, y)
ax.boxplot(df["Valor da Gorjeta"], labels=nomeVariavel, vert=False)
ax.set_title("Análise do valor das gorjetas", fontsize = 16)
plt.grid()
plt.show()

### Histograma
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Gráfico de barras que exibe a distribuição de frequências dos dados; <br>
A base de cada uma das barras representa uma classe de dados e a altura representa a quantidade ou frequência absoluta com que o valor de cada classe ocorre; <br>
Exibe a dispersão dos dados, ou seja onde a maioria dos dados se concentra. <br>

</details>


In [None]:
fig, ax = plt.subplots()  # Cria uma figura com eixos simples (x, y)
ax.hist(df["Valor da Gorjeta"], bins = 10)
ax.set_title("Histograma do Valor da Gorjeta", fontsize = 16)
ax.set_xlabel("Valor da Gorjeta", fontsize = 12)
ax.set_ylabel("Frequência", fontsize = 12)
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.6
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de pizza
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Indicado quando se deseja expressar uma relação de proporcionalidade, em que todos os valores somados compõem o todo de uma variável. <br>
Desenhado em formato circular e dividido em setores, sendo as suas áreas diretamente proporcionais às frequências correspondentes. <br>
Os setores devem ter cores diferentes e identificados em uma legenda. <br>
Não é recomendado quando existem muitos setores ou fatias. <br>

</details>


In [None]:
# Visualizando o DataFrame
dfSoma

In [None]:
# Criando uma nova coluna com o percentual de pessoas em relação ao dia da semana.
dfSoma["Percentual %"] = round((dfSoma["Quantidade de Pessoas"]/dfSoma["Quantidade de Pessoas"].sum())*100, 2)
dfSoma

In [None]:
diasDaSemana = dfSoma.Dia # Salva a lista de dias da semana
percentuais = dfSoma["Percentual %"] # Salva a lista com os percentuais
explode = (0, 0.1, 0, 0)  # "explode" somente a segunda fatia

fig, ax = plt.subplots()
ax.pie(percentuais, explode=explode, labels=diasDaSemana, autopct='%1.1f%%', shadow=True, startangle=90)
ax.set_title("Percentual de pessoas por dia", fontsize = 16)
ax.axis('equal') # Garante que o gráfico seja desenhado no formato de círculo, ou seja, não tem o formato de uma elipse, por exemplo. 
plt.show()

### Facets
Facets são um excelente recurso que permite segmentar um gráfico e dividir a visualização em porções menores, lado a lado.

In [None]:
# Define as cores dos marcadores
np.random.seed(18)
quantidaDeCores = 4
cores = np.random.rand(quantidaDeCores)

fig, axs = plt.subplots(1, 3, figsize=(9, 3)) # Define as características do Facet
axs[0].scatter(dfSoma["Dia"], dfSoma["Valor da Gorjeta"], c = cores, marker = "8")
axs[0].set_xlabel("Dia")
axs[0].set_ylabel("Soma das gorjetas")
axs[1].scatter(dfSoma["Quantidade de Pessoas"], dfSoma["Valor da Gorjeta"], c = cores, marker = "8") 
axs[1].set_xlabel("Quantidade de Pessoas")
axs[2].scatter(dfSoma["Total da Conta"], dfSoma["Valor da Gorjeta"], c = cores, marker = "8") 
axs[2].set_xlabel("Total da conta")
fig.suptitle('Facet da soma total das gorjetas')
plt.show()

# <font color='blue'>Seaborn</font>
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Seaborn é uma biblioteca desenvolvida para construir gráficos estatísticos em Python. <br>
É baseada no Matplotlib e integra-se muito bem com as estruturas de dados do Pandas. <br>
Mapeia os valores dos dados e automaticamente monta atributos visuais e realiza cálculos estatísticos. <br>

https://seaborn.pydata.org/ <br>
https://seaborn.pydata.org/tutorial/color_palettes.html    
</details>

In [None]:
# Verificando a versão da biblioteca Seaborn instalada
!pip show seaborn

In [None]:
# Instalando uma versão específica de um módulo
!pip install seaborn==0.12.2

In [None]:
# Visualizando o DataFrame
dfSoma

In [None]:
# define o tamanho do gráfico
sns.set(rc = {'figure.figsize':(10,6)}) 

### Gráfico de barras verticais

In [None]:
# Define o tema utilizado.
sns.set_theme(style="darkgrid") 

ax = sns.barplot(x=dfSoma["Dia"], y=dfSoma["Valor da Gorjeta"], palette="rocket") # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Soma das gorjetas em relação ao dia da semana")
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de barras horizontais

In [None]:
# Define o tema utilizado.
sns.set_theme(style="dark") 

ax = sns.barplot(x= dfSoma["Valor da Gorjeta"], y=dfSoma["Dia"], palette="Blues_r", orient='h') # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Soma das gorjetas em relação ao dia da semana")
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() 
    _y = p.get_y() + p.get_height() - 0.4
    value = int(p.get_width())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de barras verticais agrupadas

In [None]:
# Visualizando o DataFrame
df.head()

In [None]:
# Define o tema utilizado
sns.set_theme(style="whitegrid")

ax = sns.barplot(x=df["Dia"], y=df["Total da Conta"], hue=df["Sexo"], palette="winter_r", errorbar=None) # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Relação entre o total da conta e o sexo do cliente", fontsize = 16)
ax.legend(bbox_to_anchor=(0.8, 0., 0.5, 1.)) # exibe a legenda
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.25
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Gráfico de barras horizontais agrupadas

In [None]:
# Define o tema utilizado.
sns.set_theme(style="white") 

ax = sns.barplot(x=df["Total da Conta"], y=df["Dia"], palette="winter_r", hue=df["Sexo"], orient="h", errorbar=None) # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Total da conta em relação ao sexo", fontsize = 16)
ax.legend(bbox_to_anchor=(0.8, 0., 0.5, 1.)) # exibe a legenda
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() 
    _y = p.get_y() + p.get_height() - 0.15
    value = int(p.get_width())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Countplot
Cria um gráfico com a frequência absoluta dos valores de uma variável.

In [None]:
# Define o tema utilizado.
sns.set_theme(style="ticks") 

# Criando um Countplot
ax = sns.countplot(x=df["Sexo"], palette = "Greens_d", order=df["Sexo"].value_counts().index);
ax.set_title("Frequência absoluta da variável sexo", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.43
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Scatter plot (Gráfico de dispersão)

In [None]:
# Define o tema utilizado.
sns.set_theme(style="whitegrid") 

ax = sns.scatterplot(x=dfSoma["Quantidade de Pessoas"], y=dfSoma["Valor da Gorjeta"]) # Cria o gráfico definido pelos valores do eixo x e do eixo y respectivamente.
ax.set_title("Soma das gorjetas em relação ao total de pessoas", fontsize = 16)
ax.set_xlabel("Total de pessoas", fontsize = 12)
ax.set_ylabel("Soma das gorjetas", fontsize = 12)
plt.show()

### Gráfico de linhas

In [None]:
# Visualizando o DataFrame
dfSoma

In [None]:
# Definindo a variável Dia como index
df2 = dfSoma.set_index("Dia")
df2

In [None]:
# Define o tema utilizado.
sns.set_theme(style="darkgrid") 

# Criando um gáfico de linhas
ax = sns.lineplot(data=df2, markers=True)
ax.set_title("Comportamento das variáveis em relação aos dias da semana", fontsize = 16)
ax.legend(bbox_to_anchor=(1., 0., 0.5, 1.))
plt.show()

### Boxplot

In [None]:
# Criando um boxplot
ax = sns.boxplot(data=df["Quantidade de Pessoas"], palette="Set2")
ax.set_xticklabels(["Quantidade de Pessoas"]) # exibe o nome da variável
plt.show()

### Boxplot Múltiplos

In [None]:
# Criando múltiplos boxplots
ax = sns.boxplot(data=df[["Quantidade de Pessoas", "Valor da Gorjeta"]], palette="Set2")
ax.set_xticklabels(["Quantidade de Pessoas", "Valor da Gorjeta"]) # exibe o nome da variável
plt.show()

### Boxplot horizontal

In [None]:
# Criando um boxplot horizontal
ax = sns.boxplot(data=df["Valor da Gorjeta"],  orient="h", palette="terrain_r")
ax.set_yticklabels(["Valor da Gorjeta"]) # exibe o nome da variável
plt.show()

### Histograma

In [None]:
# Criando um histograma
ax = sns.histplot(x=df["Quantidade de Pessoas"], bins=6) 
ax.set_title("Histograma de pessoas por mesa", fontsize = 16)
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.5
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Facet

In [None]:
# Visualizando as primeiras linhas do DataFrame
df.head()

In [None]:
# Define o tema utilizado.
sns.set_theme(style="darkgrid") 

# Criando um Facet
ax = sns.FacetGrid(df, col="Dia", height=5, aspect=0.8)
ax.map(sns.histplot, "Valor da Gorjeta")
plt.show()

In [None]:
# Facet com gráficos de linhas de todas as variáveis. Ajuda a analisar a correlação entre as variáveis 
ax = sns.PairGrid(df)
ax.map(sns.lineplot)
plt.show()

# <font color='blue'>Plotly</font>
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Plotly é uma biblioteca de código aberto desenvolvida para criar gráficos interativos. <br>
Permite criar visualizações interativas baseadas na web que podem ser exibidas em Jupyter Notebooks, salvas em arquivos HTML ou servidas como parte de uma aplicação web. <br>
  
https://plotly.com/python/
    
</details>

In [None]:
# Instala o framework Dash. Reiniciar o Jupyter Lab e o navegador de internet
!pip install jupyter-dash

In [None]:
# Dependência da  extensão do Plotly para Jupyter Lab. Reiniciar o Jupyter Lab e o navegador de internet
!pip install npm

### Fazer o download e instalar o Node.js
https://nodejs.org/en/

In [None]:
# É necessário instalar a extensão do Plotly para Jupyter Lab.
# Reiniciar o Jupyter Lab e o navegador de internet
!jupyter labextension install jupyterlab-plotly

In [None]:
# Verificando a versão da biblioteca Plotly instalada
!pip show plotly

In [None]:
# Importando o pacote Plotly
import plotly.express as px

In [None]:
# Visualizando o DataFrame
dfSoma

### Gráfico de barras verticais

In [None]:
px.bar(dfSoma, 
       x='Dia', 
       y='Valor da Gorjeta', 
       title="Relação entre o dia e a soma das gorjetas",
       color="Dia",  
       width=800, 
       height=400,
       )

### Gráfico de barras horizontais

In [None]:
px.bar(dfSoma, 
       x='Valor da Gorjeta', 
       y='Dia', 
       title="Relação entre o dia e a soma das gorjetas",
       color="Dia",
       orientation='h',
       width=800, 
       height=400
      )

In [None]:
# Visualizando o DataFrame
df.head()

### Gráfico de barras verticais agrupadas

In [None]:
# Link para tabela com a escala de cores https://plotly.com/python/builtin-colorscales/

# Criando um gráfico de barras
px.bar(df, 
       x="Sexo", 
       y="Valor da Gorjeta",
       color="Fumante", 
       barmode="group",
       color_discrete_sequence=px.colors.sequential.Bluered,
       width=800, 
       height=400,
      )

### Gráfico de barras horizontais agrupadas

In [None]:
px.bar(df, 
       x="Valor da Gorjeta", 
       y="Sexo",
       color="Horário", 
       barmode="group",
       color_discrete_sequence=px.colors.sequential.Blackbody,
       orientation='h',
       width=800, 
       height=400
      )

### Scatter plot (Gráfico de dispersão)

In [None]:
fig = px.scatter(dfSoma, 
           x="Quantidade de Pessoas", 
           y="Valor da Gorjeta",
           labels={"Valor da Gorjeta": "Soma das Gorjetas", "Quantidade de Pessoas": "Total de Pessoas"},
           title="Soma das gorjetas em relação ao total de pessoas",
           width=800, 
           height=400
          )
fig.show(config = {'displayModeBar': False}) # não exibe a barra de ferramentas

### Gráfico de linhas

In [None]:
import plotly.graph_objects as go

In [None]:
linha1 = go.Scatter(x=dfSoma.Dia, y=dfSoma["Valor da Gorjeta"],
                    mode='lines+markers',
                    name='Valor da Gorjeta')
linha2 = go.Scatter(x=dfSoma.Dia, y=dfSoma["Total da Conta"],
                    mode='lines+markers',
                    name='Total da Conta')
linha3 = go.Scatter(x=dfSoma.Dia, y=dfSoma["Quantidade de Pessoas"],
                    mode='lines+markers',
                    name='Quantidade de Pessoas')

linhas = [linha1, linha2, linha3]

layout = go.Layout(
            title="Comportamento das variáveis em relação aos dias da semana",
            autosize=False,
            font={"family": "Raleway", "size": 10},
            height=400,
            width=670,
            hovermode="closest",
            margin={
                "r": 0,
                "t": 50,
                "b": 110,
                "l": 40,
            },
            showlegend=True,
            xaxis={
                "autorange": True,
                "showline": True,
                "title": "Dia",
                "type": "category",
            },
            yaxis={
                "autorange": False,
                "mirror": False,
                "range": [0, 2000],
                "showgrid": True,
                "showline": True,
                "ticklen": 10,
                "ticks": "outside",
                "title": "Valor",
                "type": "linear",
                "zeroline": False,
                "zerolinewidth": 4,
            }
            )

fig = go.Figure(data=linhas, layout=layout) # Criando figura que será exibida
fig.show() # Exibindo figura/gráfico

### Boxplot

In [None]:
px.box(df, 
       y="Total da Conta",
       width=800, 
       height=400)

### Boxplot horizontal

In [None]:
px.box(df, 
       x="Total da Conta", # usar x no lugar de y
       width=800, 
       height=400)

### Boxplot múltiplos

In [None]:
px.box(df,
       x="Horário", 
       y="Valor da Gorjeta",
       width=800, 
       height=400)

### Histograma

In [None]:
px.histogram(df, 
             x="Valor da Gorjeta", 
             nbins=10,
             title="Histograma do Valor da Gorjeta",
             width=800, 
             height=400)

### Gráfico de pizza

In [None]:
px.pie(df, 
       values='Valor da Gorjeta',
       names='Dia',
       width=800, 
       height=400
       )

### Facets

In [None]:
px.bar(df,
       x="Quantidade de Pessoas", 
       y="Valor da Gorjeta", 
       color="Sexo", 
       facet_row="Fumante",
       barmode="group",
       width=800, 
       height=500)

### Exercícios

Utilizando o dataset Titanic desenhe os gráficos solicitados.

In [None]:
# Importando os pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [None]:
# Coletando os dados
df = pd.read_csv('Dados/Titanic/train.csv')
df.head()

1 - Crie um gráfico que exiba a quantidade de passageiros sobreviventes e não sobreviventes. 

In [None]:
# Define o tema utilizado.
sns.set_theme(style="dark") 

# Desenhando o Countplot
ax = sns.countplot(x=df.Survived, palette = "Greens_d");
ax.set_title("Sobreviventes X não sobreviventes", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.45
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Gráfico de barras
df.Survived.value_counts().plot.bar()

2 - Crie um gráfico que exiba o percentual de passageiros sobreviventes e não sobreviventes.

In [None]:
# Gráfico de pizza
((df.Survived.value_counts() / df.Survived.count())*100).plot.pie(autopct='%1.1f%%')

In [None]:
# Calculando os percentuais
percentual = (df.Survived.value_counts() / df.Survived.count())*100

# Rótulos
labels = ["Não sobreviventes", "Sobreviventes"]

# Definindo cores das fatias
cores = ["#DC143C","#66CDAA" ]

# "explode" somente uma fatia
explode = (0, 0.03)

# Criando o gráfico de pizza
ax = percentual.plot.pie(autopct='%1.1f%%', colors=cores,  explode=explode, startangle=90, labels=labels, textprops=dict(color="w"))
ax.set_title("Percentual de sobreviventes e não sobreviventes", fontsize = 16)
ax.legend(title="Legenda",loc="center left",bbox_to_anchor=(1., 0., 0.5, 1.))
plt.show()

3 - Crie um gráfico que exiba a distribuição de frequência da variável idade. 

In [None]:
# Importando pacote
import math

# Calculando a quantidade de classes da variável Idade utilizando a expressão de Sturges
n = df.Age.count()
k = round(1+3.3*math.log10(n))
k

In [None]:
# Calculando a amplitudade da amostra 
a = max(df.Age)-min(df.Age)

# Calculando o intervalo entre as classes
h = round(a/k)
h

In [None]:
# Define o tema utilizado.
sns.set_theme(style="darkgrid") 

# Desenhando um histograma
ax = sns.histplot(x=df.Age, bins=k) 
ax.set_title("Histograma da idade dos passageiros", fontsize = 16)
ax.set_xticks(np.arange(0, max(df.Age)+1, h))
for p in ax.patches:
    _x = p.get_x() + (p.get_width()) - 6
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

4 - Crie um Boxplot da variável idade.

In [None]:
px.box(df, 
       y="Age",
       width=800, 
       height=400)