# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Visualização de Dados e Design de Dashboards</font>
## <font color='blue'>Capítulo 2 - Métodos de Visualização</font>

## Exemplos de Gráficos Padrões

Aqui você encontra exemplos de alguns dos gráficos padrões estudados no Capítulo 2.

![title](imagens/cap02.png)

## Pacotes Python Para Manipulação de Dados e Visualização

Certifique-se de usar os pacotes nas mesmas versões mostradas abaixo.

In [1]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

!pip install plotly

Collecting plotly
  Downloading plotly-5.2.2-py2.py3-none-any.whl (21.8 MB)
[K     |████████████████████████████████| 21.8 MB 4.5 MB/s eta 0:00:01
Collecting tenacity>=6.2.0
  Downloading tenacity-8.0.1-py3-none-any.whl (24 kB)
Installing collected packages: tenacity, plotly
Successfully installed plotly-5.2.2 tenacity-8.0.1


In [2]:
# Manipulação de Dados
import numpy as np
import pandas as pd

# Visualização com Plotly
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.colors import n_colors
from plotly.subplots import make_subplots

In [3]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

pandas: 1.2.5
numpy : 1.20.3
plotly: 5.2.2



## Carregando os Dados

Consulte as fontes dos dados no manual em pdf **Gráficos Padrões com Plotly** no Capítulo 2.

In [4]:
titanic = pd.read_csv('dados/titanic-train.csv')
titanic.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [5]:
netflix = pd.read_csv("dados/netflix-shows-netflix_titles.csv")
netflix.head(3)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,81145628,Movie,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,TV-PG,90 min,"Children & Family Movies, Comedies",Before planning an awesome wedding for his gra...
1,80117401,Movie,Jandino: Whatever it Takes,,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,TV-MA,94 min,Stand-Up Comedy,Jandino Asporaat riffs on the challenges of ra...
2,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."


In [6]:
world = pd.read_csv('dados/world-university-rankings-cwurData.csv')
world.head(3)

Unnamed: 0,world_rank,institution,country,national_rank,quality_of_education,alumni_employment,quality_of_faculty,publications,influence,citations,broad_impact,patents,score,year
0,1,Harvard University,USA,1,7,9,1,1,1,1,,5,100.0,2012
1,2,Massachusetts Institute of Technology,USA,2,9,17,3,12,4,4,,1,91.67,2012
2,3,Stanford University,USA,3,17,11,5,4,2,2,,15,89.5,2012


In [7]:
google = pd.read_csv("dados/google-play-store-apps-googleplaystore.csv")
google.head(3)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up


In [8]:
covid = pd.read_csv('dados/novel-corona-virus-2019-dataset-covid_19_data.csv')
covid.head(3)

Unnamed: 0,SNo,ObservationDate,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered
0,1,01/22/2020,Anhui,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
1,2,01/22/2020,Beijing,Mainland China,1/22/2020 17:00,14.0,0.0,0.0
2,3,01/22/2020,Chongqing,Mainland China,1/22/2020 17:00,6.0,0.0,0.0


In [9]:
covid_line = pd.read_csv('dados/novel-corona-virus-2019-dataset-COVID19_line_list_data.csv')
covid_line.head(3)

Unnamed: 0,id,case_in_country,reporting date,Unnamed: 3,summary,location,country,gender,age,symptom_onset,...,recovered,symptom,source,link,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26
0,1,,1/20/2020,,First confirmed imported COVID-19 pneumonia pa...,"Shenzhen, Guangdong",China,male,66.0,01/03/20,...,0,,Shenzhen Municipal Health Commission,http://wjw.sz.gov.cn/wzx/202001/t20200120_1898...,,,,,,
1,2,,1/20/2020,,First confirmed imported COVID-19 pneumonia pa...,Shanghai,China,female,56.0,1/15/2020,...,0,,Official Weibo of Shanghai Municipal Health Co...,https://www.weibo.com/2372649470/IqogQhgfa?fro...,,,,,,
2,3,,1/21/2020,,First confirmed imported cases in Zhejiang: pa...,Zhejiang,China,male,46.0,01/04/20,...,0,,Health Commission of Zhejiang Province,http://www.zjwjw.gov.cn/art/2020/1/21/art_1202...,,,,,,


### Gráfico de Barras Simples

**Objetivo**: Exibe a representação quantitativa de uma variável.

Quais países tem universidades com pontuação superior a 70?

In [11]:
# Prepara os dados
top_countries = world[world['score'] > 70]['country'].value_counts().reset_index().rename(columns = {'index':'country','country':'count'})
print(top_countries.head(5))

          country  count
0             USA     49
1  United Kingdom      8
2           Japan      4
3     Switzerland      1


In [16]:
help(go.Figure.update_layout)

Help on function update_layout in module plotly.basedatatypes:

update_layout(self, dict1=None, overwrite=False, **kwargs)
    Update the properties of the figure's layout with a dict and/or with
    keyword arguments.
    
    This recursively updates the structure of the original
    layout with the values in the input dict / keyword arguments.
    
    Parameters
    ----------
    dict1 : dict
        Dictionary of properties to be updated
    overwrite: bool
        If True, overwrite existing properties. If False, apply updates
        to existing properties recursively, preserving existing
        properties that are not specified in the update operation.
    kwargs :
        Keyword/value pair of properties to be updated
    
    Returns
    -------
    BaseFigure
        The Figure object that the update_layout method was called on



In [21]:
# Cria a figura
fig = go.Figure(go.Bar(x = top_countries['country'], y = top_countries['count'],
                      marker = {'color': apps['Count'], 'colorscale': 'sunset'},  ))

# Configura o layout
fig.update_layout(title_text = 'Países com Universidades com Pontuação Superior a 70',
                  xaxis_title = "País",
                  yaxis_title = "Número de Universidades")

# Mostra o gráfico
fig.show()

### Gráfico de Barras - Gradiente de Cores e Posicionamento de Texto

**Objetivo**: Exibe a representação quantitativa de uma variável destacando as contagens com gradiente de cor e posição do texto para todas as barras.

Em que gênero se enquadra a maioria dos aplicativos da Google Play Store? 

In [22]:
# Prepara os dados
apps = google['Genres'].value_counts()[:10].to_frame().reset_index().rename(columns = {'index':'Genres','Genres':'Count'})

In [23]:
# Cria a figura e formata o gradiente de cores
fig = go.Figure(go.Bar(x = apps['Genres'],
                       y = apps['Count'], 
                       marker = {'color': apps['Count'], 'colorscale': 'Viridis'},  
                       text = apps['Count'],
                       textposition = "outside",))

# Configura o layout
fig.update_layout(title_text = 'Top Apps da Google Playstore',
                  xaxis_title = "Gêneros de Aplicativos",
                  yaxis_title = "Número de Apps")

# Mostra o gráfico
fig.show()

### Gráfico de Barras Empilhado

**Objetivo**: Exibe a representação quantitativa de uma variável agrupando / empilhando as barras.

Quantos programas / filmes foram lançados na Netflix do Brasil e dos Estados Unidos entre 2015 e 2020?

In [24]:
# Agrupamento dos dados
top_release_brazil = netflix[(netflix['country']=='Brazil')&
                    ((netflix['release_year']==2015)|(netflix['release_year']==2016)|(netflix['release_year']==2017)|(netflix['release_year']==2018)|
                    (netflix['release_year']==2019)|(netflix['release_year']==2020))]['release_year'].value_counts().to_frame().reset_index().rename(columns={'index':'release_year','release_year':'count'})

top_release_us = netflix[(netflix['country']=='United States')&
                    ((netflix['release_year']==2015)|(netflix['release_year']==2016)|(netflix['release_year']==2017)|(netflix['release_year']==2018)|
                    (netflix['release_year']==2019)|(netflix['release_year']==2020))]['release_year'].value_counts().to_frame().reset_index().rename(columns={'index':'release_year','release_year':'count'})

In [25]:
# Cria a figura
fig = go.Figure()

# Formata as barras por agrupamento
fig.add_trace(go.Bar(x = top_release_brazil['release_year'], 
                     y = top_release_brazil['count'],
                     name = 'Brasil',
                     marker_color = 'violet'))

fig.add_trace(go.Bar(x = top_release_us['release_year'],
                     y = top_release_us['count'],
                     name = 'Estados Unidos',
                     marker_color = 'blue'))

# Formata o layout
fig.update_layout(title_text = 'Filmes e Programas Lançados na Netflix do Brasil / EUA Entre 2015 e 2020',
                  xaxis_title = "Ano",
                  yaxis_title = "Número de Filmes/Programas",
                  barmode = 'stack') 

# Mostra o gráfico
fig.show()

### Gráfico de Barras Facetado

**Objetivo**: Exibe uma visão de diferentes características categóricas em relação a uma única variável numérica.

Qual é a soma da tarifa (variável fare) por sexo dos passageiros em cada classe e seus embarcados no dataset Titanic? 

- Variáveis facetárias: Survived, Pclass
- Barras agrupadas: Embarked
- Numérico único (eixo Y) - Fare)

In [26]:
# Prepara os dados
facet_titanic = titanic[['Sex','Survived','Embarked','Pclass','Fare']].groupby(['Sex','Survived','Embarked','Pclass']).agg('sum').reset_index()

In [27]:
# Cria o facet
fig = px.bar(facet_titanic, 
             x = "Sex", 
             y = "Fare",
             color = "Embarked",
             barmode = "group",
             facet_row = "Survived", 
             facet_col = "Pclass",)

# Layout
fig.update_layout(title_text = 'Vista Facetada da tarifa dos passageiros do Titanic em relação à idade, classe, embarque\n')

# Mostra o gráfico
fig.show()

### Gráfico de Barras Horizontal

**Objetivo**: Exibe a representação quantitativa de uma variável de maneira horizontal.

Quantos aplicativos da Playstore se enquadram em cada categoria?

In [28]:
# Prepara os dados
app_category = google['Category'].value_counts()[:15].reset_index().rename(columns = {'index':'Category','Category':'Count'}).sort_values('Count', ascending = "False")

In [29]:
# Cria a figura com orientação horizontal
fig = go.Figure(go.Bar(y = app_category['Category'], x = app_category['Count'], orientation = "h")) 

# Layout
fig.update_layout(title_text = '15 Principais Categorias de Aplicativos da Google Playstore',
                  xaxis_title = "Total de Apps", 
                  yaxis_title = "Categoria")

# Mostra o gráfico
fig.show()

### Gráfico de Linhas

**Objetivo**: Relação entre variáveis ao longo do tempo.

Quantas mortes por COVID foram observadas ao longo do tempo?

In [32]:
# Prepara os dados
total_confirmed = covid[['ObservationDate','Deaths']].groupby('ObservationDate').sum().reset_index()
print(total_confirmed.head(5))

  ObservationDate  Deaths
0      01/22/2020    17.0
1      01/23/2020    18.0
2      01/24/2020    26.0
3      01/25/2020    42.0
4      01/26/2020    56.0


In [31]:
# Cria a figura
fig = go.Figure(data = go.Scatter(x = total_confirmed['ObservationDate'],
                                  y = total_confirmed['Deaths'],
                                  mode = 'lines'))

# Layout
fig.update_layout(title = 'Número de Mortes Por COVID ao Longo do Tempo',
                  xaxis_title = "Data",
                  yaxis_title = "Número de Casos")

# Mostra o gráfico
fig.show()

## Gráfico de Pizza

**Objetivo**: Exibe representação quantitativa (contagem) e proporcional de variáveis categóricas.

Qual a proporção de tipos de programas da Netflix?

In [36]:
# Prepara os dados
net_category = netflix['type'].value_counts().to_frame().reset_index().rename(columns = {'index':'type','type':'count'})

In [37]:
# Cria a figura
fig = go.Figure([go.Pie(labels = net_category['type'], values = net_category['count'])])

# Interatividade
fig.update_traces(hoverinfo = 'label+percent', 
                  textinfo = 'value+percent', 
                  textfont_size = 15,
                  insidetextorientation = 'radial')

# Layout
fig.update_layout(title = "Tipos de Programas na Netflix", title_x = 0.5)

# Gráfico
fig.show()

### Gráfico de Pizza com Cores Customizadas

**Objetivo**: Exibe representação quantitativa em pizza com cores personalizadas para os rótulos.

Qual a proporção de passageiros do Titanic por faixa etária? 

In [38]:
# Prepara os dados
titanic = titanic.dropna()

titanic['age_category'] = np.where((titanic['Age'] < 19), "Abaixo de 19 Anos",
                                   np.where((titanic['Age'] > 18)&(titanic['Age'] <= 30), "19-30 Anos",
                                    np.where((titanic['Age'] > 30)&(titanic['Age']<=50), "31-50 Anos",
                                             np.where(titanic['Age'] > 50, "Acima de 50 Anos","NULL"))))

age = titanic['age_category'].value_counts().to_frame().reset_index().rename(columns = {'index':'age_category','age_category':'Count'})

titanic_age = titanic['age_category'].value_counts().to_frame().reset_index().rename(columns={'index':'age_category','age_category':'count'})


In [41]:
age.head(5)

Unnamed: 0,age_category,Count
0,31-50 Anos,82
1,19-30 Anos,46
2,Acima de 50 Anos,32
3,Abaixo de 19 Anos,23


In [42]:
titanic_age.head(5)

Unnamed: 0,age_category,count
0,31-50 Anos,82
1,19-30 Anos,46
2,Acima de 50 Anos,32
3,Abaixo de 19 Anos,23


In [39]:
# Lista de cores
colors = ['green', 'violet', 'yellow', 'blue']

In [40]:
# Figura
fig = go.Figure([go.Pie(labels = titanic_age['age_category'], values = titanic_age['count'])])

# Interatividade
fig.update_traces(hoverinfo = 'label+percent', 
                  textinfo = 'percent+label', 
                  textfont_size = 16,
                  marker = dict(colors = colors, line = dict(color = '#000360', width = 2)))

fig.update_layout(title = "Passageiros do Titanic Por Faixa Etária", title_x = 0.5)

fig.show()

### Gráfico de Rosca (Donut)

**Objetivo**: Exibe representação quantitativa em formato de rosca.

Qual é a contagem de distribuição da classificação de conteúdo de aplicativos do google playstore?

In [43]:
# Prepara os dados
content = google['Content Rating'].value_counts().to_frame().reset_index().rename(columns = {'index':'Content Rating','Content Rating':'count'})

In [44]:
# Figura
fig = go.Figure([go.Pie(labels = content['Content Rating'], values = content['count'], hole = 0.3)]) 

# Interatividade
fig.update_traces(hoverinfo = 'label+percent', 
                  textinfo = 'percent', 
                  textfont_size = 12)

# Layout
fig.update_layout(title = "Classificação de Conteúdo do Google Apps", title_x = 0.5)

# Gráfico
fig.show()

# Fim