# Melhorando gráficos ruins

### Exercício 1 - População Europeia

Imagine que você precisa entender quais os países mais populosos da Europa e o gráfico abaixo é passado para você.

Defina em grupo o que está errado no grafico e o que podemos fazer para melhora-lo.

Execute essa melhoria em um notebook individual.

In [1]:
import plotly.express as px
df = px.data.gapminder().query("year == 2007").query("continent == 'Europe'")
df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries' # Represent only large countries 
fig = px.pie(df, values='pop', names='country', title='Population of European continent')
fig.show()

### Exercício 1 - Proposta de resolução.

In [16]:
#Gráfico de pizza nunca é uma boa ideia, mas o gráfico de barras serve muito bem para representar quantidades em variáveis categóricas
import plotly.express as px
df = px.data.gapminder().query("year == 2007").query("continent == 'Europe'")
df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries' # Vamos representar apenas os maiores países

#Aqui nós iremos ordenar nosso dataframe, para as maiores populações ficarem no topo
df = df.sort_values(by='pop',ascending=False)

#Uma vez ordenado, não precisamos mostrar todos os países, visto que uma boa parte deles possui uma representação pequena do total,
#apenas os 10 primeiros já devem servir, por isso utilizaremos a função head()
#Vamos utilizar a população como escala de cor para utilizar a cor de forma consciente,
fig = px.bar(df.head(10), y="country",x='pop', color="pop", orientation='h'
            ,color_continuous_scale=px.colors.sequential.Blues)

fig.update_layout(
    title='Países mais populosos da Europa',
    xaxis_title='População(Milhões)',
    yaxis_title='Países',
    yaxis_autorange="reversed"
)

#Agora, iremos colocar o texto que representa a quantidade de cada população, e posiciona-lo fora da nossa barra
fig.update_traces(
    texttemplate='%{x:.2s}',
    textposition='outside'
)
# Agora iremos usar o tema branco e trocar a fonte.
fig.update_layout(
        font_family = 'Helvetica',
        template='plotly_white'
    )
fig.show()

In [31]:
df2=px.data.gapminder().query('year==2007').query("continent=='Europe'")
df2.loc[df2['pop']<2.e6,'country']='Other countries'
df2=df2.sort_values('pop',ascending=False)
fig2=px.bar(df2.head(10),x='pop',y='country',orientation='h',color_continuous_scale=px.colors.sequential.Blues,color='pop')
fig.update_layout(
    title='População da Europa',
    xaxis_title='População(milhões)',
    yaxis_title='Países',
    font_family='Arial',
    template='plotly_white'
)

### Exercício 2 - Gorjetas Restaurante

O gráfico abaixo representa a quantidade de gorjetas dadas em um restaurante, o que podemos melhorar nessa visualização?

In [43]:
import plotly.express as px
df = px.data.tips()
# Here we use a column with categorical data
fig = px.histogram(df, x="day", color="day", range_y=[15,90])
fig.update_layout(
    title='Gorjeta por semana',
    yaxis_title='Gorjeta',
    xaxis_title='Dias',
    template='plotly_white',
    font_family='Helvetica'
)
fig.update_traces(
    texttemplate='%{y:.2s}',
    textposition='outside'
)

### Exercício 2 - Proposta de resolução.

Alguns pontos de melhoria:
- Será que precisamos realmente de uma cor para cada dia da semana? Talvez isso deixe a visualização mais confusa do que o necessário.
- É sempre importante preservar a ordem cronológica para visualizações que envolvem datas, meses, dias da semana e etc.
- O eixo Y não parece estar no range de valores ideal.

In [4]:
# Esta função recebe uma figura do Plotly e atualiza alguns elementos do seu layout
def plot_thalles(fig):
    # Faça as alterações que achar interessante
    # No nosso caso vamos mudar a fonte para Helvetica, mudar a cor do background para branco e colocar as fontes dos eixos em cinza
    fig.update_layout(
        font_family = 'Helvetica',
        template='plotly_white'
    )

    # Dê o show na figura
    fig.show()

In [5]:
import plotly.express as px
df = px.data.tips()
# Here we use a column with categorical data
fig = px.histogram(df, x="day",category_orders = {"day": ["Thur", "Fri", "Sat", "Sun"]})

fig.update_layout(
    title='Gorjetas por dia da semana',
    xaxis_title='Dias da Semana',
    yaxis_title='Quantidade de gorjetas',
)

plot_thalles(fig)

### Exercício 3 - Total Gastos

Agora vamos tentar entender como é o comportamento dos nossos clientes em nosso restaurante, qual dia eles tendem a gastar mais? Será que fumantes gastam mais do que não fumantes? O gráfico abaixo tenta a responder perguntas como essa, porém algumas melhorias precisam ser feitas.

Variáveis encontradas no dataset:
- total_bill (Valor total gasto no restaurante)
- smoker (Se a pessoa é ou não fumante)
- sex (gênero da pessoa)
- day (dia da semana que a pessoa foi no restaurante)

In [6]:

import plotly.express as px
df = px.data.tips()
fig = px.bar(df, x="day", y="total_bill", color="smoker")
fig.show()

Alguns pontos de melhoria:
- Precisamos agrupar os dados para visualizalos de forma mais simples.
- Mais uma vez temos o problema de preservar a ordem cronológica (Quinta, Sexta, Sábado e Domingo)
- Outro problema são os eixos X e Y que não estão na melhor distribuição]
- Uma variável aparenta ter ficado faltando na visualização

In [44]:
df3_1 = df.groupby(['day', 'sex', 'smoker'], as_index = False).agg({'total_bill': 'sum'})


fig3 = px.bar(df3_1,\
     x ="sex",
     category_orders= {'day' : ['Thur' , 'Fri', 'Sat', 'Sun']},
     y ='total_bill',
     labels={'sex' : 'Genero', 'day' : 'Dia'},
     title = 'Total gasto entre fumante e não fumantes',
     color = 'smoker',
     facet_col= 'day',
     color_discrete_sequence=["lightgrey", "red"],
)

fig3.update_layout(
    barmode = 'group',
    font_family = 'Helvetica',
    yaxis_title = 'Montante da fatura (R$)',
    template='plotly_white'
)

fig3.update_traces(texttemplate='%{y:.2s}', textposition='outside')

fig3.show()