# Introdução

Nesse notebook vamos aprender como criar gráficos boxplot usando a biblioteca chamada "plotly". Abandone definitivamente o excel e vamos mergulhar nessa ferramenta de visualização incrível (e mais simples que o o matplotlib puro).

Para esse tutorial irei utilizar o dataset "pesquisa_populaçao" e vamos importar de dentro da pasta "data" o xls chamado "pesquisa_populacao". A seguir vamos chamar o comando tbl.head() para mostrar as primeiras 5 linhas do nosso dataset.

In [17]:
import pandas as pd

tbl = pd.read_excel("../data/pesquisa_populacao.xlsx")
tbl

Unnamed: 0,Nome,Idade,Cidade,Salário,Altura,Peso,Cor preferida
0,Joana D'arc,20,Itupeva,500,1.68,55,Amarelo
1,Maria da Silva,19,Presidente Médici,1500,1.87,77,Salmão
2,Ligia Antunes Laurindo,15,Rio Crespo,2500,1.17,89,Laranja
3,Márcio Ferreira de Souza,80,Rolim de Moura,2535,1.51,90,Preto
4,Lourdes Maria de Souza,85,Santa Luzia D´oeste,3015,1.68,102,Roxo
5,Érica Ferrari Januário,50,Vilhena,3700,1.77,100,Vermelho
6,Laura Maira dos Santos,40,São Miguel do Guaporé,1508,1.69,50,Azul
7,Abel dos Santos Silva,31,Nova Mamoré,3580,1.81,89,Branco
8,Abelardo Cândido Júnior,25,Alvorada D´oeste,6080,1.64,52,Preto
9,Lucas Pereira Silveira,38,Alto Alegre Dos Parecis,6808,1.82,56,Laranja


## Criando nosso primeiro gráfico boxplot

Agora vamos criar nosso primeiro gráfico boxplot (bem simples) utilizando algumas opções básicas do plotly. Mas antes, vamos importar a biblioteca usando o comando de importação.

In [13]:
import plotly.express as px

O plotly funciona de forma mais simples que o matplotlib tradicional. Para criar esse gráfico é necessário apenas chamar a função "box" e passar como parâmetro o dataset informando qual coluna do dataset você quer usar como fonte de dados.

In [14]:
fig = px.box(tbl, y="Salário")
fig.show()

Se quisermos inserir vários bosxplots na mesma figura podemos fazer o seguinte:

In [16]:
fig = px.box(tbl, x="Cidade", y="Salário", points="all")
fig.show()

Nesse caso, podemos perceber que o eixo X contém as cidades e o eixo Y contém os salários. No entanto, nosso dataset possui apenas 1 salário por cidade, assim, podemos ver apenas alguns pontinhos (boxplots minusculos)

Se quisermos, por exemplo, classificar os salários e observar se existe uma diferença entre homens e mulheres precisamos modificar nosso dataset:


In [23]:
sexo = ["Feminino",  #0 
        "Feminino",  #1
        "Feminino",  #2
        "Masculino", #3
        "Feminino",  #4
        "Feminino", #5
        "Feminino", #6
        "Masculino", #7
        "Masculino", #8
        "Masculino", #9
        "Masculino", #10
        "Feminino", #11
        "Masculino", #12
        "Masculino", #13
        "Masculino", #14
        "Masculino", #15
        "Masculino", #16
        "Masculino", #17
        "Masculino", #18
        "Feminino", #19
        "Feminino", #20
        "Feminino", #21
        "Feminino", #22
        "Masculino", #23
        "Masculino", #24
        "Masculino", #25
        "Masculino", #26
        "Masculino", #27
        "Feminino", #28
        "Feminino"] #29
len(sexo)

30

In [26]:
tbl['Sexo'] = pd.Series(sexo)
tbl.head()

Unnamed: 0,Nome,Idade,Cidade,Salário,Altura,Peso,Cor preferida,Sexo
0,Joana D'arc,20,Itupeva,500,1.68,55,Amarelo,Feminino
1,Maria da Silva,19,Presidente Médici,1500,1.87,77,Salmão,Feminino
2,Ligia Antunes Laurindo,15,Rio Crespo,2500,1.17,89,Laranja,Feminino
3,Márcio Ferreira de Souza,80,Rolim de Moura,2535,1.51,90,Preto,Masculino
4,Lourdes Maria de Souza,85,Santa Luzia D´oeste,3015,1.68,102,Roxo,Feminino


Agora podemos fazer o mesmo, porém usando como eixo X o "sexo":

In [32]:
fig = px.box(tbl, x="Sexo", y="Salário", points="all")
fig.show()

As cores são controladas pelo parâmetro "color" e precisa ser informado qual coluna será usada. Para isso vamos adicionar mais uma coluna chamada "situação" com os valores "solteiro" ou "casado"

In [38]:
situacao = ["Solteiro",  #0 
        "Casado",  #1
        "Casado",  #2
        "Solteiro", #3
        "Casado",  #4
        "Casado", #5
        "Solteiro", #6
        "Casado", #7
        "Solteiro", #8
        "Casado", #9
        "Casado", #10
        "Solteiro", #11
        "Casado", #12
        "Solteiro", #13
        "Casado", #14
        "Solteiro", #15
        "Casado", #16
        "Solteiro", #17
        "Casado", #18
        "Solteiro", #19
        "Casado", #20
        "Solteiro", #21
        "Casado", #22
        "Solteiro", #23
        "Casado", #24
        "Solteiro", #25
        "Casado", #26
        "Solteiro", #27
        "Solteiro", #28
        "Casado"] #29
len(situacao)

30

In [41]:
tbl['Situação'] = pd.Series(situacao)
fig = px.box(tbl, color="Sexo", y="Salário", x="Situação", points="all")
fig.show()

Quer adicionar aquela "cinturinha" para seu box plot? use o notched

In [45]:
df = px.data.tips()
fig = px.box(tbl,  color="Sexo", y="Salário", x="Situação", points="all",
             notched=True, # used notched shape
             title="Box plot of total bill"
            )
fig.show()