# Prática de Seaborn para visualizacao de dados

Site do Seaborn: https://seaborn.pydata.org/

Seaborn é uma biblioteca para fazer gráficos estatísticos em Python. Ele se baseia no matplotlib e se integra intimamente às estruturas de dados do pandas.

Seaborn ajuda você a explorar e compreender seus dados. Suas funções de plotagem operam em dataframes e arrays contendo conjuntos de dados inteiros e realizam internamente o mapeamento semântico e agregação estatística necessários para produzir gráficos informativos. Sua API declarativa orientada a conjuntos de dados permite que você se concentre no significado dos diferentes elementos de seus gráficos, em vez de nos detalhes de como desenhá-los.

In [1]:
# importar as bibliotecas necessárias


In [2]:
# Importar as bases de dados que iremos usar nesse tutorial


In [3]:
# Checar primeiras linhas dos arquivos


### Graficos Relacionais:
Estes tipos de gráficos sao utilizados para analisar a relacao entre as informacoes das bases de dados,

- Gráfico de dispersão - Scatter Plot
- Gráficos de linha - Line Plots

## Gráfico de dispersao - Scatter Plot

Esse tipo de gráfico é muito bom para visualizar as relacoes entre duas variáveis numéricas.
<br>
sns.scatterplot(data, x, y, hue, style, palette, size, sizes, legend, markers...) ou também sns.relplot()

In [4]:
# Plotar um gráfico para ver o quanto as pessoas estao pagando de acordo com a idade.



In [5]:
# Mudar o tamanho do grafico

# Comando para alterar o tamanho do grafico


In [6]:
# Escolhendo o estilo do gráfico (darkgrid, whitegrid, dark, white e ticks) 



In [7]:
# Nós podemos usar o parametro 'hue' para ver mais uma variável
# Plotar um gráfico para checar o quanto as pessoas estavam pagando de acordo com a sua idade e genero.



In [8]:
# Podemos mudar os marcadores de um gráfico de acordo com um parametro.
# Neste exemplo iremos alterar o estilo do marcador de acordo com a classe da passagem
# Vamos plotar um gráfico para entender quanto as pessoas estavam pagando de acordo com a sua idade e com a classe escolhida.



## Gráficos de Linha - Line plots

Gráficos de linha sao ótimos para analizar as mudancas em uma variável em respeito a outro, como por exemplo, o tempo, entender como uma variável se comporta em relacao ao tempo.

<br>
Para criar gráficos de linha no Seaborn, nós iremos utilizar sns.relplot(), com o parametro 'kind' como 'line'.
Por exemplo, nós podemos criar um grafico de dispersao mudando o tipo no sns.relplot() para 'scatter'.

In [None]:
# Plotar gráfico de linha para checar a quantidade de passageiros voaram com o tempo.



In [10]:
# Plotar um gráfico para checar o quanto foi a evolucao da quantidade de passageiros que voaram desde 1940.



### Essa cor azul clara no fundo da linha se chama 'intervalo de confianca' (confidence interval)'. 
<br>
Esse fundo é importante quando estamos plotando um gráfico de um modelo machine learning com as nossas previsoes, isso quer dizer que o resultado estará entre esse espaco.

Nós podemos remove-lo usando "errorbar=None"

In [11]:
# Vamos plotar o mesmo gráfico de passageiros por mes, mas sem o intervalo de confianca.



### É possível também adicionar mais de um gráfico de acordo com um terceiro parametro adicionando 'col'

In [12]:
# Plotar um gráfico par analisar as gorjetas de acordo com o valor total da conta e se a pessoas era fumante ou nao  


# Agora plotar a mesma informacao, porem de acordo com o horário da refeicao



### Este tipo de gráfico é importante para entender as várias relacoes que podemos ter usando diferentes variáveis e analisar como elas variam de acordo com cada cenário.

------------------

## Gráficos de Distribuicao - Distribution Plots

Esses tipos de gráficos são usados para mostrar como as informações estão espalhadas. Quando entendemos como os dados estão organizados, podemos descobrir a faixa de valores que eles abrangem, qual é o valor que costuma ser mais comum e se eles estão mais inclinados para um lado. Também é possível identificar valores que são diferentes dos outros, chamados de "valores discrepantes

Funcoes dos Gráficos de Distribuicao:

1. **displot()**: Mostra como seus números estão espalhados, como uma montanha de valores.
2. **jointplot()**: Combina duas informações diferentes em um gráfico para ver se estão conectadas.
3. **pairplot()**: Compara muitas informações diferentes entre si em vários gráficos.
4. **rugplot()**: Coloca marcas onde os números estão em um tapete para mostrar concentrações.
5. **kdeplot()**: Cria uma curva suave que dá uma ideia de como seus números estão organizados.


### Plotando histogrames com distplot() e histplot()

Histograma é um gráfico de barras cujo eixo x é uma variável ou recurso e o eixo y é a contagem de valores dessa variável específica. Por padrão, displot() cria um o histograma.

In [13]:
# Plotar histograma para ver a distribuicao de idade no titanic



### O histplot() tambem pode ser usado para exibir dados categóricos.

Dados categóricos são como etiquetas que classificam as coisas em grupos.<br> 
É como dividir as coisas em diferentes categorias, como cores, tipos de animais ou sabores de sorvete.<br> 
Esses dados não têm números ou valores, mas são usados para dizer qual grupo algo pertence. Por exemplo, se você está listando as cores favoritas das pessoas, os dados categóricos seriam os nomes das cores (vermelho, azul, verde) em vez de números.<br> São como rótulos que ajudam a organizar e entender diferentes grupos de coisas.

In [14]:
# Plotar um gráfico de distribuicao de acordo com o dia da semana 



### Assim como os gráficos relacionais, podemos inserir mais parametros para analisar melhor a distribuicao

In [15]:
# Plotar um gráfico onde vemos a distribuicao da idade dos passageiros do titanic, de acordo com sua classe.



In [16]:
# Plotar um gráfico onde vemos a distribuicao da idade dos passageiros do titanic, de acordo com seu genero.



## Gráficos Categóricos

Os gráficos categóricos são usados para visualizar dados em categorias.

No Seaborn, existem várias funções de gráficos que veremos:

Gráficos de estimativas categóricas

- **barplot()**: Mostra barras que representam a média de uma categoria.
- **countplot()**: Conta quantas vezes cada categoria aparece.
- **pointplot()**: Mostra pontos para comparar diferentes categorias.

Gráficos de distribuição categórica

- **boxplot()**: Mostra como os valores estão espalhados em uma categoria.
- **boxenplot()**: É como o boxplot, mas mostra mais detalhes.
- **violinplot()**: Mostra a distribuição dos valores de uma categoria.

Gráficos de dispersão categórica

- **stripplot()**: Mostra pontos para cada valor, empilhados em categorias.
- **swarmplot()**: Mostra pontos de forma mais organizada que o stripplot.

Assim como vimos nos gráficos de distribuição, o Seaborn também oferece uma função de alto nível chamada catplot() para plotar todos esses tipos acima. Você só precisa passar o parâmetro "kind". Na ordem em que estão listados acima, aqui estão os valores do parâmetro "kind": bar, count, point, box, boxen, violin, strip, swarm.

In [17]:
# Ao inves de escrevermos sns.tipografico, podemos usar sns.catplot e no argumento 'kind' passar o tipo do grafico
# Plotar um gráfico de barras para a base titanic, onde o eixo x é o genero e o y é sobreviveram ou nao, e divida por classe.



In [18]:
# Countplot


# Por hoje é isso, nos vemos na próxima  :)