# Creating graphs for data visualization

## Open dataframe

In [None]:
# Always start with

!pip install seaborn==0.9.0
import seaborn as sns

from scipy.stats import ranksums

## Viewing the data

In [None]:
# see with filter

gorjetas[gorjetas.sobremesa == 'Sim'].describe()

### Testes de hipótese

In [None]:
# Calculate percentage

sobremesa = gorjetas.query("sobremesa == 'Sim'").porcentagem
sem_sobremesa = gorjetas.query("sobremesa == 'Não'").porcentagem

In [None]:
# Check difference

r = ranksums(sobremesa, sem_sobremesa)
print('O valor do p-value é {}'.format(r.pvalue))

# O p-value representa a probabilidade daquela amostra ter acontecido dentro da população. Se a chance é pequena, 
# geralmente p-value < 0,05, representa que um evento muito raro aconteceu, 
# então optamos por descartar a hipótese nula, e dizer que ela pode não ser verdade.

##  Graphics settings

In [None]:
# Print result

print('A base de dados contém {} registros'.format(gorjetas.shape[0]))

In [None]:
# Save figure

primeiro_plot.get_figure()

In [None]:
# Insert title

primeiro_plot.figure.suptitle('Valor da conta x Gorjeta')

In [None]:
# Insert subtitle

primeiro_plot.set_title('Análise do valor da gorjeta em função do valor da conta')

In [None]:
# Change label text

primeiro_plot.set(xlabel='Valor da conta', ylabel='Valor da gorjeta')

In [None]:
# Same chart in two columns (with col)

sns.relplot(x='valor_da_conta', y='gorjeta', hue='sobremesa', col='sobremesa', data=gorjetas)

# OR

sns.relplot(x='valor_da_conta', y='gorjeta', col='sobremesa', data=gorjetas)


In [None]:
# Categorical plot

sns.catplot(x='dia_da_semana', y='valor_da_conta', data=gorjetas)

In [None]:
# Chart united all sections (hue=color)

sns.relplot(x='valor_da_conta', y='gorjeta', hue='dia_da_semana', data=gorjetas)

In [None]:
# Many chart united all sections (hue=color) (col=many charts)

sns.relplot(x='valor_da_conta', y='gorjeta', hue='dia_da_semana', col='dia_da_semana', data=gorjetas)

#or

sns.lmplot(x='valor_da_conta', y='porcentagem', hue='dia_da_semana', col='dia_da_semana', data=gorjetas)

In [None]:
# Make an average

# one
media_geral_gorjeta = gorjetas.gorjeta.mean()

# Many
gorjetas.groupby(['dia_da_semana']).mean()

In [None]:
# Put only values you want to display

gorjetas.groupby(['dia_da_semana']).mean()[['valor_da_conta', 'gorjeta', 'porcentagem']]

In [None]:
# Check frequency

gorjetas.dia_da_semana.value_counts()

### Chart/graphics types

In [None]:
# scatterplot - Simple

valor_gorjeta = sns.scatterplot(x= 'valor_da_conta', y= 'gorjeta', data=gorjetas)

In [None]:
# Line graph - Simple (kind=line)

porcentagem_conta_linha = sns.relplot(x='valor_da_conta, y='porcentagem', kind='line', data-gorjetas)

In [None]:
# Trend line graph

sns.lmplot(x='valor_da_conta', y='porcentagem', data=gorjetas)

In [None]:
# Categorical "yes" or "no" graph]

sns.catplot(x='sobremesa', y='gorjeta', data=gorjetas)

In [None]:
# Chart united with 2 sections (hue=color)

sns.relplot(x='valor_da_conta', y='gorjeta', hue='sobremesa', data=gorjetas)

In [None]:
# Chart united with 2 sections and line graph - Simple (kind=line)

sns.relplot(x='valor_da_conta', y='gorjeta', col='sobremesa', hue='sobremesa', kind='line', data=gorjetas)

In [None]:
# Chart united with 2 sections and trend line graph

sns.lmplot(x='valor_da_conta', y='gorjeta', col='sobremesa', hue='sobremesa', data=gorjetas)

In [None]:
# Better visualize each of the pointsKind= 'swarm'.

sns.catplot(x='hora_do_dia', y='valor_da_conta', kind='swarm', data=gorjeta)

In [None]:
# Pussy graph

sns.violinplot(x='hora_do_dia', y='valor_da_conta', data=gorjeta)

In [None]:
# Boxplot

sns.boxplot(x='hora_do_dia', y='valor_da_conta', data=gorjeta)

In [None]:
# Histogram

almoco = gorjetas.query("hora_do_dia == 'Almoço'").valor_da_conta
sns.distplot(almoco)

# Or (better visualize)

sns.distplot(almoco, kde=False)

## Finalize file

In [None]:
# Save Image

imagem.savefig('imagem.png')