# Creating graphs for data visualization

## Open dataframe

In [None]:
# Always start with

%matplotlib inline      #apareça o gráfico
import matplotlib.pyplot as plt

# Configure image size

plt.rc('figure', figsize = (20,10))

In [None]:
# Import csv file

df = pd.read_csv('pasta/arquivo.csv', sep=';')

In [None]:
# Open figure

< img src="nome_imagem.png" width= 78%>

## Viewing the data

In [None]:
# Simple single color bar chart

fig = grupo_bairro['Valor'].std().plot.bar(color = 'blue')

In [None]:
# Calculate the average of a variable. Also name the axis and create a title (changing the font)

fig = grupo_bairro['Valor'].mean().plot.bar(color = 'blue')
fig.set_ylabel('Valor do Aluguel')
fig.set_title('Valor Médio do Aluguel por Bairro', {'fontsize': 22})

### Removing Outliers

In [None]:
# First, we will calculate the quartiles.
# Calcularemos Q1 o primeiro quartil. Assim feito, prosseguiremos com o cálculo de Q3 e em seguida IIQ, o intervalo interquatílico. Precisamos, ainda, calcular os limites, que chamaremos de limite_inferior e limite_superior.

Q1 = valor.quantile(.25)
Q3 = valor.quantile(.75)
IIQ = Q3 - Q1
limite_inferior = Q1 - 1.5 * IIQ
limite_superior = Q3 + 1.5 * IIQ

# We will make a selection of the data that are only within these two limits

selecao = (valor >=limite_inferior) & (valor <= limite_superior)
dados_new = dados[selecao]



In [None]:
# Ungroup and perform analysis using other groupings

# 1st Create a group

grupo_tipo = dados.groupby('Tipo')
grupo_tipo = dados.groupby('Tipo')['Valor']

# 2nd Create the statistics

Q1 =  grupo_tipo.quantile(.25)
Q3 =  grupo_tipo.quantile(.75)
IIQ = Q3 - Q1
limite_inferior = Q1 - 1.5 * IIQ
limite_superior = Q3 + 1.5 * IIQ

# 3rd Create the selection and new dataframe

dados_new = pd.DataFrame()
for tipo in grupo_tipo.groups.keys():
    eh_tipo = dados['Tipo'] == tipo
    eh_dentro_limite = (dados['Valor'] >= limite_inferior[tipo]) & (dados['Valor'] <= limite_superior[tipo])
    selecao = eh_tipo & eh_dentro_limite
    dados_selecao = dados[selecao]
    dados_new = pd.concat([dados_new, dados_selecao])

##  Graphics settings

In [None]:
# Chart size (big)

fig = plt.figure(figsize= (15,8))   

In [None]:
# Insert title

plt.title('Insert the title')

In [None]:
# Create axis

fig = plt.figure(figsize= (15,8))
eixo = fig.add_axes([0, 0, 1, 1])

In [None]:
# Put visualization on the axis

...
eixo.plot(df.col1, df.col2)

In [None]:
# Put title on the axis

...
eixo.set_title('Insert the title')   
eixo.set_ylabel('axes Y')
eixo.set_xlabel('axes X')

In [None]:
# Increase font size

...
eixo.set_title('Insert the title', fontsize= 25)   
eixo.set_ylabel('axes Y', fontsize= 20)
eixo.set_xlabel('axes X', fontsize= 20)

In [None]:
# Include legend inside the axis
# Can change the position (loc)

...  
eixo.legend(['col1'], loc= 'lower right', fontsize= 15)   

In [None]:
# Change color (final)

fig = plt.figure(figsize=(15,8))
eixo = fig.add_axes([0, 0, 1, 1])
eixo.plot(df['data'], df['temperatura'], color = 'green')

eixo.set_title('Temperatura no momento', fontsize=25)
eixo.set_ylabel('Temperatura', fontsize=20)
eixo.set_xlabel('Data', fontsize=20)
eixo.legend(['temperatura'], loc = 'lower right', fontsize=15) 

In [None]:
# Change graph line thickness

...
eixo.plot(df['data'], df['temperatura'], color = 'g', lw = 4)
...

In [None]:
# Change line style

...
eixo.axhline(max(df['temperatura']), color='k', linestyle='--')
...

In [None]:
# Change graph line style (dotted line)

...
eixo.plot(df['data'], df['temperatura'], color = 'g', ls = 'dotted')
...

In [None]:
# change x-axis limit

...
eixo.set_xlim(datetime.datetime(2014,1,1),datetime.datetime(2015,1,1))
...

In [None]:
# change y-axis limit

...
eixo.set_ylim(0,50)

In [None]:
# Add markers on the chart

...
eixo.plot(df['data'], df['temperatura'], color = 'g', marker = 'o')
...

In [None]:
# Move title off chart (pad)

...
eixo.set_title('Temperatura em 2014', fontsize=25, pad = 20)
...

In [None]:
# Create a chart (detailed) within another
# loc='best' the plt choose the place

fig = plt.figure(figsize=(15,8))

eixo = fig.add_axes([0,0,1,1])
eixo2 = fig.add_axes([0.7,0.65,0.3,0.3])

eixo.grid(True)
eixo.plot(df['data'], df['temperatura'], color = 'green')
eixo.set_xlim(datetime.datetime(2014,1,1), datetime.datetime(2015,1,1))
eixo.set_title('Temperatura em 2014', fontsize=25, pad = 20)
eixo.set_ylabel('Temperatura', fontsize=20)
eixo.set_xlabel('Data', fontsize=20)
eixo.legend(['Temperatura'], loc = 'lower right', fontsize= 15)

eixo2.grid(True)
eixo2.plot(df['data'], df['temperatura'], color = 'b')
eixo2.legend(['Temperatura'], loc = 'lower right') 
eixo2.set_title('Temperatura 2012-2018', fontsize=15)

In [None]:
# Apply different focuses and paint only one window of the data in a different color

fig = plt.figure(figsize=(15,8))

eixo = fig.add_axes([0,0,1,1])
eixo2 = fig.add_axes([0.7,0.65,0.3,0.3])

eixo.grid(True)
eixo.plot(df['data'], df['temperatura'], color = 'green')
eixo.set_xlim(datetime.datetime(2014,5,1),datetime.datetime(2014,6,1)) # Apenas maio/14
eixo.set_ylim(0,50) # eixo y de 0 a 50
eixo.set_title('Temperatura em Maio/2014', fontsize=25, pad = 20)
eixo.set_ylabel('Temperatura', fontsize=20)
eixo.set_xlabel('Data', fontsize=20)
eixo.legend(['Temperatura'], loc = 'lower right', fontsize= 15)

eixo2.grid(True)
eixo2.plot(df['data'], df['temperatura'], color = 'b')
eixo2.set_xlim(datetime.datetime(2014,1,1),datetime.datetime(2015,1,1)) # Apenas 2014
eixo2.legend(['Temperatura'], loc = 'lower right')
eixo2.set_title('Temperatura 2014', fontsize=15)

In [None]:
# Draw horizontal lines at the maximum and minimum points

...
eixo.axhline(max(df['temperatura']), color='k', linestyle='--')
eixo.axhline(min(df['temperatura']), color='k', linestyle='--')

In [None]:
# Make arrows with annotations pointing to the maximum and minimum points

# Location on the chart
x1 = df['data'][df['temperatura'].idxmax()]      
y1 = max(df['temperatura'])

# Origin/position location arrow --- max value
x2 = df['data'][df['temperatura'].idxmax() - 7000]
y2 = y1 - 5

# Text position , arrow offset e facecolor (color arrow) --- max value
eixo.annotate("Máximo", fontsize = 20,
            xy=(x1, y1), xytext=(x2, y2),
            arrowprops=dict(facecolor = ‘k')
            )

# Origin/position location arrow --- min value 
x1 = df['data'][df['temperatura'].idxmin()]
y1 = min(df['temperatura'])

x2 = df['data'][df['temperatura'].idxmin() - 7000]
y2 = y1 +5

              
# Text position , arrow offset e facecolor (color arrow) --- min value
eixo.annotate("Mínimo", fontsize = 20,
            xy=(x1, y1), xytext=(x2, y2),
            arrowprops=dict(facecolor = ‘k’)
            )

              
# Set value              
eixo.axhline(max(df['temperatura']), color='k', linestyle='--')
eixo.axhline(min(df['temperatura']), color='k', linestyle='--')

In [None]:
# Color a bar of each color and add border to the bars

...
cores = ['black', 'r', 'g', 'b', 'yellow', 'orange', 'magenta']

eixo.bar(indice, temperatura_por_dia_da_semana, color=cores, edgecolor='black')
...

In [None]:
# Explode the pizza slices and add shadow to the pizza
# Follows the list created at the same position, above 0 moves away from the center (explodes)
...
explodir = [0.1, 0, 0, 0, 0, 0.1, 0.1]

eixo.pie(temperatura_por_dia_da_semana, labels=temperatura_por_dia_da_semana.index,
         autopct='%.1f%%', explode=explodir, shadow=True)
...

In [None]:
# Increase the size of the X and Y axis numbers (increase the size of the parameters (legend) of the axes)

...
eixo.tick_params(labelsize=15)

In [None]:
# Color the different groups with different colors and add a caption

...

cores = {'Iris-setosa': 'r', 'Iris-versicolor': 'b', 'Iris-virginica': 'g'}

for especie in df['espécie'].unique():
    tmp = df[df['espécie'] == especie]
    eixo.scatter(tmp['comprimento_sépala'], tmp['largura_sépala'],
                 color=cores[especie])

#eixo.set_title('Gráfico de dispersão', fontsize=25, pad=15)
#eixo.set_xlabel('Comprimento da sépala', fontsize=15)
#eixo.set_ylabel('Largura da sépala', fontsize=15)
#eixo.tick_params(labelsize=15)
eixo.legend(cores, fontsize=20)

In [None]:
# Change the markers, making a different marker for each group and increase the size of the markers

...
cores = {'Iris-setosa': 'r', 'Iris-versicolor': 'b', 'Iris-virginica': 'g'}
marcadores = {'Iris-setosa': 'x', 'Iris-versicolor': 'o', 'Iris-virginica': 'v'}

for especie in df['espécie'].unique():
    tmp = df[df['espécie'] == especie]
    eixo.scatter(tmp['comprimento_sépala'], tmp['largura_sépala'],
                 color=cores[especie], marker=marcadores[especie],
                 s=100)
...

In [None]:
# Make a box graph for each of the variables, outside the group

fig = plt.figure(figsize=(8,5))
eixo = fig.add_axes([0,0,1,1])

# Throw out column that has no useful variation
# And take all possible variables
# Becomes an array

eixo.boxplot(df.drop('espécie', axis=1).values)
eixo.set_title('Gráfico de caixa', fontsize=15, pad=10)
eixo.set_xticklabels(df.drop('espécie', axis=1).columns)

In [None]:
# Color the boxes, each with different colors

fig = plt.figure(figsize=(8,5))
eixo = fig.add_axes([0,0,1,1])

cores = ['red', 'blue', 'orange', 'green']

# patch_artist = Fill in the box
caixas = eixo.boxplot(df.drop('espécie', axis=1).values, patch_artist=True)
eixo.set_title('Gráfico de caixa', fontsize=15, pad=10)
eixo.set_xticklabels(df.drop('espécie', axis=1).columns)

# Assign a color to each group
for caixa, cor in zip(caixas['boxes'], cores):
    caixa.set(color=cor)

In [None]:
# Change the outliers marker on the box graph

...
for outlier in caixas['fliers']:
    outlier.set(marker='x', markersize=8)

In [None]:
# Add grid and density to the histogram

...
eixo.hist(df['comprimento_pétala'], bins=20)
...

In [None]:
# Normalized vision (change ratio)

...
eixo.hist(df['comprimento_pétala'], bins=20, density=True)
...

In [None]:
# Switch from vertical to horizontal 

...
eixo.hist(df['comprimento_pétala'], bins=20, orientation='horizontal')
...

In [None]:
# Add annotation indicating the mean and standard deviation in the histogram

fig = plt.figure(figsize=(5,4))
eixo = fig.add_axes([0,0,1,1])

# Mu= mean/ Sigma= standard deviation
mu, sigma = df['comprimento_pétala'].mean(), df['comprimento_pétala'].std()

eixo.hist(df['comprimento_pétala'], bins = 20, density = True)

eixo.grid(True)
eixo.set_title('Histograma', fontsize = 15, pad = 10)
eixo.set_xlabel('Comprimento da pétala', fontsize = 15)


# Write on the chart 
# $= writes in formula
# {0:.2f}= two decimal places
# n$= skip a line
# xy = localization

eixo.annotate('$\mu = {0:.2f}$\n$\sigma={1:.2f}$'.format(mu, sigma), 
              xy=(4.5, 0.5), fontsize=20)

In [None]:
# Paint letter (annotate)

...
eixo.annotate('mediana', xy=(df_ivg['comprimento_pétala'].median(), 7), fontsize=20, color = 'g')
...

In [None]:
# Add a horizontal line indicating the position of the mean in the histogram

...
mu, sigma = df['comprimento_pétala'].mean(), df['comprimento_pétala'].std()
...

eixo.annotate('$\mu = {0:.2f}$\n$\sigma={1:.2f}$'.format(mu, sigma), 
              xy=(4.5, 0.5), fontsize=20)

# Draw straight
eixo.axvline(df['comprimento_pétala'].mean(), color='k', linestyle='--')

# Identifies as mean
eixo.annotate('média', xy=(df['comprimento_pétala'].mean(), 28), fontsize=20)

In [None]:
# Add a horizontal line indicating the position of the median in the histogram

...
mu, sigma = df['comprimento_pétala'].mean(), df['comprimento_pétala'].std()
...

eixo.annotate('$\mu = {0:.2f}$\n$\sigma={1:.2f}$'.format(mu, sigma), 
              xy=(4.5, 0.5), fontsize=20)

# Draw straight
eixo.axvline(df['comprimento_pétala'].median(), color='g', linestyle='--')

# Identifies as median
eixo.annotate('mediana', xy=(df['comprimento_pétala'].median(), 31), fontsize=20, color = 'g')

In [None]:
# Make a histogram directed to a column and variable

...
# Data filter
fig = plt.figure(figsize=(5,4))
eixo = fig.add_axes([0,0,1,1])

df_iv = df[df['espécie'] == 'Iris-versicolor']

mu, sigma = df_iv['comprimento_pétala'].mean(), df_iv['comprimento_pétala'].std()

eixo.hist(df_iv['comprimento_pétala'], bins = 20)
eixo.grid(True)
eixo.set_title('Histograma Iris Versicolor', fontsize = 15, pad = 10)
eixo.set_xlabel('Comprimento da pétala', fontsize = 15)

eixo.annotate('$\mu = {0:.2f}$\n$\sigma={1:.2f}$'.format(mu, sigma), 
              xy=(4.6, 6), fontsize=20)

eixo.annotate('média', xy=(df_iv['comprimento_pétala'].mean()-0.5, 5.5), fontsize=20)
eixo.axvline(df_iv['comprimento_pétala'].mean(), color='k', linestyle='--')

eixo.annotate('mediana', xy=(df_iv['comprimento_pétala'].median() - 0.7, 6.5), fontsize=20, color = 'g')
eixo.axvline(df_iv['comprimento_pétala'].median(), color='g', linestyle='--')



# change the position for each figure

...
eixo.annotate('$\mu = {0:.2f}$\n$\sigma={1:.2f}$'.format(mu, sigma), 
              xy=(1.7, 7), fontsize=20)

eixo.annotate('média', xy=(df_is['comprimento_pétala'].mean()-0.2, 13.5), fontsize=20)
eixo.axvline(df_is['comprimento_pétala'].mean(), color='k', linestyle='--')

eixo.annotate('mediana', xy=(df_is['comprimento_pétala'].median()+0.05, 12), fontsize=20, color = 'g')
eixo.axvline(df_is['comprimento_pétala'].median(), color='g', linestyle='--')



# Last figure

...
eixo.annotate('$\mu = {0:.2f}$\n$\sigma={1:.2f}$'.format(mu, sigma), 
              xy=(6.3, 7), fontsize=20)

eixo.annotate('média', xy=(df_ivg['comprimento_pétala'].mean(), 8), fontsize=20)
eixo.axvline(df_ivg['comprimento_pétala'].mean(), color='k', linestyle='--')

eixo.annotate('mediana', xy=(df_ivg['comprimento_pétala'].median(), 7), fontsize=20, color = 'g')
eixo.axvline(df_ivg['comprimento_pétala'].median(), color='g', linestyle='--')

In [None]:
# Combine the targeted histograms into a single figure

#import new library
from PIL import Image

# Size image
largura_imagem, altura_imagem = Image.open('histograma_iv.png').size

# New image (3 image = 3*)
combinada = Image.new("RGB", (largura_imagem*3, altura_imagem))


# Distribute images
x_offset = 0
for imagem in map(Image.open, ['histograma_iv.png', 'histograma_is.png', 'histograma_ivg.png']):
    combinada.paste(imagem, (x_offset, 0))
    x_offset += largura_imagem        #join image
    
    
combinada.save('combinada.png')

### Chart/graphics types

In [None]:
# Box-plot

dados.boxplot(['col1'])

#or

dados.boxplot(['col1'], by = ['col2'])

In [None]:
# Line graph

plt.plot(df['col1'], df.col2)

In [None]:
# Histogram

dados.hist(['col1'])

In [None]:
# Create 4 Chart  in one figure


# 1st Define the sizes and division of the graphics display
area = plt.figure() 
g1 = area.add_subplot(2, 2, 1)
g2 = area.add_subplot(2, 2, 2)
g3 = area.add_subplot(2, 2, 3)
g4 = area.add_subplot(2, 2, 4)

# 2nd Assemble charts

g1.scatter(dados.Valor, dados.Area)
g1.set_title('Valor X Área')

g2.hist(dados.Valor)
g2.set_title('Histograma')

# create with random values
dados_g3 = dados.Valor.sample(100) 
dados_g3.index = range(dados_g3.shape[0])
g3.plot(dados_g3)
g3.set_title('Amostra (Valor)')

grupo = dados.groupby('Tipo')['Valor']
label = grupo.mean().index
valores = grupo.mean().values
g4.bar(label, valores)
g4.set_title('Valor Médio por Tipo')

In [None]:
# Pie chart (simple)

# Size fig
fig = plt.figure(figsize=(5,4))
eixo = fig.add_axes([0,0,1,1])

# Define axes and put caption
eixo.pie(temperatura_por_dia_da_semana, labels=temperatura_por_dia_da_semana.index,
         autopct='%.1f%%')
eixo.set_title('Temperatura por dia da semana', fontsize=15, pad=10)

In [None]:
# Pie chart

area = plt.figure()
g1 = area.add_subplot(1, 2, 1)
g2 = area.add_subplot(1, 2, 2)
grupo1 = dados.groupby('Tipo Agregado')['Valor']
label = grupo1.count().index
valores = grupo1.count().values
g1.pie(valores, labels = label, autopct='%1.1f%%')
g1.set_title('Total de Imóveis por Tipo Agregado')
grupo2 = dados.groupby('Tipo')['Valor']
label = grupo2.count().index
valores = grupo2.count().values
g2.pie(valores, labels = label, autopct='%1.1f%%', explode = (.1, .1, .1, .1, .1))
g2.set_title('Total de Imóveis por Tipo')

In [None]:
# Bar chart

# Group data and organize data (filter)
temperatura_por_dia_da_semana = df.groupby('dia_da_semana')['temperatura'].mean()
nome_dias = ['Domingo', 'Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado']
temperatura_por_dia_da_semana = temperatura_por_dia_da_semana[nome_dias]

# Size fig
fig = plt.figure(figsize=(5,4))
eixo = fig.add_axes([0,0,1,1])

# index with data list
indice = range(len(temperatura_por_dia_da_semana))

# Define axes
eixo.bar(indice, temperatura_por_dia_da_semana)
eixo.set_title('Temperatura por dia da semana', fontsize=15, pad=10)
eixo.set_xlabel('Dia da semana', fontsize=15)
eixo.set_ylabel('Temperatura média', fontsize=15)

# Put subtitle titles
eixo.set_xticks(indice)
eixo.set_xticklabels(nome_dias)

In [None]:
# Simple scatterplot

fig = plt.figure(figsize=(15,8))
eixo = fig.add_axes([0,0,1,1])

eixo.scatter(df['comprimento_sépala'], df['largura_sépala'])
eixo.set_title('Gráfico de dispersão', fontsize=25, pad=15)
eixo.set_xlabel('Comprimento da sépala', fontsize=15)
eixo.set_ylabel('Largura da sépala', fontsize=15)

In [None]:
# Simple histogram

fig = plt.figure(figsize=(5,4))
eixo = fig.add_axes([0,0,1,1])

eixo.hist(df['comprimento_pétala'])
eixo.set_title('Histograma', fontsize=15, pad=10)
eixo.set_xlabel('Comprimento da pétala', fontsize=15)
eixo.grid(True)

## Finalize file

In [None]:
# Save Image

area.savefig('grafico.png', dpi = 300, bbox_inches = 'tight')

In [None]:
# OR (with PIL(library))

nome_image.save('combinada.png')

In [None]:
# Another way (borderless)

fig.savefig('histograma_iv.png', bbox_inches='tight')