In [None]:
# importar bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
# setar configurações
%matplotlib inline
pd.options.display.max_rows = 6000
pd.options.display.max_columns = 999

In [None]:
# carregar o dataframe df_brcities com o arquivo BRAZIL_CITIES.csv
df_brcities = pd.read_csv("../datasets/BRAZIL_CITIES.csv", sep = ";", thousands = ',')

In [None]:
# Agrupar e contar as cidades por Estado, gerando uma Serie
sr_cidadesporestado = df_brcities.groupby(['STATE'])['CITY'].count()

# Grafico de Barras Verticais, contando Cidades por Estado, usando Pandas (Sintaxe 1)
barplot1 = sr_cidadesporestado.plot(kind='bar', color='red', figsize=(12,8))
barplot1.set(xlabel="UF", ylabel="Quantidade de Cidades", title='Cidades por UF')

In [None]:
# Grafico de Barras Verticais, contando Cidades por Estado, usando Seaborn com Countplot

# Opcional: Darkgrid
sns.set(style="darkgrid")

plt.figure(figsize=(15,16))
snsbar1 = sns.countplot(data=df_brcities, x='STATE')
snsbar1.set(xlabel='UF', ylabel='Quantidade de Cidades', title='Cidades por UF')

In [None]:
# Gráfico de Barras Horizontais por Característica de Cidade, usando Pandas (Sintaxe 2)
barplot2 = df_brcities.RURAL_URBAN.value_counts().plot(kind='barh', color='green', figsize=(12,8))
barplot2.set(xlabel="Característica", ylabel="Quantidade de Cidades", title='Cidades por Característica')

In [None]:
# Gráfico de Barras Horizontais por Característica de Cidade, usando Seaborn

# Agrupar e contar as cidades por RURAL_URBAN, gerando uma Serie
sr_cidadesporcaract = df_brcities.groupby(['RURAL_URBAN'])['CITY'].count()
df_cidadesporcaract = sr_cidadesporcaract.to_frame()

plt.figure(figsize=(12,8))
snsbar2 = sns.barplot(data = df_cidadesporcaract.reset_index(), x = 'CITY', y = 'RURAL_URBAN')
snsbar2.set(xlabel="Característica", ylabel="Quantidade de Cidades", title='Cidades por Característica')

In [None]:
# Agrupar e tirar a média de IDHM, IDHM_Renda, IDHM_Longevidade, IDHM_Educacao por Estado (Região Sul), gerando um Dataframe
df_idhm = df_brcities[(df_brcities['STATE'] == 'PR') | (df_brcities['STATE'] == 'SC') | (df_brcities['STATE'] == 'RS')].groupby(['STATE'])['IDHM', 'IDHM_Renda', 'IDHM_Longevidade', 'IDHM_Educacao'].mean()

# Gráfico de Barras Verticais com mais de uma Serie = Média de IDHM, IDHM_Renda, IDHM_Longevidade, IDHM_Educacao) - Usando Pandas
barplot3 = df_idhm.plot(kind='bar', figsize=(12,8))
barplot3.set(xlabel="UF", ylabel="Média", title='Média IDHM - Região Sul')

In [None]:
# Gráfico de Barras Verticais com mais de uma Serie = Média de IDHM, IDHM_Renda, IDHM_Longevidade, IDHM_Educacao) - Usando Seaborn

# Fazer Reshape do Dataframe para o Seaborn
df_idhm = df_idhm.reset_index()
df_idhm_reshaped = df_idhm.melt(id_vars='STATE').rename(columns=str.title)

plt.figure(figsize=(12,8))
snsbar3 = sns.barplot(x='State', y='Value', hue='Variable', data=df_idhm_reshaped)
snsbar3.set(xlabel="UF", ylabel="Média", title='Média IDHM - Região Sul')

In [None]:
# Histograma da variável GDP_CAPITA - Usando Pandas

# Preencher valores nulos com média
df_brcities['GDP_CAPITA'].fillna(df_brcities['GDP_CAPITA'].mean(), inplace = True)

histplot1 = df_brcities['GDP_CAPITA'].hist(color='red', bins=30, figsize=(12,8))
histplot1.set(xlabel="GDP per capita", ylabel="Quantidade Cidades", title='Indice GDP per Capita')

In [None]:
# Histograma por GDP_CAPITA - Usando Seaborn

plt.figure(figsize=(12,8))

snsdist1 = sns.distplot(df_brcities.GDP_CAPITA, color="seagreen", bins=30, hist=True, kde=False)
snsdist1.set(xlabel="GDP per capita", ylabel="Quantidade Cidades", title='Indice GDP per Capita')

In [None]:
# Gráfico de Dispersão (Scatterplot) entre as variáveis IDHM e GDP_CAPITA (PIB per capita), usando Pandas

df_idhm_pib = df_brcities.groupby(['STATE'])['IDHM', 'GDP_CAPITA'].mean()

scatplot1 = df_idhm_pib.plot.scatter(x="IDHM", y="GDP_CAPITA", figsize=(12,8))
scatplot1.set(xlabel="IDHM", ylabel="PIB per capita", title='Relação entre IDHM e PIB per Capita')

In [None]:
# Gráfico de Dispersão (Scatterplot) entre as variáveis IDHM e GDP_CAPITA (PIB per capita), usando Seaborn

plt.figure(figsize=(12,8))
snsscat1 = sns.scatterplot(data=df_idhm_pib, x="IDHM", y="GDP_CAPITA")
snsscat1.set(xlabel="IDHM", ylabel="PIB per capita", title='Relação entre IDHM e PIB per Capita')

In [None]:
# Gráfico de Dispersão (Scatterplot) entre as variáveis IDHM, GDP_CAPITA (PIB per capita) e Gastos Municipais, usando Pandas

df_idhm_pib_comp = df_brcities.groupby(['RURAL_URBAN', 'STATE'])['IDHM', 'GDP_CAPITA', 'MUN_EXPENDIT'].mean()

df_idhm_pib_comp = df_idhm_pib_comp.reset_index()

snsscat2 = sns.relplot(data=df_idhm_pib_comp, x="IDHM", y="GDP_CAPITA", size='MUN_EXPENDIT', hue = 'RURAL_URBAN', height=12)
snsscat2.set(xlabel="IDHM", ylabel="PIB per capita", title='Relação entre IDHM e PIB per Capita')

In [None]:
# Matrix de Correlação entre as variáveis de IDHM, usando Pandas e Matplotlib

# Cria a matriz de correlação
corr = df_idhm.corr()

# Parametros do Grafico
fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111)

# Cria Labels pra apresentar
labels = [c for c in corr.columns]  # traz nome das colunas

# Visualiza, com barra de cores
corrplot1 = ax.matshow(corr)
fig.colorbar(corrplot1)

ax.set_xticks(np.arange(len(labels)))  
ax.set_yticks(np.arange(len(labels)))  
ax.set_xticklabels(labels)  
ax.set_yticklabels(labels)

In [None]:
# Matrix de Correlação entre as variáveis de IDHM, usando Seaborn

plt.figure(figsize=(12,10))
snscorr1 = sns.heatmap(corr, annot=True, vmin=0, vmax=1)

In [None]:
# Matrix de Correlação (Pairplot) entre as variáveis de IDHM, usando Seaborn

sns.pairplot(corr)

In [None]:
# Boxplot das variáveis IDHM, usando Pandas
plt.figure(figsize=(12,10))
boxplot1 = df_brcities.boxplot(column=['IDHM', 'IDHM_Renda', 'IDHM_Longevidade', 'IDHM_Educacao'])
boxplot1.set(xlabel="Variáveis", ylabel="Índice", title='Boxplot IDHM')

In [None]:
# Boxplot das variáveis IDHM, usando Seaborn
plt.figure(figsize=(12,10))
snsbox1 = sns.boxplot(data=pd.melt(df_idhm[['IDHM', 'IDHM_Renda', 'IDHM_Longevidade', 'IDHM_Educacao']]), x = 'variable', y = 'value')

In [None]:
# Boxplot da variável IDHM com UF como Categorias, usando Pandas
boxplot2 = df_brcities.boxplot(column=['IDHM'], by='STATE', figsize=(12,10))
boxplot2.set(xlabel="UF", ylabel="Índice", title='Boxplot IDHM por UF')

In [None]:
# Boxplot da variável IDHM com UF como Categorias, usando Seaborn
plt.figure(figsize=(12,10))
snsbox2 = sns.boxplot(data=df_brcities, x = 'STATE', y = 'IDHM')

In [None]:
# Violinplot das variáveis IDHM, usando Seaborn
plt.figure(figsize=(12,10))
snsviol1 = sns.violinplot(data=pd.melt(df_idhm[['IDHM', 'IDHM_Renda', 'IDHM_Longevidade', 'IDHM_Educacao']]), x = 'variable', y = 'value')
snsviol1.set(xlabel="Variáveis", ylabel="Índice", title='Boxplot IDHM')

In [None]:
# Violinplot da variável IDHM com UF como Categorias, usando Seaborn
plt.figure(figsize=(12,10))
snsviol2 = sns.violinplot(data=df_brcities, x = 'STATE', y = 'IDHM')