In [None]:
#Caso precisem instalar a biblioteca para a leitura do excel, ok?
#!pip install xlrd

## O que é o IDHM

Links importantes<br/>
https://www.undp.org/pt/brazil/o-que-%C3%A9-o-idhm<br/>
Base de dados Ipea<br/>
https://www.ipea.gov.br/ipeageo/arquivos/bases/IDH_2010.xls

O Índice de Desenvolvimento Humano Municipal (IDHM) é uma medida composta de indicadores de três dimensões do desenvolvimento humano: longevidade, educação e renda. O índice varia de 0 a 1. Quanto mais próximo de 1, maior o desenvolvimento humano.

O IDHM brasileiro segue as mesmas três dimensões do IDH Global - longevidade, educação e renda, mas vai além: adequa a metodologia global ao contexto brasileiro e à disponibilidade de indicadores nacionais. Embora meçam os mesmos fenômenos, os indicadores levados em conta no IDHM são mais adequados para avaliar o desenvolvimento dos municípios brasileiros. Assim, o IDHM - incluindo seus três componentes, IDHM Longevidade, IDHM Educação e IDHM Renda - conta um pouco da história dos municípios em três importantes dimensões do desenvolvimento humano durantes duas décadas da história brasileira.

In [None]:
# Importação das bibliotecas principais

import pandas as pd         # pandas: usada para trabalhar com tabelas e dados em formato de planilha (DataFrames)
import numpy as np          # numpy: usada para cálculos numéricos e manipulação de arrays (vetores e matrizes)

# Importação das bibliotecas gráficas

import plotly.express as px # plotly.express: biblioteca interativa para criar gráficos bonitos e dinâmicos
import seaborn as sns       # seaborn: facilita a criação de gráficos estatísticos com uma aparência moderna
import matplotlib.pyplot as plt  # matplotlib.pyplot: biblioteca clássica para visualização de dados (gráficos básicos)

# Configuração para ignorar avisos

import warnings                  # warnings: usada para exibir mensagens de aviso no código
warnings.filterwarnings('ignore')  # essa linha ignora esses avisos, deixando a saída do código mais "limpa"


In [None]:
# Leitura do arquivo Excel que contém os dados do IDH (Índice de Desenvolvimento Humano) de 2010
idhm = pd.read_excel('/content/drive/MyDrive/FIAP/Aula_ao_vivo_020425/IDH_2010.xls')

# Exibe as primeiras 5 linhas da tabela para visualização inicial dos dados
idhm.head()


FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/FIAP/Aula_ao_vivo_020425/IDH_2010.xls'

Tamanho da Base de Dados

In [None]:
# Imprime o tamanho (número de linhas e colunas) do DataFrame 'idhm'
print(f'Tamanho do nosso Dataset: {idhm.shape}')

In [None]:
idhm.shape # retorna apenas o número de linhas [0] e colunas [1] , se vazio = linhas, colunas

In [None]:
# Imprime uma frase na tela (string simples)
print('Prof. Allan Gosta de Gráficos de Pizza em 3D')

In [None]:
# Imprime o tamanho do DataFrame 'idhm' usando o método .format()
print('Tamanho do nosso Dataset: {}'.format(idhm.shape))

In [None]:
# Imprime o tamanho (número de linhas e colunas) do DataFrame 'idhm' usando f-string
print(f'Tamanho do nosso Dataset: {idhm.shape}')

Verificar os tipos do Dados

In [None]:
# Exibe os tipos de dados de cada coluna do DataFrame 'idhm'
idhm.dtypes

Existe valores nulos?

In [None]:
# Conta e imprime a quantidade total de dados nulos no DataFrame 'idhm'
print(f'Quantidade de dados nulos: {idhm.isnull().sum().sum()}')

Quais informações queremos trabalhar?

In [None]:
# Exibe as primeiras 2 linhas do DataFrame 'idhm'
idhm.head(2)

In [None]:
# Exibe os nomes das colunas do DataFrame 'idhm'
idhm.columns

In [None]:
# Cria um novo DataFrame 'df_idhm' com algumas colunas específicas do DataFrame 'idhm'
df_idhm = idhm[['Nome da Unidade da Federação', 'Município', 'IDHM', 'IDHM Educação', 'IDHM Longevidade', 'IDHM Renda']]

In [None]:
# Exibe as primeiras 5 linhas do DataFrame 'df_idhm'
df_idhm.head()


In [None]:
# Exibe as últimas 5 linhas do DataFrame 'df_idhm'
df_idhm.tail()

In [None]:
# Renomeia as colunas do DataFrame 'df_idhm' para novos nomes mais curtos
df_idhm.columns = ['UF', 'municipio', 'idhm', 'idhm_educacao', 'idhm_longevidade', 'idhm_renda']

In [None]:
# Exibe as primeiras 5 linhas do DataFrame 'df_idhm' com as colunas renomeadas
df_idhm.head()

Informações da Base

In [None]:
# Exibe informações gerais sobre o DataFrame 'df_idhm', como tipo de dados e quantidade de valores não nulos
df_idhm.info()

Valores únicos

In [None]:
# Exibe o número de valores únicos em cada coluna do DataFrame 'df_idhm'
df_idhm.nunique()

Estatistica Básica

In [None]:
# Exibe estatísticas descritivas (como média, desvio padrão, valor mínimo e máximo) para as colunas numéricas do DataFrame 'df_idhm'
df_idhm.describe()

Primeira análise

0 - 0,499 - Baixo Desenvolvimento Humano<br/>
0,5 - 0,799 - Médio Desenvolvimento Humano<br/>
0,8 - 1 - Alto Desenvolvimento Humano

In [None]:
# Função para classificar o IDHM em diferentes níveis de desenvolvimento humano
def idhm_class(df):
    # Se o IDHM for maior ou igual a 0.8, classifica como 'Alto Desenvolvimento Humano'
    if df['idhm'] >= 0.8:
        return 'Alto Desenvolvimento Humano'
    # Se o IDHM for menor que 0.499, classifica como 'Baixo Desenvolvimento Humano'
    elif df['idhm'] < 0.499:
        return 'Baixo Desenvolvimento Humano'
    # Caso contrário, classifica como 'Médio Desenvolvimento Humano'
    else:
        return 'Médio Desenvolvimento Humano'

In [None]:
# Aplica a função 'idhm_class' a cada linha do DataFrame 'df_idhm' e cria uma nova coluna 'classe' com as classificações
df_idhm['classe'] = df_idhm.apply(idhm_class, axis=1)

# Exibe o DataFrame 'df_idhm' com a nova coluna 'classe'
df_idhm

In [None]:
# Exibe as primeiras 20 linhas do DataFrame 'df_idhm', agora com a coluna 'classe' adicionada
df_idhm.head(20)

Pairplot

In [None]:
# Cria um gráfico de dispersão para explorar a relação entre as variáveis numéricas, colorido pela coluna 'classe'.
#sns.pairplot(...): cria um gráfico de dispersão (scatter plot) para todas as combinações de variáveis numéricas do DataFrame df_idhm.
#hue='classe': colore os pontos de acordo com a classificação na coluna 'classe', facilitando a visualização das diferentes categorias de IDHM.
sns.pairplot(df_idhm, hue='classe')

Interessante observar a relação entre a renda e a escolaridade. Parece te relação.

### Análise por Estado

In [None]:
# Agrupa o DataFrame 'df_idhm' pela coluna 'UF' e calcula a média do 'idhm' para cada estado, arredondando para 2 casas decimais
df_idhm_estado = pd.DataFrame(df_idhm.groupby('UF')['idhm'].mean().round(2)).reset_index()

In [None]:
# Exibe o DataFrame 'df_idhm_estado' com a média do IDHM por estado
df_idhm_estado

In [None]:
# Aplica a função 'idhm_class' para classificar os valores de IDHM por estado e cria a coluna 'classe'
df_idhm_estado['classe'] = df_idhm_estado.apply(idhm_class, axis=1)

In [None]:
# Exibe o DataFrame 'df_idhm_estado' com a coluna 'classe' adicionada
df_idhm_estado

In [None]:
# Exibe informações gerais sobre o DataFrame 'df_idhm_estado', como tipos de dados e quantidade de valores não nulos
df_idhm_estado.info()

Estatistica básica dos Estados quanto ao IDHM Geral

In [None]:
# Exibe estatísticas descritivas para as colunas numéricas do DataFrame 'df_idhm_estado'
df_idhm_estado.describe()

In [None]:
# Cria um boxplot para visualizar a distribuição do IDHM no DataFrame 'df_idhm_estado'
sns.boxplot(y=df_idhm_estado['idhm'], data=df_idhm_estado)

# Adiciona o título e os rótulos aos eixos do gráfico
plt.title('Boxplot dos Valores por Classificação')  # Título do gráfico
plt.xlabel('IDHM')  # Rótulo do eixo X
plt.ylabel('Valores')  # Rótulo do eixo Y


Criar um gráfico de Barra

In [None]:
# Define o tamanho da figura do gráfico (12x6 polegadas)
plt.figure(figsize=(12, 6))

# Define a paleta de cores 'mako' com o número de cores igual ao número de estados
Paleta_Cores = sns.color_palette('mako', len(df_idhm_estado))

# Define o estilo do gráfico como 'darkgrid' (fundo escuro com grade)
sns.set_style('darkgrid')

# Cria um gráfico de barras com os valores do IDHM por UF
plt.bar(df_idhm_estado['UF'],
        df_idhm_estado['idhm'],
        width=0.9,
        color=Paleta_Cores)

# Adiciona título ao gráfico, alinhado à esquerda e com tamanho de fonte 18
plt.title('UF x IDHM', loc='left', fontsize=18)

# Adiciona rótulos aos eixos X e Y, com tamanho de fonte 14
plt.xlabel('UF', fontsize=14)
plt.ylabel('IDH com a média dos Estados', fontsize=14)

# Rotaciona os rótulos do eixo X em 90 graus para melhor visualização
plt.xticks(rotation=90);


Usando o Plotly

In [None]:
# Cria um gráfico de barras interativo usando Plotly
fig = px.bar(df_idhm_estado,
             x='UF', y='idhm', text='idhm',
             color='classe',
             color_discrete_sequence=['orange','green'])

# Adiciona título e rótulos aos eixos do gráfico
fig.update_layout(title='Gráfico de Barras',
                  xaxis_title='UF',
                  yaxis_title='idhm')

# Exibe o gráfico interativo
fig.show()

In [None]:
# Cria um gráfico de treemap interativo usando Plotly
fig = px.treemap(df_idhm_estado, path=['UF'], values='idhm', title='TreeMap')

# Atualiza a cor da raiz do treemap para cinza claro
fig.update_traces(root_color="lightgrey")

# Exibe o gráfico treemap interativo
fig.show()

Esse Gráfico do Treemap Não me ajuda em nada!

### Desafio

* Realizar outras análises para o IDHM - 2021 e retirar outros insights.
* Utilize a consulta por Estado e analisem a composição do indicador (Eduação, Longevidade, Renda)
* Estudem sobre o indicador.

Utilizem o site
http://www.atlasbrasil.org.br/

1. Obter o IDHM 2021:

IDHM Educação: Refere-se à educação básica e ao acesso ao ensino.

IDHM Longevidade: Relacionado à expectativa de vida e condições de saúde.

IDHM Renda: Considera a distribuição da renda e as condições econômicas.

Você deve realizar o download dos dados e carregá-los no seu ambiente de análise para compará-los, talvez com a versão anterior ou com outras características dos estados.

2. Análise Exploratória de Dados (EDA)
Aqui estão algumas análises interessantes que você pode realizar:

2.1 Distribuição das Componentes do IDHM
Você pode criar gráficos para visualizar a distribuição das componentes do IDHM entre os estados. Exemplos de gráficos:

Histogramas para cada componente do IDHM (Educação, Longevidade, Renda), observando como eles variam nos estados.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Carregar o arquivo CSV (supondo que o arquivo esteja no mesmo diretório)
df_idhm_2021 = pd.read_excel('/content/drive/MyDrive/FIAP/Aula_ao_vivo_020425/idhm_2021.xlsx')

# Exibir as primeiras linhas do DataFrame para verificar os dados
print(df_idhm_2021.head())

In [None]:
df_idhm_2021

In [None]:
df_idhm_2021 = df_idhm_2021.iloc[:-3]
df_idhm_2021

In [None]:
df_idhm_2021.info()

In [None]:
# Renomear as colunas se necessário
# Exemplo: se a coluna se chama 'IDHM Educação', renomeie para 'idhm_educacao'
df_idhm_2021 = df_idhm_2021.rename(columns={'IDHM Educação 2021': 'idhm_educacao',  # Renomeia a coluna 'IDHM Educação 2021' para 'idhm_educacao'
                                   'IDHM Longevidade 2021': 'idhm_longevidade',  # Renomeia a coluna 'IDHM Longevidade 2021' para 'idhm_longevidade'
                                   'IDHM Renda 2021': 'idhm_renda'})  # Renomeia a coluna 'IDHM Renda 2021' para 'idhm_renda'


# Substituir espaços vazios por NaN e depois converter para numérico
df_idhm_2021['idhm_educacao'] = pd.to_numeric(df_idhm_2021['idhm_educacao'].replace(' ', pd.NA), errors='coerce')
# Substitui os espaços vazios (' ') por NaN e converte os valores da coluna 'idhm_educacao' para valores numéricos
df_idhm_2021['idhm_longevidade'] = pd.to_numeric(df_idhm_2021['idhm_longevidade'].replace(' ', pd.NA), errors='coerce')
# Faz o mesmo para a coluna 'idhm_longevidade'
df_idhm_2021['idhm_renda'] = pd.to_numeric(df_idhm_2021['idhm_renda'].replace(' ', pd.NA), errors='coerce')
# Faz o mesmo para a coluna 'idhm_renda'


# Agora você pode usar os nomes corretos das colunas
sns.histplot(df_idhm_2021['idhm_educacao'], kde=True, color='blue')  # Gera o histograma da coluna 'idhm_educacao' com uma linha de densidade
plt.title('Distribuição do IDHM Educação')  # Adiciona o título ao gráfico
plt.xlabel('IDHM Educação')  # Adiciona o rótulo do eixo X
plt.ylabel('Frequência')  # Adiciona o rótulo do eixo Y
plt.show()  # Exibe o gráfico

sns.histplot(df_idhm_2021['idhm_longevidade'], kde=True, color='green')  # Gera o histograma da coluna 'idhm_longevidade'
plt.title('Distribuição do IDHM Longevidade')  # Título do gráfico
plt.xlabel('IDHM Longevidade')  # Rótulo do eixo X
plt.ylabel('Frequência')  # Rótulo do eixo Y
plt.show()  # Exibe o gráfico

sns.histplot(df_idhm_2021['idhm_renda'], kde=True, color='red')  # Gera o histograma da coluna 'idhm_renda'
plt.title('Distribuição do IDHM Renda')  # Título do gráfico
plt.xlabel('IDHM Renda')  # Rótulo do eixo X
plt.ylabel('Frequência')  # Rótulo do eixo Y
plt.show()  # Exibe o gráfico

2.2 Comparação entre as Componentes
Você pode criar gráficos de barras para comparar a média do IDHM, IDHM Educação, IDHM Longevidade e IDHM Renda entre os estados:

In [None]:
# Criar um gráfico de barras comparando as médias de cada componente do IDHM
# Agrupa o DataFrame 'df_idhm' pela coluna 'Territorialidades' e calcula a média das colunas 'idhm', 'idhm_educacao', 'idhm_longevidade' e 'idhm_renda' para cada estado
df_idhm_estado = df_idhm_2021.groupby('Territorialidades')[['idhm_educacao', 'idhm_longevidade', 'idhm_renda']].mean().reset_index()

# Gera o gráfico de barras
df_idhm_estado.set_index('Territorialidades').plot(kind='bar', figsize=(12, 6))

# Define o título do gráfico
plt.title('Comparação entre os Componentes do IDHM por Estado')

# Define o rótulo do eixo Y
plt.ylabel('Valor do IDHM')

# Define o rótulo do eixo X
plt.xlabel('Unidade da Federação')

# Rotaciona os rótulos do eixo X em 90 graus para melhor visualização
plt.xticks(rotation=90)

# Exibe o gráfico
plt.show()

2.3 Correlação entre as Componentes
Use gráficos de dispersão para analisar a correlação entre as componentes, como IDHM Educação versus IDHM Longevidade ou IDHM Renda.

In [None]:
sns.scatterplot(x=df_idhm_estado['idhm_educacao'], y=df_idhm_estado['idhm_longevidade'])
plt.title('Correlação entre IDHM Educação e IDHM Longevidade')
plt.xlabel('IDHM Educação')
plt.ylabel('IDHM Longevidade')
plt.show()

Você pode também calcular a matriz de correlação entre as colunas:

In [None]:
correlation_matrix = df_idhm_estado[['idhm', 'idhm_educacao', 'idhm_longevidade', 'idhm_renda']].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlação das Componentes do IDHM')
plt.show()

3. Mapas de Calor e Gráficos Geográficos
Use um mapa de calor para visualizar como os valores do IDHM e suas componentes se distribuem pelos estados. Se você tiver as coordenadas geográficas dos estados, pode usar bibliotecas como Plotly ou Folium para criar mapas interativos.

Exemplo de Mapa com Plotly:

In [None]:
import plotly.express as px

# Exemplo de gráfico geográfico para a visualização do IDHM por Estado
fig = px.choropleth(df_idhm_estado,
                    locations='UF',
                    locationmode='USA-states',
                    color='idhm',
                    hover_name='UF',
                    color_continuous_scale='Viridis',
                    title="Mapa do IDHM por Estado")
fig.show()


4. Análise Comparativa entre Estados
A comparação entre estados pode ser feita utilizando gráficos como gráficos de barras ou gráficos de radar.

Exemplo de Gráfico de Radar para Comparar Estados:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from math import pi

# Definir os estados para análise
estados = ['São Paulo', 'Minas Gerais', 'Rio de Janeiro']  # Exemplo de estados
df_comparativo = df_idhm_estado[df_idhm_estado['UF'].isin(estados)]

# Dados para o gráfico de radar
labels = ['IDHM', 'IDHM Educação', 'IDHM Longevidade', 'IDHM Renda']
angles = np.linspace(0, 2 * np.pi, len(labels), endpoint=False).tolist()

# Criar um gráfico de radar
fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
for estado in estados:
    stats = df_comparativo[df_comparativo['UF'] == estado][labels[1:]].values.flatten().tolist()
    stats += stats[:1]
    ax.plot(angles, stats, linewidth=1, linestyle='solid', label=estado)

ax.set_yticklabels([])
ax.set_xticks(angles)
ax.set_xticklabels(labels)
plt.legend(loc='upper right')
plt.title('Comparação do IDHM e Componentes por Estado')
plt.show()

5. Insights Possíveis:
IDHM Alto vs. Baixo: Analisar as diferenças de infraestrutura e políticas públicas entre estados com IDHM alto e baixo.

Impacto das Componentes: Estudar como as componentes do IDHM (Educação, Longevidade, Renda) influenciam os rankings gerais e se há correlação forte entre elas.

Evolução do IDHM: Se você tiver dados históricos, pode comparar o progresso do IDHM e suas componentes ao longo dos anos, para cada estado.