### Visualização de Dados - Aula 01 - Tratamento, exploração e visualização de dados
Desafio: Limpar o excel do IBGE com nomes de colunas apropriados e linhas somente representando as unidades da federação

In [150]:
# Estatísticas - Sociais - População - Estimativas da População
# https://www.ibge.gov.br/estatisticas/sociais/populacao.html

# Para ler o arquivo Excel é necessário instalar o pacote xlrd
# pip install xlrd --upgrade

In [149]:
import pandas as pd

In [151]:
# Carregando dados da planilha Excel especificada, pulando as 4 primeiras linhas e as últimas 7 linhas.
dados_populacao_ibge = pd.read_excel(r"D:\Cursos\FIAP\Data Analytics\Producao_Hospitalar\POP2021_20230710.xls",
                                     skiprows=4,
                                     skipfooter=7)

# Removendo a coluna desnecessária "Unnamed: 1" diretamente no DataFrame original.
dados_populacao_ibge.drop("Unnamed: 1", axis=1, inplace=True)

# Renomeando as colunas do DataFrame para "Unidade da Federação" e "População".
dados_populacao_ibge.columns=["Unidade da Federação", "População"]

# Definindo a coluna "Unidade da Federação" como o novo índice do DataFrame.
dados_populacao_ibge.set_index("Unidade da Federação", inplace=True)

# Exibindo o DataFrame após as modificações.
dados_populacao_ibge

Unnamed: 0_level_0,População
Unidade da Federação,Unnamed: 1_level_1
Acre,906876
Amazonas,4269995
Roraima,652713
Pará,8777124
Amapá,877613
Tocantins,1607363
Região Nordeste,57667842
Maranhão,7153262
Piauí,3.289.290(1)
Ceará,9.240.580(1)


In [152]:
# Removendo linhas das regiões específicas do DataFrame.
dados_populacao_ibge.drop(["Região Sudeste", "Região Sul", "Região Nordeste", "Região Centro-Oeste"], axis=0)

# Exibindo o DataFrame após a remoção das linhas.
dados_populacao_ibge

Unnamed: 0_level_0,População
Unidade da Federação,Unnamed: 1_level_1
Acre,906876
Amazonas,4269995
Roraima,652713
Pará,8777124
Amapá,877613
Tocantins,1607363
Região Nordeste,57667842
Maranhão,7153262
Piauí,3.289.290(1)
Ceará,9.240.580(1)


In [153]:
dados_populacao_ibge.dtypes

População    object
dtype: object

In [154]:
# Convertendo a coluna "População" para string para facilitar a manipulação de texto.
dados_populacao_ibge["População"] = dados_populacao_ibge["População"].astype(str)

# Removendo qualquer texto entre parênteses (incluindo os próprios parênteses) na coluna "População".
dados_populacao_ibge["População"] = dados_populacao_ibge["População"].str.replace(r'\(.*?\)', '', regex=True)

# Eliminando pontos usados como separadores de milhar na coluna "População".
dados_populacao_ibge["População"] = dados_populacao_ibge["População"].str.replace('.', '')

# Convertendo os valores da coluna "População", agora limpos, de volta para inteiro.
dados_populacao_ibge["População"] = dados_populacao_ibge["População"].astype(int)

# Exibindo o DataFrame após a limpeza da coluna "População".
dados_populacao_ibge

Unnamed: 0_level_0,População
Unidade da Federação,Unnamed: 1_level_1
Acre,906876
Amazonas,4269995
Roraima,652713
Pará,8777124
Amapá,877613
Tocantins,1607363
Região Nordeste,57667842
Maranhão,7153262
Piauí,3289290
Ceará,9240580
