<!-- Cabeçalho -->
<br />
<p align="center">

  <h1 align="center">Pré-processamento</h1>
</p>


- Autor: Lucas Dias Noronha
- Ano: 2025
- Objetivo: Limpar, transformar e preparar os dados brutos para análise/modelagem

## Carregando Dependências

Configurando o ambiente para análise de dados com as principais bibliotecas da stack:

- **Pandas** – manipulação e análise de dados tabulares  
- **NumPy** – suporte a operações numéricas e vetoriais de alto desempenho  

In [2]:
import pandas as pd
import numpy as np

## Carregando a Base de Dados

In [46]:
db = pd.read_excel("../data/raw/indigenas_2010_2022.xlsx")

### Estrutura de Colunas em Múltiplos Níveis

A presença de colunas organizadas em múltiplos níveis pode gerar inconsistências durante o carregamento dos dados pelo **Pandas**, exigindo tratamentos adicionais para assegurar a interpretação correta e a manipulação eficiente do DataFrame.

<img src="../assets/indigenas_2010_2022.jpg" alt="Tabela em formato original do IBGE" width="600">

### Identificação de Registros Inválidos ou Desnecessários

No processo de carregamento do DataFrame, é comum identificar registros que não correspondem a dados válidos, mas que representam **informações descritivas, como nomes de colunas, ou a última linha contendo a fonte dos dados**, oriundos do formato original de múltiplos níveis de colunas.  

Pode-se observar que os dados reais começam a partir da **linha 11**, enquanto as linhas anteriores correspondem aos nomes das colunas que foram carregados como registros. Além disso, o rodapé contendo a fonte dos dados gerou uma linha adicional ao final do DataFrame, que também deve ser descartada ou tratada adequadamente.  

Esses elementos evidenciam a limitação do **Pandas** em interpretar automaticamente tabelas com colunas multiníveis, sendo necessário realizar um pré-processamento para remover ou ajustar tais registros.


In [47]:
db.head(12) # Mostra as primeiras 12 linhas

Unnamed: 0,Censo Demográfico 2022,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,Indígenas: Principais características das pess...,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,"Tabela complementar 6 - Pessoas indígenas, por...",,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,Grandes Regiões e Unidades da Federação,Pessoas indígenas,,,,,,,,,...,,,,,,,,,,
5,,Absoluto,,,,,,,,,...,,,,,,,,,,
6,,2010,,,,,,,,,...,,,,,2022,,,,,
7,,Total,Situação do domicílio,,Localização do domicílio,,,,,,...,Localização do domicílio,,,,Situação do domicílio,,Localização do domicílio,,,
8,,,,,Em Terras Indígenas,,,Fora Terras Indígenas,,,...,Em Terras Indígenas,,Fora Terras Indígenas,,,,Em Terras Indígenas,,Fora Terras Indígenas,
9,,,,,Total,Situação do domicílio,,Total,Situação do domicílio,,...,Situação do domicílio,,Situação do domicílio,,,,Situação do domicílio,,Situação do domicílio,


In [48]:
db.tail(5) # Mostra as últimas 5 linhas

Unnamed: 0,Censo Demográfico 2022,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
40,Mato Grosso do Sul,77025.0,14894.0,62131.0,61158,1645,59513,15867.0,13249.0,2618.0,...,2.689754,97.310246,83.500347,16.499653,35.941753,64.058247,2.071867,97.928133,84.621341,15.378659
41,Mato Grosso,51696.0,6291.0,45405.0,42525,629,41896,9171.0,5662.0,3509.0,...,1.47913,98.52087,61.738087,38.261913,17.336692,82.663308,0.535695,99.464305,74.918443,25.081557
42,Goiás,8583.0,8030.0,553.0,336,105,231,8247.0,7925.0,322.0,...,31.25,68.75,96.09555,3.90445,95.521853,4.478147,30.813953,69.186047,96.682835,3.317165
43,Distrito Federal,6128.0,5941.0,187.0,-,-,-,6128.0,5941.0,187.0,...,-,-,96.948433,3.051567,91.843056,8.156944,-,-,91.843056,8.156944
44,"Fonte: IBGE, Censo Demográfico 2022.",,,,,,,,,,...,,,,,,,,,,


### Ajuste dos Nomes das Colunas

Para reorganizar o DataFrame em um formato adequado, torna-se necessário ajustar os nomes originais das colunas, que estão estruturados em múltiplos níveis de cabeçalho, refletindo a hierarquia presente na planilha de origem. Esse formato dificulta o carregamento correto dos dados no **Pandas**, uma vez que os nomes das colunas não estão em um único nível, gerando linhas com valores nulos e impedindo a identificação e manipulação adequada dos campos.

A solução consiste na **normalização dos nomes das colunas**, transformando a estrutura em um **único nível de cabeçalho** e padronizando os nomes de maneira clara e consistente. Cada coluna passa a possuir um título direto e conciso, preservando sua identidade e significado, mas adequado para análise em Python/**Pandas**.

Esse procedimento permite a leitura correta do DataFrame, viabilizando análises exploratórias, cruzamentos e visualizações a partir de um esquema de dados limpo e funcional. O processo gera uma nova linha de cabeçalho com os nomes ajustados das colunas.

#### Dicionário de Variáveis – População Indígena (2010 e 2022)

| Coluna                                | Descrição |
|---------------------------------------|-----------|
| **Localidade**                                | Unidade da Federação (Estado ou Região do Brasil) e o estado Brasileiro. |
| **Indígenas 2010 Total**              | Total de pessoas indígenas em 2010, considerando todos os domicílios. |
| **Indígenas 2010 Urbano**             | Número de indígenas em domicílios localizados em áreas urbanas em 2010. |
| **Indígenas 2010 Rural**              | Número de indígenas em domicílios localizados em áreas rurais em 2010. |
| **Indígenas 2010 TI Total**           | Total de indígenas residentes em Terras Indígenas (TIs) em 2010. |
| **Indígenas 2010 TI Urbano**          | Indígenas em áreas urbanas dentro de Terras Indígenas em 2010. |
| **Indígenas 2010 TI Rural**           | Indígenas em áreas rurais dentro de Terras Indígenas em 2010. |
| **Indígenas 2010 Fora TI Total**      | Total de indígenas fora de Terras Indígenas em 2010. |
| **Indígenas 2010 Fora TI Urbano**     | Indígenas fora de TIs e em áreas urbanas em 2010. |
| **Indígenas 2010 Fora TI Rural**      | Indígenas fora de TIs e em áreas rurais em 2010. |
| **Indígenas 2022 Total**              | Total de pessoas indígenas em 2022, considerando todos os domicílios. |
| **Indígenas 2022 Urbano**             | Número de indígenas em áreas urbanas em 2022. |
| **Indígenas 2022 Rural**              | Número de indígenas em áreas rurais em 2022. |
| **Indígenas 2022 TI Total**           | Total de indígenas residentes em Terras Indígenas em 2022. |
| **Indígenas 2022 TI Urbano**          | Indígenas em áreas urbanas dentro de TIs em 2022. |
| **Indígenas 2022 TI Rural**           | Indígenas em áreas rurais dentro de TIs em 2022. |
| **Indígenas 2022 Fora TI Total**      | Total de indígenas fora de Terras Indígenas em 2022. |
| **Indígenas 2022 Fora TI Urbano**     | Indígenas fora de TIs e em áreas urbanas em 2022. |
| **Indígenas 2022 Fora TI Rural**      | Indígenas fora de TIs e em áreas rurais em 2022. |
| **% Indígenas 2010 Urbano**           | Percentual da população indígena em áreas urbanas em 2010. |
| **% Indígenas 2010 Rural**            | Percentual da população indígena em áreas rurais em 2010. |
| **% Indígenas 2010 TI Urbano**        | Percentual de indígenas em áreas urbanas dentro de TIs em 2010. |
| **% Indígenas 2010 TI Rural**         | Percentual de indígenas em áreas rurais dentro de TIs em 2010. |
| **% Indígenas 2010 Fora TI Urbano**   | Percentual de indígenas fora de TIs em áreas urbanas em 2010. |
| **% Indígenas 2010 Fora TI Rural**    | Percentual de indígenas fora de TIs em áreas rurais em 2010. |
| **% Indígenas 2022 Urbano**           | Percentual da população indígena em áreas urbanas em 2022. |
| **% Indígenas 2022 Rural**            | Percentual da população indígena em áreas rurais em 2022. |
| **% Indígenas 2022 TI Urbano**        | Percentual de indígenas em áreas urbanas dentro de TIs em 2022. |
| **% Indígenas 2022 TI Rural**         | Percentual de indígenas em áreas rurais dentro de TIs em 2022. |
| **% Indígenas 2022 Fora TI Urbano**   | Percentual de indígenas fora de TIs em áreas urbanas em 2022. |
| **% Indígenas 2022 Fora TI Rural**    | Percentual de indígenas fora de TIs em áreas rurais em 2022. |


In [49]:
ajustar_nomes_colunas = [
    'Localidade',
    'Indígenas 2010 Total',
    'Indígenas 2010 Urbano',
    'Indígenas 2010 Rural',
    'Indígenas 2010 TI Total',
    'Indígenas 2010 TI Urbano',
    'Indígenas 2010 TI Rural',
    'Indígenas 2010 Fora TI Total',
    'Indígenas 2010 Fora TI Urbano',
    'Indígenas 2010 Fora TI Rural',
    'Indígenas 2022 Total',
    'Indígenas 2022 Urbano',
    'Indígenas 2022 Rural',
    'Indígenas 2022 TI Total',
    'Indígenas 2022 TI Urbano',
    'Indígenas 2022 TI Rural',
    'Indígenas 2022 Fora TI Total',
    'Indígenas 2022 Fora TI Urbano',
    'Indígenas 2022 Fora TI Rural',
    '% Indígenas 2010 Urbano',
    '% Indígenas 2010 Rural',
    '% Indígenas 2010 TI Urbano',
    '% Indígenas 2010 TI Rural',
    '% Indígenas 2010 Fora TI Urbano',
    '% Indígenas 2010 Fora TI Rural',
    '% Indígenas 2022 Urbano',
    '% Indígenas 2022 Rural',
    '% Indígenas 2022 TI Urbano',
    '% Indígenas 2022 TI Rural',
    '% Indígenas 2022 Fora TI Urbano',
    '% Indígenas 2022 Fora TI Rural'
]

db.columns = ajustar_nomes_colunas

Após a criação bem-sucedida de uma nova linha de cabeçalho para os nomes das colunas, pode-se observar, examinando apenas a coluna "Localidade", os seguintes registros:

- Indígenas: Principais características das pessoas e dos domicílios, por situação urbana ou rural do domicílio - Resultados do Universo
- Tabela complementar 6 - Pessoas indígenas, por localização e situação do domicílio, segundo as Grandes Regiões e as Unidades da Federação - Brasil - 2010/2022
- Grandes Regiões e Unidades da Federação
- Fonte: IBGE, Censo Demográfico 2022.

Como concluído anteriormente, essas informações foram geradas durante a conversão incorreta do arquivo original para o formato de DataFrame do **Pandas**, criando 12 linhas com valores nulos que representam os nomes originais das colunas, incluindo a última linha do rodapé com a fonte. Tal comportamento pode ser confirmado ao comparar os registros com a tabela original.

Ao confrontar os dados com a tabela original, observa-se que os dados efetivos do carregamento começam na **linha 11** e se estendem até a **linha 43**:

$$
\text{Quantidade de linhas com dados reais} = (43 - 11) + 1 = 33
$$

Portanto, o DataFrame possui **45 linhas no total**, sendo apenas **33 referentes a dados válidos**. As **12 linhas restantes** correspondem a registros falsos oriundos dos nomes originais das colunas e do rodapé da fonte, que foram carregados como linhas com valores nulos ou com os próprios nomes das colunas. É, portanto, necessário remover essas linhas para assegurar a consistência e a integridade da análise.


In [51]:
db['Localidade'].unique() # Vacerificar valores únicos na coluna 'Localidade'

array(['Indígenas: Principais características das pessoas e dos domicílios, por situação urbana ou rural do domicílio - Resultados do Universo',
       nan,
       'Tabela complementar 6 - Pessoas indígenas, por localização e situação do domicílio, segundo as Grandes Regiões e as Unidades da Federação - Brasil - 2010/2022',
       'Grandes Regiões e Unidades da Federação', 'Brasil', 'Norte',
       'Rondônia', 'Acre', 'Amazonas', 'Roraima', 'Pará', 'Amapá',
       'Tocantins', 'Nordeste', 'Maranhão', 'Piauí', 'Ceará',
       'Rio Grande do Norte', 'Paraíba', 'Pernambuco', 'Alagoas',
       'Sergipe', 'Bahia', 'Sudeste', 'Minas Gerais', 'Espírito Santo',
       'Rio de Janeiro', 'São Paulo', 'Sul', 'Paraná', 'Santa Catarina',
       'Rio Grande do Sul', 'Centro-Oeste', 'Mato Grosso do Sul',
       'Mato Grosso', 'Goiás', 'Distrito Federal',
       'Fonte: IBGE, Censo Demográfico 2022.'], dtype=object)

### Removendas as linhas inválidas

In [52]:
# Criar lista de índices a remover
indices_para_remover = list(range(0, 11)) + [44]

# Remover do DataFrame
db = db.drop(indices_para_remover)

# Renumerar índices
db = db.reset_index(drop=True)

### Verificação da Organização

Pode-se observar que os dados encontram-se agora organizados de forma adequada, com uma hierarquia consistente para os nomes das colunas, e que as linhas "falsas" anteriormente carregadas foram devidamente removidas.


In [54]:
db.head(10)

Unnamed: 0,Localidade,Indígenas 2010 Total,Indígenas 2010 Urbano,Indígenas 2010 Rural,Indígenas 2010 TI Total,Indígenas 2010 TI Urbano,Indígenas 2010 TI Rural,Indígenas 2010 Fora TI Total,Indígenas 2010 Fora TI Urbano,Indígenas 2010 Fora TI Rural,...,% Indígenas 2010 TI Urbano,% Indígenas 2010 TI Rural,% Indígenas 2010 Fora TI Urbano,% Indígenas 2010 Fora TI Rural,% Indígenas 2022 Urbano,% Indígenas 2022 Rural,% Indígenas 2022 TI Urbano,% Indígenas 2022 TI Rural,% Indígenas 2022 Fora TI Urbano,% Indígenas 2022 Fora TI Rural
0,Brasil,896917,324834,572083,517383,25963,491420,379534,298871,80663,...,5.018139,94.981861,78.746832,21.253168,53.972538,46.027462,11.236522,88.763478,78.802827,21.197173
1,Norte,342836,61565,281271,251891,2179,249712,90945,59386,31559,...,0.865057,99.134943,65.298807,34.701193,49.99801,50.00199,11.038832,88.961168,78.246631,21.753369
2,Rondônia,13076,2906,10170,9217,-,9217,3859,2906,953,...,-,100.0,75.304483,24.695517,38.276743,61.723257,-,100.0,84.128469,15.871531
3,Acre,17578,2595,14983,13308,-,13308,4270,2595,1675,...,-,100.0,60.772834,39.227166,27.920111,72.079889,-,100.0,73.065808,26.934192
4,Amazonas,183514,34316,149198,129529,1230,128299,53985,33086,20899,...,0.949594,99.050406,61.287395,38.712605,62.302749,37.697251,22.182721,77.817279,79.798745,20.201255
5,Roraima,55922,8243,47679,46505,949,45556,9417,7294,2123,...,2.040641,97.959359,77.455665,22.544335,22.191506,77.808494,2.151796,97.848204,77.680019,22.319981
6,Pará,51217,9966,41251,35816,-,35816,15401,9966,5435,...,-,100.0,64.710084,35.289916,31.289207,68.710793,0.860853,99.139147,63.782845,36.217155
7,Amapá,7411,1360,6051,5956,-,5956,1455,1360,95,...,-,100.0,93.47079,6.52921,25.224987,74.775013,-,100.0,82.131571,17.868429
8,Tocantins,14118,2179,11939,11560,-,11560,2558,2179,379,...,-,100.0,85.183737,14.816263,20.950906,79.049094,-,100.0,87.214137,12.785863
9,Nordeste,232739,114401,118338,106142,19159,86983,126597,95242,31355,...,18.050348,81.949652,75.23243,24.76757,62.298536,37.701464,23.251875,76.748125,75.001127,24.998873


In [56]:
db.tail(5) # Mostra as últimas 5 linhas

Unnamed: 0,Localidade,Indígenas 2010 Total,Indígenas 2010 Urbano,Indígenas 2010 Rural,Indígenas 2010 TI Total,Indígenas 2010 TI Urbano,Indígenas 2010 TI Rural,Indígenas 2010 Fora TI Total,Indígenas 2010 Fora TI Urbano,Indígenas 2010 Fora TI Rural,...,% Indígenas 2010 TI Urbano,% Indígenas 2010 TI Rural,% Indígenas 2010 Fora TI Urbano,% Indígenas 2010 Fora TI Rural,% Indígenas 2022 Urbano,% Indígenas 2022 Rural,% Indígenas 2022 TI Urbano,% Indígenas 2022 TI Rural,% Indígenas 2022 Fora TI Urbano,% Indígenas 2022 Fora TI Rural
28,Centro-Oeste,143432,35156,108276,104019,2379,101640,39413,32777,6636,...,2.287082,97.712918,83.162916,16.837084,37.949968,62.050032,1.550775,98.449225,86.312128,13.687872
29,Mato Grosso do Sul,77025,14894,62131,61158,1645,59513,15867,13249,2618,...,2.689754,97.310246,83.500347,16.499653,35.941753,64.058247,2.071867,97.928133,84.621341,15.378659
30,Mato Grosso,51696,6291,45405,42525,629,41896,9171,5662,3509,...,1.47913,98.52087,61.738087,38.261913,17.336692,82.663308,0.535695,99.464305,74.918443,25.081557
31,Goiás,8583,8030,553,336,105,231,8247,7925,322,...,31.25,68.75,96.09555,3.90445,95.521853,4.478147,30.813953,69.186047,96.682835,3.317165
32,Distrito Federal,6128,5941,187,-,-,-,6128,5941,187,...,-,-,96.948433,3.051567,91.843056,8.156944,-,-,91.843056,8.156944


In [55]:
db['Localidade'].unique() # Vacerificar valores únicos na coluna 'Localidade'

array(['Brasil', 'Norte', 'Rondônia', 'Acre', 'Amazonas', 'Roraima',
       'Pará', 'Amapá', 'Tocantins', 'Nordeste', 'Maranhão', 'Piauí',
       'Ceará', 'Rio Grande do Norte', 'Paraíba', 'Pernambuco', 'Alagoas',
       'Sergipe', 'Bahia', 'Sudeste', 'Minas Gerais', 'Espírito Santo',
       'Rio de Janeiro', 'São Paulo', 'Sul', 'Paraná', 'Santa Catarina',
       'Rio Grande do Sul', 'Centro-Oeste', 'Mato Grosso do Sul',
       'Mato Grosso', 'Goiás', 'Distrito Federal'], dtype=object)

## Análise de Qualidade

### Numeros de linhas e colunas


In [57]:
print("Números de linhas e colunas: ", db.shape)

Números de linhas e colunas:  (33, 31)


### Amostragem Aleatória para Visualização dos Dados

Nesta etapa, é possível carregar aleatoriamente cinco linhas do DataFrame para visualizar os dados. Recomenda-se executar esta célula diversas vezes, a fim de obter uma melhor compreensão dos dados e de suas inconsistências, sem a necessidade de imprimir o DataFrame completo.

In [68]:
db.sample(5)

Unnamed: 0,Localidade,Indígenas 2010 Total,Indígenas 2010 Urbano,Indígenas 2010 Rural,Indígenas 2010 TI Total,Indígenas 2010 TI Urbano,Indígenas 2010 TI Rural,Indígenas 2010 Fora TI Total,Indígenas 2010 Fora TI Urbano,Indígenas 2010 Fora TI Rural,...,% Indígenas 2010 TI Urbano,% Indígenas 2010 TI Rural,% Indígenas 2010 Fora TI Urbano,% Indígenas 2010 Fora TI Rural,% Indígenas 2022 Urbano,% Indígenas 2022 Rural,% Indígenas 2022 TI Urbano,% Indígenas 2022 TI Rural,% Indígenas 2022 Fora TI Urbano,% Indígenas 2022 Fora TI Rural
15,Pernambuco,60995,27521,33474,31836,5363,26473,29159,22158,7001,...,16.845709,83.154291,75.99026,24.00974,55.095362,44.904638,22.14548,77.85452,70.726649,29.273351
20,Minas Gerais,31677,19843,11834,9682,-,9682,21995,19843,2152,...,-,100.0,90.215958,9.784042,60.314995,39.685005,14.311609,85.688391,83.046983,16.953017
0,Brasil,896917,324834,572083,517383,25963,491420,379534,298871,80663,...,5.018139,94.981861,78.746832,21.253168,53.972538,46.027462,11.236522,88.763478,78.802827,21.197173
12,Ceará,20697,13061,7636,2988,710,2278,17709,12351,5358,...,23.761714,76.238286,69.744198,30.255802,61.092386,38.907614,62.180401,37.819599,60.84273,39.15727
30,Mato Grosso,51696,6291,45405,42525,629,41896,9171,5662,3509,...,1.47913,98.52087,61.738087,38.261913,17.336692,82.663308,0.535695,99.464305,74.918443,25.081557


### Resumo Estatístico: Tipos, Valores Nulos, Unicidade e Contagem de Registros
O resumo estatístico apresentado fornece uma visão abrangente da estrutura do DataFrame, incluindo os tipos de dados de cada coluna, a presença de valores nulos, a quantidade de valores únicos, o percentual de unicidade e o total de registros. Esses indicadores permitem identificar inconsistências, redundâncias e padrões nos dados, servindo como base para o pré-processamento e para análises subsequentes.


In [69]:
summary = pd.DataFrame({
    "dtype": db.dtypes,
    "n_unique": db.nunique(),
    "%_unique": (db.nunique() / len(db) * 100).round(2),
    "n_null": db.isnull().sum(),
    "%_null": (db.isnull().mean() * 100).round(2),
    "total_rows": len(db)
})

summary

Unnamed: 0,dtype,n_unique,%_unique,n_null,%_null,total_rows
Localidade,object,33,100.0,0,0.0,33
Indígenas 2010 Total,object,33,100.0,0,0.0,33
Indígenas 2010 Urbano,object,33,100.0,0,0.0,33
Indígenas 2010 Rural,object,33,100.0,0,0.0,33
Indígenas 2010 TI Total,object,31,93.94,0,0.0,33
Indígenas 2010 TI Urbano,object,21,63.64,0,0.0,33
Indígenas 2010 TI Rural,object,31,93.94,0,0.0,33
Indígenas 2010 Fora TI Total,object,33,100.0,0,0.0,33
Indígenas 2010 Fora TI Urbano,object,33,100.0,0,0.0,33
Indígenas 2010 Fora TI Rural,object,33,100.0,0,0.0,33


### Tipos de Dados Incorretos

Constata-se uma inconsistência significativa nos dados, mesmo após a padronização da hierarquia de múltiplos níveis de colunas para um formato de coluna única. Observa-se que os campos que deveriam conter valores numéricos encontram-se no formato `object`, indicando a necessidade de conversão adequada para permitir análises quantitativas precisas.

Com exceção da coluna **Localidade**, todas as demais correspondem a atributos de natureza quantitativa. Assim, é necessário converter essas colunas para tipos numéricos, viabilizando a realização de análises estatísticas e comparativas de forma consistente e confiável.

Adicionalmente, de acordo com a descrição do **metadado do censo** sobre as características dos dados analisados, o símbolo `"-"` representa um valor absoluto igual a zero, e não um valor nulo ou ausente. Portanto, nos locais onde os dados estão representados dessa forma, deve-se substituir o símbolo por `0` em formato numérico, refletindo corretamente a ausência de indivíduos indígenas nessas localidades.


In [None]:
colunas_para_converter = db.columns.difference(['Localidade']) # Seleciona todas as colunas exceto 'Localidade'

# Substitui "-" por 0
db[colunas_para_converter] = db[colunas_para_converter].replace('-', 0)

# Converte para numérico
db[colunas_para_converter] = db[colunas_para_converter].apply(pd.to_numeric, errors='coerce')


### Resumo Estatístico Atualizado: Tipos, Valores Nulos, Unicidade e Contagem de Registros

Pode-se observar que, após a conversão adequada, todos os campos quantitativos do DataFrame estão agora no tipo numérico correto, garantindo consistência e precisão para a realização de análises estatísticas e comparativas.


In [71]:
summary = pd.DataFrame({
    "dtype": db.dtypes,
    "n_unique": db.nunique(),
    "%_unique": (db.nunique() / len(db) * 100).round(2),
    "n_null": db.isnull().sum(),
    "%_null": (db.isnull().mean() * 100).round(2),
    "total_rows": len(db)
})

summary

Unnamed: 0,dtype,n_unique,%_unique,n_null,%_null,total_rows
Localidade,object,33,100.0,0,0.0,33
Indígenas 2010 Total,int64,33,100.0,0,0.0,33
Indígenas 2010 Urbano,int64,33,100.0,0,0.0,33
Indígenas 2010 Rural,int64,33,100.0,0,0.0,33
Indígenas 2010 TI Total,int64,31,93.94,0,0.0,33
Indígenas 2010 TI Urbano,int64,21,63.64,0,0.0,33
Indígenas 2010 TI Rural,int64,31,93.94,0,0.0,33
Indígenas 2010 Fora TI Total,int64,33,100.0,0,0.0,33
Indígenas 2010 Fora TI Urbano,int64,33,100.0,0,0.0,33
Indígenas 2010 Fora TI Rural,int64,33,100.0,0,0.0,33


### Dividindo a base de dados por país, regiões, e estados

Dividir a base de dados por País, Regiões e Estados permite organizar os dados de maneira hierárquica e segmentada, facilitando análises específicas em diferentes níveis geográficos. Essa abordagem contribui para a clareza e precisão das análises, possibilitando a identificação de padrões regionais, comparações entre unidades federativas e uma exploração mais eficiente dos dados, sem a necessidade de processar o conjunto completo a cada análise.


In [None]:
# País
db_pais = db[db["Localidade"] == "Brasil"]

# Regiões
regioes = ["Norte", "Nordeste", "Sudeste", "Sul", "Centro-Oeste"]
db_regioes = db[db["Localidade"].isin(regioes)]

# Estados
db_estados = db[~db["Localidade"].isin(["Brasil"] + regioes)]


In [72]:
db_pais['Localidade'].unique()

array(['Brasil'], dtype=object)

In [73]:
db_regioes['Localidade'].unique()

array(['Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste'],
      dtype=object)

In [74]:
db_estados['Localidade'].unique()

array(['Rondônia', 'Acre', 'Amazonas', 'Roraima', 'Pará', 'Amapá',
       'Tocantins', 'Maranhão', 'Piauí', 'Ceará', 'Rio Grande do Norte',
       'Paraíba', 'Pernambuco', 'Alagoas', 'Sergipe', 'Bahia',
       'Minas Gerais', 'Espírito Santo', 'Rio de Janeiro', 'São Paulo',
       'Paraná', 'Santa Catarina', 'Rio Grande do Sul',
       'Mato Grosso do Sul', 'Mato Grosso', 'Goiás', 'Distrito Federal'],
      dtype=object)

### Exportação do DataFrame para Formato CSV

A exportação do DataFrame para o formato CSV permite a preservação dos dados processados de maneira organizada, garantindo compatibilidade com diversas plataformas e ferramentas de análise. Este procedimento facilita o compartilhamento, a reutilização e o armazenamento seguro das informações, assegurando que a estrutura e o conteúdo do DataFrame sejam mantidos de forma íntegra e consistente para análises futuras.


In [75]:
db_pais.to_csv("../data/processed/db_pais.csv", index=False)
db_regioes.to_csv("../data/processed/db_regioes.csv", index=False)
db_estados.to_csv("../data/processed/db_estados.csv", index=False)

### Síntese Final do Pré-Processamento de Dados

Com a execução de todas as etapas de pré-processamento, os dados foram devidamente tratados e organizados. As inconsistências relacionadas a múltiplos níveis de colunas foram corrigidas, os tipos de dados foram ajustados para suas naturezas apropriadas, valores nulos e registros inválidos foram removidos, e o DataFrame foi segmentado e salvo de forma estruturada. Dessa maneira, os dados encontram-se agora prontos para análises exploratórias e estatísticas precisas, garantindo confiabilidade e consistência nos resultados obtidos.


#### Notas

1. **Dados do Universo**.  

2. **Censo Demográfico 2010**: definiu-se como indígena a pessoa residente em **Terras Indígenas** que se declarou indígena pelo quesito de cor ou raça ou pelo quesito de se considerar indígena; ou a pessoa residente **fora das Terras Indígenas** que se declarou indígena no quesito de cor ou raça. Por essa razão, o total de pessoas indígenas é superior ou igual ao total de pessoas de cor ou raça declarada indígena, nos diferentes recortes.  

3. **Censo Demográfico 2022**: definiu-se como indígena a pessoa residente em **localidades indígenas** que se declarou indígena pelo quesito de cor ou raça ou pelo quesito de se considerar indígena; ou a pessoa residente **fora das localidades indígenas** que se declarou indígena no quesito de cor ou raça. Por essa razão, o total de pessoas indígenas é superior ou igual ao total de pessoas de cor ou raça declarada indígena, nos diferentes recortes.  

4. **Localidades indígenas no Censo 2022**: foram consideradas aquelas que compõem o conjunto das **Terras Indígenas**, dos **agrupamentos indígenas** e das demais áreas de conhecida ou potencial ocupação indígena. Para mais detalhes, consultar a documentação metodológica.  

5. **Terras Indígenas no Censo 2010**: o conjunto das Terras Indígenas foi formado por aquelas que estavam na situação fundiária de **declarada, homologada, regularizada e em processo de aquisição como reserva indígena** até a data de 31 de dezembro de 2010.  

6. **Terras Indígenas no Censo 2022**: foram consideradas as Terras Indígenas **declaradas, homologadas, regularizadas ou encaminhadas como Reservas Indígenas** até 31 de julho de 2022, data de referência da pesquisa, conforme os dados da Fundação Nacional dos Povos Indígenas – FUNAI. Para mais informações, consultar a documentação metodológica.  

7. **Divisão Regional**: a utilização da **Divisão Regional do Brasil em Regiões Geográficas Imediatas e Regiões Geográficas Intermediárias (2017)** para tabulação dos resultados do Censo 2022 tem fins ilustrativos de comparabilidade das operações censitárias, devendo-se atentar para as transformações territoriais ocorridas no período intercensitário.  

8. **Amazônia Legal**: para tabulação dos resultados do Censo 2010, utilizou-se o recorte da **Amazônia Legal** divulgado pelo IBGE em 2022, considerando-se que não houve alteração na composição municipal do recorte entre os Censos. Deve-se considerar, entretanto, as transformações territoriais ocorridas no período.  

---

#### Legenda

| Símbolo       | Significado                                             | Exemplos                                                                                  |
|---------------|---------------------------------------------------------|------------------------------------------------------------------------------------------|
| `-`           | Zero absoluto, não resultante de um cálculo ou arredondamento. | Em determinado município não existem pessoas de 14 anos de idade sem instrução.          |
| `0`           | Zero resultante de um cálculo ou arredondamento.       | A inflação do feijão em determinada Região Metropolitana foi 0. Determinado município produziu 400 kg de sementes de girassol (dados em toneladas). |
| `X`           | Valor inibido para não identificar o informante.      | Determinado município só possui uma empresa produtora de cimento, logo o valor de sua produção deve ser inibido. |
| `..` ou `...` | Valor não se aplica.                                   | Não se pode obter o total da produção agrícola em determinado município quando os produtos agrícolas são contabilizados com unidades de medida distintas. |
| `A a Z` (exceto X) | Valor não disponível ou faixa de valores.        | A produção de feijão em determinado município não foi pesquisada ou determinado município não existia no ano da pesquisa; nível de precisão da produção estimada de combustíveis está na faixa A (95 a 100%). |
