<a href="https://colab.research.google.com/github/LUCASDNORONHA/exploracao-dados-indigenas-2010-2022/blob/main/Projeto_de_Analise_de_Dados_Exploratoria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA – IESB**
### Curso de Ciência de Dados e Inteligência Artificial  
### Disciplina: Introdução à Ciência de Dados  
### Professor: Alexandre Vaz Roriz  
### Turma: CIANM1A  
### Aluno: Lucas Dias Noronha  

---

## 🧪 Projeto de Análise de Dados Exploratória

### **Tema da Base de Dados**  
**Pessoas indígenas, por localização e situação do domicílio, segundo as Grandes Regiões e as Unidades da Federação – Brasil – 2010/2022**

### **Fonte dos Dados**  
[Instituto Brasileiro de Geografia e Estatística – IBGE](https://www.ibge.gov.br/estatisticas/sociais/populacao/22827-censo-demografico-2022.html?edicao=42267&t=resultados)

---

### 📅 Brasília – DF | 2025


In [135]:
import pandas as pd
import numpy as np

from google.colab import drive

In [136]:
drive.mount('/content/drive')
db = pd.read_excel("/content/drive/MyDrive/Tabela_complementar_06 (1).xlsx")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Ajuste dos Nomes das Colunas

Os nomes originais das colunas da base de dados estavam organizados em múltiplos níveis de cabeçalho, herdando a estrutura da planilha de origem (formato de tabela com hierarquias de títulos). Esse formato dificultava o carregamento adequado dos dados no pandas, já que os nomes das colunas não estavam em um único nível, impedindo a correta identificação e manipulação dos campos.

Para resolver esse problema, realizamos a **normalização dos nomes das colunas**, transformando a estrutura em um **nível único de cabeçalho**. Cada coluna agora possui um nome claro, direto e padronizado, mantendo sua identidade e significado, porém com títulos mais enxutos e apropriados para análise em Python/pandas.

Esse processo permitiu a leitura correta do DataFrame e tornou viável a execução de análises exploratórias, cruzamentos e visualizações a partir de um esquema de dados limpo e funcional.


In [137]:
ajustar_nomes_colunas = [
    'UF',
    'Indígenas 2010 Total',
    'Indígenas 2010 Urbano',
    'Indígenas 2010 Rural',
    'Indígenas 2010 TI Total',
    'Indígenas 2010 TI Urbano',
    'Indígenas 2010 TI Rural',
    'Indígenas 2010 Fora TI Total',
    'Indígenas 2010 Fora TI Urbano',
    'Indígenas 2010 Fora TI Rural',
    'Indígenas 2022 Total',
    'Indígenas 2022 Urbano',
    'Indígenas 2022 Rural',
    'Indígenas 2022 TI Total',
    'Indígenas 2022 TI Urbano',
    'Indígenas 2022 TI Rural',
    'Indígenas 2022 Fora TI Total',
    'Indígenas 2022 Fora TI Urbano',
    'Indígenas 2022 Fora TI Rural',
    '% Indígenas 2010 Urbano',
    '% Indígenas 2010 Rural',
    '% Indígenas 2010 TI Urbano',
    '% Indígenas 2010 TI Rural',
    '% Indígenas 2010 Fora TI Urbano',
    '% Indígenas 2010 Fora TI Rural',
    '% Indígenas 2022 Urbano',
    '% Indígenas 2022 Rural',
    '% Indígenas 2022 TI Urbano',
    '% Indígenas 2022 TI Rural',
    '% Indígenas 2022 Fora TI Urbano',
    '% Indígenas 2022 Fora TI Rural'
]

db.columns = ajustar_nomes_colunas

# Dicionário de Variáveis – População Indígena (2010 e 2022)

| Coluna                                | Descrição |
|---------------------------------------|-----------|
| **UF**                                | Unidade da Federação (Estado ou Região do Brasil). |
| **Indígenas 2010 Total**              | Total de pessoas indígenas em 2010, considerando todos os domicílios. |
| **Indígenas 2010 Urbano**             | Número de indígenas em domicílios localizados em áreas urbanas em 2010. |
| **Indígenas 2010 Rural**              | Número de indígenas em domicílios localizados em áreas rurais em 2010. |
| **Indígenas 2010 TI Total**           | Total de indígenas residentes em Terras Indígenas (TIs) em 2010. |
| **Indígenas 2010 TI Urbano**          | Indígenas em áreas urbanas dentro de Terras Indígenas em 2010. |
| **Indígenas 2010 TI Rural**           | Indígenas em áreas rurais dentro de Terras Indígenas em 2010. |
| **Indígenas 2010 Fora TI Total**      | Total de indígenas fora de Terras Indígenas em 2010. |
| **Indígenas 2010 Fora TI Urbano**     | Indígenas fora de TIs e em áreas urbanas em 2010. |
| **Indígenas 2010 Fora TI Rural**      | Indígenas fora de TIs e em áreas rurais em 2010. |
| **Indígenas 2022 Total**              | Total de pessoas indígenas em 2022, considerando todos os domicílios. |
| **Indígenas 2022 Urbano**             | Número de indígenas em áreas urbanas em 2022. |
| **Indígenas 2022 Rural**              | Número de indígenas em áreas rurais em 2022. |
| **Indígenas 2022 TI Total**           | Total de indígenas residentes em Terras Indígenas em 2022. |
| **Indígenas 2022 TI Urbano**          | Indígenas em áreas urbanas dentro de TIs em 2022. |
| **Indígenas 2022 TI Rural**           | Indígenas em áreas rurais dentro de TIs em 2022. |
| **Indígenas 2022 Fora TI Total**      | Total de indígenas fora de Terras Indígenas em 2022. |
| **Indígenas 2022 Fora TI Urbano**     | Indígenas fora de TIs e em áreas urbanas em 2022. |
| **Indígenas 2022 Fora TI Rural**      | Indígenas fora de TIs e em áreas rurais em 2022. |
| **% Indígenas 2010 Urbano**           | Percentual da população indígena em áreas urbanas em 2010. |
| **% Indígenas 2010 Rural**            | Percentual da população indígena em áreas rurais em 2010. |
| **% Indígenas 2010 TI Urbano**        | Percentual de indígenas em áreas urbanas dentro de TIs em 2010. |
| **% Indígenas 2010 TI Rural**         | Percentual de indígenas em áreas rurais dentro de TIs em 2010. |
| **% Indígenas 2010 Fora TI Urbano**   | Percentual de indígenas fora de TIs em áreas urbanas em 2010. |
| **% Indígenas 2010 Fora TI Rural**    | Percentual de indígenas fora de TIs em áreas rurais em 2010. |
| **% Indígenas 2022 Urbano**           | Percentual da população indígena em áreas urbanas em 2022. |
| **% Indígenas 2022 Rural**            | Percentual da população indígena em áreas rurais em 2022. |
| **% Indígenas 2022 TI Urbano**        | Percentual de indígenas em áreas urbanas dentro de TIs em 2022. |
| **% Indígenas 2022 TI Rural**         | Percentual de indígenas em áreas rurais dentro de TIs em 2022. |
| **% Indígenas 2022 Fora TI Urbano**   | Percentual de indígenas fora de TIs em áreas urbanas em 2022. |
| **% Indígenas 2022 Fora TI Rural**    | Percentual de indígenas fora de TIs em áreas rurais em 2022. |


# 1. Informações gerais sobre a Base de Dados e as Primeiras Impressões

In [138]:
db.sample(10)

Unnamed: 0,UF,Indígenas 2010 Total,Indígenas 2010 Urbano,Indígenas 2010 Rural,Indígenas 2010 TI Total,Indígenas 2010 TI Urbano,Indígenas 2010 TI Rural,Indígenas 2010 Fora TI Total,Indígenas 2010 Fora TI Urbano,Indígenas 2010 Fora TI Rural,...,% Indígenas 2010 TI Urbano,% Indígenas 2010 TI Rural,% Indígenas 2010 Fora TI Urbano,% Indígenas 2010 Fora TI Rural,% Indígenas 2022 Urbano,% Indígenas 2022 Rural,% Indígenas 2022 TI Urbano,% Indígenas 2022 TI Rural,% Indígenas 2022 Fora TI Urbano,% Indígenas 2022 Fora TI Rural
34,São Paulo,41981,37917,4064,2767,406,2361,39214.0,37511,1703,...,14.672931,85.327069,95.657163,4.342837,87.5061,12.4939,0.071788,99.928212,94.649281,5.350719
37,Santa Catarina,18213,7741,10472,9227,427,8800,8986.0,7314,1672,...,4.627723,95.372277,81.393278,18.606722,47.517568,52.482432,3.446998,96.553002,90.829615,9.170385
16,Roraima,55922,8243,47679,46505,949,45556,9417.0,7294,2123,...,2.040641,97.959359,77.455665,22.544335,22.191506,77.808494,2.151796,97.848204,77.680019,22.319981
38,Rio Grande do Sul,34001,14190,19811,18266,1167,17099,15735.0,13023,2712,...,6.388919,93.611081,82.764538,17.235462,39.479807,60.520193,5.908166,94.091834,65.384238,34.615762
39,Centro-Oeste,143432,35156,108276,104019,2379,101640,39413.0,32777,6636,...,2.287082,97.712918,83.162916,16.837084,37.949968,62.050032,1.550775,98.449225,86.312128,13.687872
44,"Fonte: IBGE, Censo Demográfico 2022.",,,,,,,,,,...,,,,,,,,,,
5,,Absoluto,,,,,,,,,...,,,,,,,,,,
10,,,Urbana,Rural,,Urbana,Rural,,Urbana,Rural,...,Urbana,Rural,Urbana,Rural,Urbana,Rural,Urbana,Rural,Urbana,Rural
23,Ceará,20697,13061,7636,2988,710,2278,17709.0,12351,5358,...,23.761714,76.238286,69.744198,30.255802,61.092386,38.907614,62.180401,37.819599,60.84273,39.15727
24,Rio Grande do Norte,2597,2080,517,-,-,-,2597.0,2080,517,...,-,-,80.092414,19.907586,45.97407,54.02593,-,-,45.97407,54.02593


In [139]:
db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 31 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   UF                               37 non-null     object
 1   Indígenas 2010 Total             37 non-null     object
 2   Indígenas 2010 Urbano            35 non-null     object
 3   Indígenas 2010 Rural             34 non-null     object
 4   Indígenas 2010 TI Total          36 non-null     object
 5   Indígenas 2010 TI Urbano         35 non-null     object
 6   Indígenas 2010 TI Rural          34 non-null     object
 7   Indígenas 2010 Fora TI Total     35 non-null     object
 8   Indígenas 2010 Fora TI Urbano    35 non-null     object
 9   Indígenas 2010 Fora TI Rural     34 non-null     object
 10  Indígenas 2022 Total             35 non-null     object
 11  Indígenas 2022 Urbano            35 non-null     object
 12  Indígenas 2022 Rural             34 no

In [140]:
db.describe(include='all')

Unnamed: 0,UF,Indígenas 2010 Total,Indígenas 2010 Urbano,Indígenas 2010 Rural,Indígenas 2010 TI Total,Indígenas 2010 TI Urbano,Indígenas 2010 TI Rural,Indígenas 2010 Fora TI Total,Indígenas 2010 Fora TI Urbano,Indígenas 2010 Fora TI Rural,...,% Indígenas 2010 TI Urbano,% Indígenas 2010 TI Rural,% Indígenas 2010 Fora TI Urbano,% Indígenas 2010 Fora TI Rural,% Indígenas 2022 Urbano,% Indígenas 2022 Rural,% Indígenas 2022 TI Urbano,% Indígenas 2022 TI Rural,% Indígenas 2022 Fora TI Urbano,% Indígenas 2022 Fora TI Rural
count,37,37,35,34,36,35,34,35,35,34,...,37,34,36,34,36,34,37,34,36,34
unique,37,37,35,34,34,23,32,35,35,34,...,25,23,36,34,36,34,27,25,36,34
top,Indígenas: Principais características das pess...,Pessoas indígenas,Situação do domicílio,Rural,-,-,-,Fora Terras Indígenas,Situação do domicílio,Rural,...,-,100,Fora Terras Indígenas,Rural,2022,Rural,-,100,Fora Terras Indígenas,Rural
freq,1,1,1,1,3,13,3,1,1,1,...,13,10,1,1,1,1,11,9,1,1


# 2. Converter colunas numéricas para tipo float

## Presença de valores nulos
Muitas colunas têm menos que 45 valores não-nulos (o total de linhas).

Coluna UF tem 37 valores → 8 linhas sem nome de região/UF → provavelmente linhas em branco.

## Tipos de dados incorretos
Todas as colunas estão como object, ou seja, strings, inclusive as quantitativas.

Isso indica que os números provavelmente estão formatados como texto.

# Identificar e visualizar os NaN

In [141]:
db.isnull().sum()

Unnamed: 0,0
UF,8
Indígenas 2010 Total,8
Indígenas 2010 Urbano,10
Indígenas 2010 Rural,11
Indígenas 2010 TI Total,9
Indígenas 2010 TI Urbano,10
Indígenas 2010 TI Rural,11
Indígenas 2010 Fora TI Total,10
Indígenas 2010 Fora TI Urbano,10
Indígenas 2010 Fora TI Rural,11


In [142]:
db.isnull().sum().sort_values(ascending=False) # Isso mostra quantos NaN existem por coluna, em ordem decrescente.

Unnamed: 0,0
Indígenas 2010 Rural,11
Indígenas 2010 TI Rural,11
Indígenas 2010 Fora TI Rural,11
Indígenas 2022 Rural,11
% Indígenas 2010 TI Rural,11
Indígenas 2022 Fora TI Rural,11
Indígenas 2022 TI Rural,11
% Indígenas 2010 Fora TI Rural,11
% Indígenas 2022 Rural,11
% Indígenas 2022 Fora TI Rural,11


# Substitui strings vazias por NaN


In [143]:
db.replace('', np.nan, inplace=True)

# Converte todas as colunas para float, tratando valores inválidos como NaN


In [144]:
db = db.apply(pd.to_numeric, errors='coerce')

# Visualizar linhas com dados faltantes




In [145]:
db[db.isnull().any(axis=1)]

Unnamed: 0,UF,Indígenas 2010 Total,Indígenas 2010 Urbano,Indígenas 2010 Rural,Indígenas 2010 TI Total,Indígenas 2010 TI Urbano,Indígenas 2010 TI Rural,Indígenas 2010 Fora TI Total,Indígenas 2010 Fora TI Urbano,Indígenas 2010 Fora TI Rural,...,% Indígenas 2010 TI Urbano,% Indígenas 2010 TI Rural,% Indígenas 2010 Fora TI Urbano,% Indígenas 2010 Fora TI Rural,% Indígenas 2022 Urbano,% Indígenas 2022 Rural,% Indígenas 2022 TI Urbano,% Indígenas 2022 TI Rural,% Indígenas 2022 Fora TI Urbano,% Indígenas 2022 Fora TI Rural
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,
6,,2010.0,,,,,,,,,...,,,,,2022.0,,,,,
7,,,,,,,,,,,...,,,,,,,,,,
8,,,,,,,,,,,...,,,,,,,,,,
9,,,,,,,,,,,...,,,,,,,,,,


In [146]:
len(db) == len(db[db.isnull().any(axis=1)]) # Se retornar True, então todas as linhas têm pelo menos um valor nulo.

True

# Antenção: Todas as linhas do DataFrame têm pelo menos um valor NaN. Visto que foi retornado um data frame com o mesmo tamanho da base original.

In [147]:
print(db['Indígenas 2022 Total'].mean(skipna=True))

149603.82352941178


In [148]:
contagem_uf = db['UF'].value_counts(dropna=False)
contagem_uf

Unnamed: 0_level_0,count
UF,Unnamed: 1_level_1
,45


In [149]:
contagem_uf = db['UF'].value_counts()
contagem_uf

Unnamed: 0_level_0,count
UF,Unnamed: 1_level_1
