# IMD1151 - CIÊNCIAS DE DADOS - T01 (2025.1)

## 📊 Resultados do Censo Escolar 2024

**Tema:**
Números de alunos da Educação Básica na **Educação Especial** (Inclusiva ou Exclusiva)

**Fonte:**  
[gov.br - INEP - Censo Escolar 2024](https://www.gov.br/inep/pt-br/areas-de-atuacao/pesquisas-estatisticas-e-indicadores/censo-escolar/resultados)

---

**Aluno:** Douglas Alexandre dos Santos  
**Matrícula:** 20210096853


In [1]:
import pandas as pd
dataset = pd.read_csv('../data/microdados_ed_basica_2024.csv',
                      encoding='latin-1', sep=';', dtype='unicode')
print('Informações do Dataset: {}'.format(dataset.info()))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 215545 entries, 0 to 215544
Columns: 426 entries, NU_ANO_CENSO to QT_TUR_MED_INT
dtypes: object(426)
memory usage: 700.5+ MB
Informações do Dataset: None


## 🔍 Seleção de Colunas com Base no Dicionário de Dados

Agora faremos a seleção de colunas que precisamos, com auxílio do dicionário de dados. Decidir escolher as colunas antes de qualquer tratamento dos dados, pois o numero excessivo de colunas poderia dificiltar esse tratamento:

---

### 📍 Identificação Geográfica e Escolar

Colunas escolhidas para filtrar os dados por localização.

- `NO_REGIAO` — Nome da região geográfica  
- `NO_UF` — Nome da Unidade da Federação  
- `SG_UF` — Sigla da Unidade da Federação
- `NO_ENTIDADE` - Nome da Escola

---

### 🏫 Situação de Funcionamento da Escola

Coluna escolhida para saber se a instituição está em funcionnamento.

- `TP_SITUACAO_FUNCIONAMENTO` — Situação de funcionamento:  
    - 1 - Em atividade
    - 2 - Paralisada
    - 3 - Extinta - no Ano do Censo
    - 4 - Extinta em Anos Anteriores

---

### 🏛️ Vínculo com Órgãos Públicos

Coluna que indica se a escola é pública.

- `IN_VINCULO_SECRETARIA_EDUCACAO` — Secretaria de Educação/MEC  
- `IN_VINCULO_SEGURANCA_PUBLICA` — Segurança Pública/Forças Armadas  
- `IN_VINCULO_SECRETARIA_SAUDE` — Secretaria de Saúde  
- `IN_VINCULO_OUTRO_ORGAO` — Outro órgão público
    - 0 - Não
    - 1 - Sim
    - **Não aplicável para escolas privadas**

---

### 🏢 Mantenedora da Escola Privada

Colunas que indicam se a escola é privada.

- `IN_MANT_ESCOLA_PRIVADA_EMP` — Empresa ou grupo empresarial  
- `IN_MANT_ESCOLA_PRIVADA_ONG` — Organização Não Governamental  
- `IN_MANT_ESCOLA_PRIVADA_OSCIP` — Organização da Sociedade Civil (Oscip)  
- `IN_MANT_ESCOLA_PRIV_ONG_OSCIP` — ONG ou Oscip  
- `IN_MANT_ESCOLA_PRIVADA_SIND` — Sindicatos/Associações/Cooperativas  
- `IN_MANT_ESCOLA_PRIVADA_SIST_S` — Sistema S (Sesi, Senai, etc.)  
- `IN_MANT_ESCOLA_PRIVADA_S_FINS` — Instituições sem fins lucrativos
    - 0 - Não
    - 1 - Sim
    - **Não aplicável para escolas públicas**

---

### ♿ Educação Especial

Colunas que indicam dados sobre a educação especial.

- `IN_ESP` — Educação Especial (Inclusiva ou Exclusiva)  
- `IN_ESP_CC` — Educação Especial Inclusiva (Classes Comuns)  
- `IN_ESP_CE` — Educação Especial Exclusiva (Classes Especiais)
    - 0 - Não
    - 1 - Sim
---

### 🎓 Matrículas

Colunas que mostra a quantidade de matriculas realizadas nas escolas.

- `QT_MAT_BAS` — Total de Matrículas da Educação Básica
- `QT_MAT_ESP` — Educação Especial  
- `QT_MAT_ESP_CC` — Inclusiva  
- `QT_MAT_ESP_CE` — Exclusiva  

---

### 🧑‍🏫 Turmas

Colunas que mostra a quantidade de turmas de educação básica e especial, para comparações.

- `QT_TUR_BAS` - Total de Turmas da Educação Básica
- `QT_TUR_ESP` — Total de Turmas da Educação Especial  
- `QT_TUR_ESP_CC` — Inclusiva  
- `QT_TUR_ESP_CE` — Exclusiva  

---

⚠️ *Em dúvida sobre o uso das variáveis de número de matrículas: \
(`QT_MAT_ESP` = `QT_MAT_ESP_CC` +`QT_MAT_ESP_CE`).*



In [2]:
important_columns = ['NO_REGIAO', 'NO_UF', 'SG_UF', 'NO_ENTIDADE',
                     'TP_SITUACAO_FUNCIONAMENTO',
                     
                     'IN_VINCULO_SECRETARIA_EDUCACAO', 'IN_VINCULO_SEGURANCA_PUBLICA', 
                     'IN_VINCULO_SECRETARIA_SAUDE', 'IN_VINCULO_OUTRO_ORGAO',
                     
                     'IN_MANT_ESCOLA_PRIVADA_EMP', 'IN_MANT_ESCOLA_PRIVADA_ONG', 
                     'IN_MANT_ESCOLA_PRIVADA_OSCIP', 'IN_MANT_ESCOLA_PRIV_ONG_OSCIP',
                     'IN_MANT_ESCOLA_PRIVADA_SIND', 'IN_MANT_ESCOLA_PRIVADA_SIST_S', 
                     'IN_MANT_ESCOLA_PRIVADA_S_FINS',
                     
                     'IN_ESP', 'IN_ESP_CC', 'IN_ESP_CE', 
                     'QT_MAT_BAS', 'QT_MAT_ESP', 'QT_MAT_ESP_CC', 'QT_MAT_ESP_CE',
                     'QT_TUR_BAS', 'QT_TUR_ESP', 'QT_TUR_ESP_CC', 'QT_TUR_ESP_CE']
dataset = dataset[important_columns]
print('Depois de escolher as colunas importantes: {}'.format(len(dataset.columns)))

Depois de escolher as colunas importantes: 27


### 🎯 Filtragem por Situação de Funcionamento (`TP_SITUACAO_FUNCIONAMENTO`)

Vamos manter no registro apenas as escolas **em atividade**, com base na variável `TP_SITUACAO_FUNCIONAMENTO`.
- **1** → Em Atividade ✅  
- **2** → Paralisada  
- **3** → Extinta (ano do Censo)  
- **4** → Extinta em Anos Anteriores  

🔍 **Critério de filtro:**  
Remover todas as escolas cujo valor de `TP_SITUACAO_FUNCIONAMENTO` seja **diferente de 1**.

In [3]:
# Instituições em atividade
dataset = dataset[dataset['TP_SITUACAO_FUNCIONAMENTO'] == '1']
# Depois do filtro
print('Depois de filtrar por escolas ativas: {}'.format(len(dataset)))

Depois de filtrar por escolas ativas: 181065


In [8]:
dataset.iloc[1]

NO_REGIAO                                            Norte
NO_UF                                             Rondônia
SG_UF                                                   RO
NO_ENTIDADE                       CEEJA LUIZ VAZ DE CAMOES
TP_SITUACAO_FUNCIONAMENTO                                1
IN_VINCULO_SECRETARIA_EDUCACAO                           1
IN_VINCULO_SEGURANCA_PUBLICA                             0
IN_VINCULO_SECRETARIA_SAUDE                              0
IN_VINCULO_OUTRO_ORGAO                                   0
IN_MANT_ESCOLA_PRIVADA_EMP                             NaN
IN_MANT_ESCOLA_PRIVADA_ONG                             NaN
IN_MANT_ESCOLA_PRIVADA_OSCIP                           NaN
IN_MANT_ESCOLA_PRIV_ONG_OSCIP                          NaN
IN_MANT_ESCOLA_PRIVADA_SIND                            NaN
IN_MANT_ESCOLA_PRIVADA_SIST_S                          NaN
IN_MANT_ESCOLA_PRIVADA_S_FINS                          NaN
IN_ESP                                                  

### 🧹 Remoção de Coluna Desnecessária

A coluna `TP_SITUACAO_FUNCIONAMENTO` foi usada apenas para filtragem e **não será mais necessária** na análise.

🔻 **Ação:** Remover essa coluna do DataFrame.

In [5]:
dataset.drop(['TP_SITUACAO_FUNCIONAMENTO'], axis='columns', inplace=True)

### 🕵️‍♂️ Verificação de Dados Ausentes

Vamos identificar escolas cujo número de matrículas na **Educação Básica** (`QT_MAT_BAS`) está **nulo (NaN)**.

🔍 **Objetivo:** Encontrar registros com valores ausentes nessa coluna para avaliar a necessidade de limpeza ou tratamento.

In [6]:
dataset = dataset[~dataset['QT_MAT_BAS'].isnull()]
print('Número de escolas com QT_MAT_BAS não nulo: {}'.format(len(dataset)))

Número de escolas com QT_MAT_BAS não nulo: 179286


### 🏫 Classificação das Escolas: Públicas ou Privadas

Podemos classificar as escolas como **públicas ou privadas** com base na presença (ou ausência) de valores nas seguintes colunas:

#### 🏛️ Indicadores de Escolas **Públicas**
Essas colunas **não se aplicam a escolas privadas** — se estiverem com valor **nulo (NaN)**, a escola é **privada**:

- `IN_VINCULO_SECRETARIA_EDUCACAO`  
- `IN_VINCULO_SEGURANCA_PUBLICA`  
- `IN_VINCULO_SECRETARIA_SAUDE`  
- `IN_VINCULO_OUTRO_ORGAO`  

#### 🏢 Indicadores de Escolas **Privadas**
Essas colunas **não se aplicam a escolas públicas** — se estiverem com valor **nulo (NaN)**, a escola é **pública**:

- `IN_MANT_ESCOLA_PRIVADA_EMP`  
- `IN_MANT_ESCOLA_PRIVADA_ONG`  
- `IN_MANT_ESCOLA_PRIVADA_OSCIP`  
- `IN_MANT_ESCOLA_PRIV_ONG_OSCIP`  
- `IN_MANT_ESCOLA_PRIVADA_SIND`  
- `IN_MANT_ESCOLA_PRIVADA_SIST_S`  
- `IN_MANT_ESCOLA_PRIVADA_S_FINS`  

🔍 **Observação:**  
Essa lógica se baseia na estrutura dos dados do Censo Escolar, onde a presença ou ausência dessas informações indica o tipo de mantenedora da escola.

A partir da classificação baseada nos campos de vínculos e mantenedoras, podemos identificar e contar quantas escolas são **públicas** e quantas são **privadas**.

#### 🔎 Critérios:
- **Escolas Públicas:** possuem dados nas colunas de vínculo com órgãos públicos.
- **Escolas Privadas:** possuem dados nas colunas de mantenedoras privadas.

In [7]:
public_schools = dataset[dataset['IN_MANT_ESCOLA_PRIVADA_EMP'].isnull()]
private_schools = dataset[~dataset['IN_MANT_ESCOLA_PRIVADA_EMP'].isnull()]
print('Número escolas públicas: {}'.format(len(public_schools)))
print('Número escolas privadas: {}'.format(len(private_schools)))

Número escolas públicas: 136844
Número escolas privadas: 42442


### 🧹 Remoção de Colunas Utilizadas na Classificação

As colunas utilizadas para identificar se uma escola é **pública** ou **privada** já cumpriram seu papel na análise.  
Agora que temos a coluna `TP_ESCOLA` com a classificação definida, podemos remover essas variáveis para limpar o DataFrame.

#### 🏢 Colunas de mantenedoras privadas:
- `IN_MANT_ESCOLA_PRIVADA_EMP`  
- `IN_MANT_ESCOLA_PRIVADA_ONG`  
- `IN_MANT_ESCOLA_PRIVADA_OSCIP`  
- `IN_MANT_ESCOLA_PRIV_ONG_OSCIP`  
- `IN_MANT_ESCOLA_PRIVADA_SIND`  
- `IN_MANT_ESCOLA_PRIVADA_SIST_S`  
- `IN_MANT_ESCOLA_PRIVADA_S_FINS`

#### 🏛️ Colunas de vínculo com órgãos públicos (públicas):
- `IN_VINCULO_SECRETARIA_EDUCACAO`  
- `IN_VINCULO_SEGURANCA_PUBLICA`  
- `IN_VINCULO_SECRETARIA_SAUDE`  
- `IN_VINCULO_OUTRO_ORGAO`  

In [8]:
vinculos = ['IN_MANT_ESCOLA_PRIVADA_EMP', 'IN_MANT_ESCOLA_PRIVADA_ONG',
            'IN_MANT_ESCOLA_PRIVADA_OSCIP', 'IN_MANT_ESCOLA_PRIV_ONG_OSCIP',
            'IN_MANT_ESCOLA_PRIVADA_SIND', 'IN_MANT_ESCOLA_PRIVADA_SIST_S',
            'IN_MANT_ESCOLA_PRIVADA_S_FINS', 'IN_VINCULO_SECRETARIA_EDUCACAO',
            'IN_VINCULO_SEGURANCA_PUBLICA', 'IN_VINCULO_SECRETARIA_SAUDE', 
            'IN_VINCULO_OUTRO_ORGAO']
public_schools.drop(vinculos, axis='columns', inplace=True)
private_schools.drop(vinculos, axis='columns', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  public_schools.drop(vinculos, axis='columns', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  private_schools.drop(vinculos, axis='columns', inplace=True)


### 💾 Exportação das Tabelas Tratadas

Agora que o **tratamento dos dados foi concluído**, podemos **exportar** as tabelas separadas de escolas **públicas** e **privadas** para análises futuras.

🔄 **Objetivo:** Salvar os dados limpos e classificados em arquivos `.csv` para facilitar o acesso e a reutilização.

In [9]:
public_schools.to_csv('../data/public_school_Brazil_2024.csv', sep=';', encoding='utf-8', index=False)
private_schools.to_csv('../data/private_school_Brazil_2024.csv', sep=';', encoding='utf-8', index=False)