# 🎯 Projeto 3: Análise de Desigualdade Educacional no Brasil


Esse notebook servirá para anotar as ideias, as analises aleatorias feitas e demais coisas.

Em outro notebook terá a organização bem feita das análises


## 📌 Tema:
Vamos usar dados do INEP (Ideb) ou Censo Escolar para analisar desigualdades educacionais entre diferentes regiões do Brasil. O foco será comparar indicadores como taxa de aprovação, evasão, número de alunos por turma e IDEB em diferentes estados, anos e redes de ensino (pública x privada).

## 🔗 Fonte de Dados:

Para os dados, utilizei os microdados dos dados abertos do Censo Escolar 2024, que podem ser conferidas logo abaixo: 

- [Microdados do Censo Escolar](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar)

## 💡 Uma mudança

A base de dados do Censo Escolar é muito extensa para eu trabalhar como um iniciante. Eu decidi trabalhar apenas com um estado inicialmente, e posteriormente ir trabalhando com os outros estados, captando pequenas mudanças se necessário. 

Ao observar os dados, e também o dicionário de dados, foi perceptivel que existe muita informação ao qual da para ser trablhada com apenas um estado, e assim conseguirei atingir meus objetivos iniciais. Outro motivo também foi porque assim também terei uma facilidade no entendimento do contexto local dos estados.

Irei então trabalhar com o estado de **Pernambuco**

In [1]:
import pandas as pd

In [20]:
# O arquivo que antes estava nesse local foi apagado, pois pesava muito
# df = pd.read_csv("microdados_censo_escolar_2024/dados/microdados_ed_basica_2024.csv", sep=';', encoding='latin1')
# df_estado = df[df['SG_UF'] == 'PE'] 

In [21]:
# Salvando o DataFrame só com as informações do estado de 'Pernambuco'
# df_estado.to_csv('microdados_censo_PE_2024.csv', index=False)

In [12]:
# Abaixo está o arquivo csv salvo após filtrar apenas para um único estado
df = pd.read_csv("microdados_censo_escolar_2024/dados/microdados_censo_PE_2024.csv")

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9936 entries, 0 to 9935
Columns: 426 entries, NU_ANO_CENSO to QT_TUR_MED_INT
dtypes: float64(396), int64(14), object(16)
memory usage: 32.3+ MB


In [17]:
df.columns

Index(['NU_ANO_CENSO', 'NO_REGIAO', 'CO_REGIAO', 'NO_UF', 'SG_UF', 'CO_UF',
       'NO_MUNICIPIO', 'CO_MUNICIPIO', 'NO_REGIAO_GEOG_INTERM',
       'CO_REGIAO_GEOG_INTERM',
       ...
       'QT_TUR_BAS_D', 'QT_TUR_BAS_N', 'QT_TUR_BAS_EAD', 'QT_TUR_INF_INT',
       'QT_TUR_INF_CRE_INT', 'QT_TUR_INF_PRE_INT', 'QT_TUR_FUND_INT',
       'QT_TUR_FUND_AI_INT', 'QT_TUR_FUND_AF_INT', 'QT_TUR_MED_INT'],
      dtype='object', length=426)

In [16]:
df.isnull().sum()

NU_ANO_CENSO             0
NO_REGIAO                0
CO_REGIAO                0
NO_UF                    0
SG_UF                    0
                      ... 
QT_TUR_INF_PRE_INT    1943
QT_TUR_FUND_INT       1943
QT_TUR_FUND_AI_INT    1943
QT_TUR_FUND_AF_INT    1943
QT_TUR_MED_INT        1943
Length: 426, dtype: int64

In [18]:
df.head()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
0,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,,,,,,,,,,
1,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,18.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,12.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,15.0,9.0,0.0,0.0,0.0,0.0,3.0,0.0,3.0,0.0
4,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,,,,,,,,,,


In [27]:
df.tail()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
9931,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9932,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,,,,,,,,,,
9933,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9934,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,11.0,4.0,0.0,0.0,0.0,0.0,4.0,4.0,0.0,0.0
9935,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,12.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


___

**Importante**

Ao observar o dicionário de dados (`está em Anexo I`), foi visto que não tem uma maneira de reduzir a quantidade de colunas do dataframe, que se encontram em 426. 

Com isso em mente, irei tentar trabalhar da melhor maneira possivel para obter uma análise de boa qualidade para esse meu pequeno projeto. Irei sempre estar utilizando o dicionário de dados para conseguir identificar o que determinada coluna me informa, ou até mesmo para encontrar mais facilmente algum informação de coluna para utilizar.

In [32]:
# Todas as colunas do dataframe
df.columns.tolist()

['NU_ANO_CENSO',
 'NO_REGIAO',
 'CO_REGIAO',
 'NO_UF',
 'SG_UF',
 'CO_UF',
 'NO_MUNICIPIO',
 'CO_MUNICIPIO',
 'NO_REGIAO_GEOG_INTERM',
 'CO_REGIAO_GEOG_INTERM',
 'NO_REGIAO_GEOG_IMED',
 'CO_REGIAO_GEOG_IMED',
 'NO_MESORREGIAO',
 'CO_MESORREGIAO',
 'NO_MICRORREGIAO',
 'CO_MICRORREGIAO',
 'NO_DISTRITO',
 'CO_DISTRITO',
 'NO_ENTIDADE',
 'CO_ENTIDADE',
 'TP_DEPENDENCIA',
 'TP_CATEGORIA_ESCOLA_PRIVADA',
 'TP_LOCALIZACAO',
 'TP_LOCALIZACAO_DIFERENCIADA',
 'DS_ENDERECO',
 'NU_ENDERECO',
 'DS_COMPLEMENTO',
 'NO_BAIRRO',
 'CO_CEP',
 'NU_DDD',
 'NU_TELEFONE',
 'TP_SITUACAO_FUNCIONAMENTO',
 'CO_ORGAO_REGIONAL',
 'DT_ANO_LETIVO_INICIO',
 'DT_ANO_LETIVO_TERMINO',
 'IN_VINCULO_SECRETARIA_EDUCACAO',
 'IN_VINCULO_SEGURANCA_PUBLICA',
 'IN_VINCULO_SECRETARIA_SAUDE',
 'IN_VINCULO_OUTRO_ORGAO',
 'IN_PODER_PUBLICO_PARCERIA',
 'TP_PODER_PUBLICO_PARCERIA',
 'IN_FORMA_CONT_TERMO_COLABORA',
 'IN_FORMA_CONT_TERMO_FOMENTO',
 'IN_FORMA_CONT_ACORDO_COOP',
 'IN_FORMA_CONT_PRESTACAO_SERV',
 'IN_FORMA_CONT_COOP_TEC_F

___

# Algumas Ideias...

## 🗂️ Algumas perguntas que estão surgindo para a análise:

- Qual a taxa de aprovação média por município?
- A infraestrutura das escolas (biblioteca, laboratório, internet) influencia nos resultados?
- Quantas escolas por tipo de rede (pública, privada)?
- Qual o perfil dos docentes?

Vou separar por categorias, acredito que fica melhor.


🎯 Perfil das Escolas

- Qual a quantidade total de escolas por rede (pública x privada)?
- Qual o percentual de escolas que possuem biblioteca, laboratório de informática, quadra esportiva ou acesso à internet?
- Quais são os municípios com maior número de escolas?
- Qual o percentual de escolas urbanas x rurais?
- Qual a média de alunos por escola?
- Qual a distribuição das escolas por etapas de ensino (fundamental, médio, EJA, etc.)?

🎯 Perfil dos Alunos

- Quantos alunos estão matriculados no estado por rede de ensino?
- Qual a média de alunos por turma (ou sala)?
- Qual a proporção de alunos na zona urbana x zona rural?
- Qual o percentual de alunos com necessidades especiais atendidos nas escolas?
- Quantos alunos por município? Existe concentração em alguns polos?
- Existe diferença de matrícula por sexo?

🎯 Perfil dos Docentes

- Qual a quantidade total de docentes no estado?
- Qual o percentual de docentes com ensino superior completo?
- Qual a média de alunos por docente?
- Quais são os municípios com mais professores?
- Existem diferenças na formação dos docentes entre escolas públicas e privadas?

🎯 Infraestrutura Escolar x Indicadores

- As escolas com biblioteca atendem mais alunos?
- Existe relação entre a presença de laboratório de informática e o número médio de alunos?
- Qual a infraestrutura mais presente nas escolas públicas? E nas privadas?
- Infraestrutura varia muito entre zonas urbana e rural?

🎯 Comparativos

- Qual a diferença de estrutura e número de alunos entre escolas urbanas e rurais?
- Qual a diferença entre as redes pública e privada?
- Como está a distribuição das escolas por município em relação à população (ex: escolas per capita)?

🎯 Possíveis Cruzes de Dados (Para aprofundar)
- Municípios com mais escolas públicas possuem também maior número de docentes qualificados?
- Escolas públicas em áreas urbanas têm infraestrutura melhor que em áreas rurais?
- Escolas que oferecem mais etapas de ensino concentram mais alunos?

🎯 Análises Temporais (Se tiver mais anos)
- O número de matrículas cresceu ou diminuiu ao longo dos anos?
- Como a pandemia afetou as matrículas ou número de docentes?
- A infraestrutura das escolas melhorou nos últimos anos?


## 🗂️ Sugestões de Análises para o Projeto

### 1️⃣ Panorama das Escolas no Estado

- Quantas escolas existem no estado por rede de ensino (pública/privada)?
- Quantas escolas têm biblioteca, laboratório, internet?
- Distribuição do número de alunos por escola.

Insight esperado: “No estado de SP, apenas 40% das escolas públicas possuem laboratório de informática.”

### 2️⃣ Infraestrutura x Rede de Ensino

- Qual a diferença de infraestrutura entre escolas públicas e privadas?
- Existe diferença significativa no acesso à internet, quadra, biblioteca?
- Gráficos sugeridos:
    - Barras comparativas
    - Heatmap de correlação por rede

### 3️⃣ Número de Alunos por Município

- Quais são os 10 municípios com maior número de alunos matriculados?
- Existe relação entre o tamanho do município (número de escolas) e o número médio de alunos por escola?

Possível insight: “Municípios menores têm turmas mais cheias em escolas públicas.”

### 4️⃣ Docentes e Qualificação

- Qual a proporção de docentes com formação superior por rede?
- Há diferença na formação de professores da rede pública e privada?
- Gráfico sugerido: Barras empilhadas ou porcentagem

### 5️⃣ Análise Temporal (se tiver mais de um ano)

- Como evoluiu o número de matrículas nos últimos anos?
- Houve queda de matrícula na pandemia?

### 6️⃣ Geolocalização (Extra)

- Se quiser ousar, pode mapear as escolas no estado usando as coordenadas (se vierem na base).
- Ou plotar por município.



In [52]:
# Analise aleátoria
colunas_desejadas = ['NO_MUNICIPIO', 'NO_ENTIDADE', 'IN_AGUA_POTAVEL', 'IN_AGUA_REDE_PUBLICA', 'IN_AGUA_POCO_ARTESIANO', 'IN_AGUA_CACIMBA', 'IN_AGUA_FONTE_RIO', 'IN_AGUA_INEXISTENTE', 'IN_AGUA_CARRO_PIPA']


# Visualizar as colunas sobre a agua das escolas
df_copia1 = df[colunas_desejadas]

In [77]:
df_copia1[df_copia1['NO_MUNICIPIO'] == 'Itambé']

Unnamed: 0,NO_MUNICIPIO,NO_ENTIDADE,IN_AGUA_POTAVEL,IN_AGUA_REDE_PUBLICA,IN_AGUA_POCO_ARTESIANO,IN_AGUA_CACIMBA,IN_AGUA_FONTE_RIO,IN_AGUA_INEXISTENTE,IN_AGUA_CARRO_PIPA
3819,Itambé,ESCOLA DE REFERENCIA EM ENSINO MEDIO FREI ORLANDO,1.0,1.0,0.0,0.0,0.0,0.0,0.0
3820,Itambé,COLEGIO MUNICIPAL PROFESSOR NIVALDO XAVIER DE ...,1.0,1.0,0.0,1.0,0.0,0.0,0.0
3821,Itambé,ESCOLA ARRUDA CAMARA,1.0,1.0,0.0,1.0,0.0,0.0,0.0
3822,Itambé,ESCOLA MUL ALVARO VELOSO BORBA,1.0,0.0,0.0,1.0,0.0,0.0,0.0
3823,Itambé,ESC MUL ANTONIO GUEDES CORREIA GONDIM,1.0,0.0,0.0,1.0,0.0,0.0,0.0
3824,Itambé,ESC MUL ELIUDE FALCAO CORREIA LIMA,1.0,0.0,0.0,1.0,0.0,0.0,0.0
3825,Itambé,ESCOLA MUL MENINO JESUS DE PRAGA,1.0,0.0,0.0,1.0,0.0,0.0,0.0
3826,Itambé,ESCOLA DE REFERENCIA EM ENSINO FUNDAMENTAL JOS...,1.0,1.0,1.0,1.0,0.0,0.0,0.0
3827,Itambé,ESCOLA MUNICIPAL PASCOAL CARRAZZONI,1.0,1.0,0.0,0.0,0.0,0.0,0.0
3828,Itambé,ESCOLA MUNICIPAL NOSSA SENHORA DAS GRACAS II,1.0,0.0,0.0,1.0,0.0,0.0,0.0


In [82]:
df[['QT_MAT_BAS_FEM', 'QT_MAT_BAS_MASC']]

Unnamed: 0,QT_MAT_BAS_FEM,QT_MAT_BAS_MASC
0,,
1,213.0,181.0
2,158.0,140.0
3,392.0,414.0
4,,
...,...,...
9931,28.0,21.0
9932,,
9933,49.0,53.0
9934,142.0,142.0


In [85]:
df['QT_MAT_BAS_FEM'].sum()

np.float64(1054311.0)

In [84]:
df.groupby('NO_ENTIDADE')['QT_MAT_BAS_FEM'].sum()

NO_ENTIDADE
90 GRAUS COLEGIO E CURSO          82.0
ACADEMIA AGAPE                     0.0
ACADEMIA ANA PAULA                75.0
ACADEMIA CASSIA CAROLINE           0.0
ACADEMIA CRISTA DE BOA VIAGEM    335.0
                                 ...  
VIVER CENTRO EDUCACIONAL         169.0
W D CENTRO EDUCACIONAL LTDA       44.0
YAPOATAM COLEGIO E CURSO LTDA    194.0
ZOE CENTRO EDUCACIONAL LTDA       42.0
ZOE CHRISTIAN SCHOOL              40.0
Name: QT_MAT_BAS_FEM, Length: 9068, dtype: float64