# 🎯 Projeto 3: Análise de Desigualdade Educacional no Brasil



## 📌 Tema:
Vamos usar dados do INEP (Ideb) ou Censo Escolar para analisar desigualdades educacionais entre diferentes regiões do Brasil. O foco será comparar indicadores como taxa de aprovação, evasão, número de alunos por turma e IDEB em diferentes estados, anos e redes de ensino (pública x privada).

## 🔗 Fonte de Dados:

Para os dados, utilizei os microdados dos dados abertos do Censo Escolar 2024, que podem ser conferidas logo abaixo: 

- [Microdados do Censo Escolar](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar)

## 💡 Uma mudança

A base de dados do Censo Escolar é muito extensa para eu trabalhar como um iniciante. Eu decidi trabalhar apenas com um estado inicialmente, e posteriormente ir trabalhando com os outros estados, captando pequenas mudanças se necessário. 

Ao observar os dados, e também o dicionário de dados, foi perceptivel que existe muita informação ao qual da para ser trablhada com apenas um estado, e assim conseguirei atingir meus objetivos iniciais. Outro motivo também foi porque assim também terei uma facilidade no entendimento do contexto local dos estados.

Irei então trabalhar com o estado de **Pernambuco**

In [1]:
import pandas as pd

In [20]:
# O arquivo que antes estava nesse local foi apagado, pois pesava muito
# df = pd.read_csv("microdados_censo_escolar_2024/dados/microdados_ed_basica_2024.csv", sep=';', encoding='latin1')
# df_estado = df[df['SG_UF'] == 'PE'] 

In [21]:
# Salvando o DataFrame só com as informações do estado de 'Pernambuco'
# df_estado.to_csv('microdados_censo_PE_2024.csv', index=False)

In [12]:
# Abaixo está o arquivo csv salvo após filtrar apenas para um único estado
df = pd.read_csv("microdados_censo_escolar_2024/dados/microdados_censo_PE_2024.csv")

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9936 entries, 0 to 9935
Columns: 426 entries, NU_ANO_CENSO to QT_TUR_MED_INT
dtypes: float64(396), int64(14), object(16)
memory usage: 32.3+ MB


In [17]:
df.columns

Index(['NU_ANO_CENSO', 'NO_REGIAO', 'CO_REGIAO', 'NO_UF', 'SG_UF', 'CO_UF',
       'NO_MUNICIPIO', 'CO_MUNICIPIO', 'NO_REGIAO_GEOG_INTERM',
       'CO_REGIAO_GEOG_INTERM',
       ...
       'QT_TUR_BAS_D', 'QT_TUR_BAS_N', 'QT_TUR_BAS_EAD', 'QT_TUR_INF_INT',
       'QT_TUR_INF_CRE_INT', 'QT_TUR_INF_PRE_INT', 'QT_TUR_FUND_INT',
       'QT_TUR_FUND_AI_INT', 'QT_TUR_FUND_AF_INT', 'QT_TUR_MED_INT'],
      dtype='object', length=426)

In [16]:
df.isnull().sum()

NU_ANO_CENSO             0
NO_REGIAO                0
CO_REGIAO                0
NO_UF                    0
SG_UF                    0
                      ... 
QT_TUR_INF_PRE_INT    1943
QT_TUR_FUND_INT       1943
QT_TUR_FUND_AI_INT    1943
QT_TUR_FUND_AF_INT    1943
QT_TUR_MED_INT        1943
Length: 426, dtype: int64

In [18]:
df.head()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
0,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,,,,,,,,,,
1,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,18.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,12.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,15.0,9.0,0.0,0.0,0.0,0.0,3.0,0.0,3.0,0.0
4,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,,,,,,,,,,


In [19]:
df.tail()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
9931,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9932,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,,,,,,,,,,
9933,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9934,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,11.0,4.0,0.0,0.0,0.0,0.0,4.0,4.0,0.0,0.0
9935,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,12.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


___

Visto algumas informações, vou agora apagar algumas colunas, que ao meu ver é desnecessário para a minha análise no momento.