# 🎯 Projeto 3: Análise de Desigualdade Educacional no Brasil


Esse notebook servirá para anotar as ideias, as analises aleatorias feitas e demais coisas.

Em outro notebook terá a organização bem feita das análises


## 📌 Tema:
Vamos usar dados do INEP (Ideb) ou Censo Escolar para analisar desigualdades educacionais entre diferentes regiões do Brasil. O foco será comparar indicadores como taxa de aprovação, evasão, número de alunos por turma e IDEB em diferentes estados, anos e redes de ensino (pública x privada).

## 🔗 Fonte de Dados:

Para os dados, utilizei os microdados dos dados abertos do Censo Escolar 2024, que podem ser conferidas logo abaixo: 

- [Microdados do Censo Escolar](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar)

## 💡 Uma mudança

A base de dados do Censo Escolar é muito extensa para eu trabalhar como um iniciante. Eu decidi trabalhar apenas com um estado inicialmente, e posteriormente ir trabalhando com os outros estados, captando pequenas mudanças se necessário. 

Ao observar os dados, e também o dicionário de dados, foi perceptivel que existe muita informação ao qual da para ser trablhada com apenas um estado, e assim conseguirei atingir meus objetivos iniciais. Outro motivo também foi porque assim também terei uma facilidade no entendimento do contexto local dos estados.

Irei então trabalhar com o estado de **Pernambuco**

In [1]:
import pandas as pd

In [20]:
# O arquivo que antes estava nesse local foi apagado, pois pesava muito
# df = pd.read_csv("microdados_censo_escolar_2024/dados/microdados_ed_basica_2024.csv", sep=';', encoding='latin1')
# df_estado = df[df['SG_UF'] == 'PE'] 

In [21]:
# Salvando o DataFrame só com as informações do estado de 'Pernambuco'
# df_estado.to_csv('microdados_censo_PE_2024.csv', index=False)

In [2]:
# Abaixo está o arquivo csv salvo após filtrar apenas para um único estado
df = pd.read_csv("microdados_censo_escolar_2024/dados/microdados_censo_PE_2024.csv")

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9936 entries, 0 to 9935
Columns: 426 entries, NU_ANO_CENSO to QT_TUR_MED_INT
dtypes: float64(396), int64(14), object(16)
memory usage: 32.3+ MB


In [17]:
df.columns

Index(['NU_ANO_CENSO', 'NO_REGIAO', 'CO_REGIAO', 'NO_UF', 'SG_UF', 'CO_UF',
       'NO_MUNICIPIO', 'CO_MUNICIPIO', 'NO_REGIAO_GEOG_INTERM',
       'CO_REGIAO_GEOG_INTERM',
       ...
       'QT_TUR_BAS_D', 'QT_TUR_BAS_N', 'QT_TUR_BAS_EAD', 'QT_TUR_INF_INT',
       'QT_TUR_INF_CRE_INT', 'QT_TUR_INF_PRE_INT', 'QT_TUR_FUND_INT',
       'QT_TUR_FUND_AI_INT', 'QT_TUR_FUND_AF_INT', 'QT_TUR_MED_INT'],
      dtype='object', length=426)

In [16]:
df.isnull().sum()

NU_ANO_CENSO             0
NO_REGIAO                0
CO_REGIAO                0
NO_UF                    0
SG_UF                    0
                      ... 
QT_TUR_INF_PRE_INT    1943
QT_TUR_FUND_INT       1943
QT_TUR_FUND_AI_INT    1943
QT_TUR_FUND_AF_INT    1943
QT_TUR_MED_INT        1943
Length: 426, dtype: int64

In [18]:
df.head()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
0,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,,,,,,,,,,
1,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,18.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,12.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,15.0,9.0,0.0,0.0,0.0,0.0,3.0,0.0,3.0,0.0
4,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,,,,,,,,,,


In [27]:
df.tail()

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
9931,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9932,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,,,,,,,,,,
9933,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9934,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,11.0,4.0,0.0,0.0,0.0,0.0,4.0,4.0,0.0,0.0
9935,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,12.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


___

**Importante**

Ao observar o dicionário de dados (`está em Anexo I`), foi visto que não tem uma maneira de reduzir a quantidade de colunas do dataframe, que se encontram em 426. 

Com isso em mente, irei tentar trabalhar da melhor maneira possivel para obter uma análise de boa qualidade para esse meu pequeno projeto. Irei sempre estar utilizando o dicionário de dados para conseguir identificar o que determinada coluna me informa, ou até mesmo para encontrar mais facilmente algum informação de coluna para utilizar.

In [3]:
# Todas as colunas do dataframe
#df.columns.tolist()

___

# Algumas Ideias...

## 🗂️ Algumas perguntas que estão surgindo para a análise:

- Qual a taxa de aprovação média por município?
- A infraestrutura das escolas (biblioteca, laboratório, internet) influencia nos resultados?
- Quantas escolas por tipo de rede (pública, privada)?
- Qual o perfil dos docentes?

Vou separar por categorias, acredito que fica melhor.


🎯 Perfil das Escolas

- Qual a quantidade total de escolas por rede (pública x privada)?
- Qual o percentual de escolas que possuem biblioteca, laboratório de informática, quadra esportiva ou acesso à internet?
- Quais são os municípios com maior número de escolas?
- Qual o percentual de escolas urbanas x rurais?
- Qual a média de alunos por escola?
- Qual a distribuição das escolas por etapas de ensino (fundamental, médio, EJA, etc.)?

🎯 Perfil dos Alunos

- Quantos alunos estão matriculados no estado por rede de ensino?
- Qual a média de alunos por turma (ou sala)?
- Qual a proporção de alunos na zona urbana x zona rural?
- Qual o percentual de alunos com necessidades especiais atendidos nas escolas?
- Quantos alunos por município? Existe concentração em alguns polos?
- Existe diferença de matrícula por sexo?

🎯 Perfil dos Docentes

- Qual a quantidade total de docentes no estado?
- Qual o percentual de docentes com ensino superior completo?
- Qual a média de alunos por docente?
- Quais são os municípiods com mais professores?
- Existem diferenças na formação dos docentes entre escolas públicas e privadas?

🎯 Infraestrutura Escolar x Indicadores

b- Existe relação entre a presença de laboratório de informática e o número médio de alunos?
- Qual a infraestrutura mais presente nas escolas públicas? E nas privadas?
- Infraestrutura varia muito entre zonas urbana e rural?

🎯 Comparativos

- Qual a diferença de estrutura e número de alunos entre escolas urbanas e rurais?
- Qual a diferença entre as redes pública e privada?
- Como está a distribuição das escolas por município em relação à população (ex: escolas per capita)?

🎯 Possíveis Cruzes de Dados (Para aprofundar)
- Municípios com mais escolas públicas possuem também maior número de docentes qualificados?
- Escolas públicas em áreas urbanas têm infraestrutura melhor que em áreas rurais?
- Escolas que oferecem mais etapas de ensino concentram mais alunos?

🎯 Análises Temporais (Se tiver mais anos)
- O número de matrículas cresceu ou diminuiu ao longo dos anos?
- Como a pandemia afetou as matrículas ou número de docentes?
- A infraestrutura das escolas melhorou nos últimos anos?


## 🗂️ Sugestões de Análises para o Projeto

### 1️⃣ Panorama das Escolas no Estado

- Quantas escolas existem no estado por rede de ensino (pública/privada)?
- Quantas escolas têm biblioteca, laboratório, internet?
- Distribuição do número de alunos por escola.

Insight esperado: “No estado de SP, apenas 40% das escolas públicas possuem laboratório de informática.”

### 2️⃣ Infraestrutura x Rede de Ensino

- Qual a diferença de infraestrutura entre escolas públicas e privadas?
- Existe diferença significativa no acesso à internet, quadra, biblioteca?
- Gráficos sugeridos:
    - Barras comparativas
    - Heatmap de correlação por rede

### 3️⃣ Número de Alunos por Município

- Quais são os 10 municípios com maior número de alunos matriculados?
- Existe relação entre o tamanho do município (número de escolas) e o número médio de alunos por escola?

Possível insight: “Municípios menores têm turmas mais cheias em escolas públicas.”

### 4️⃣ Docentes e Qualificação

- Qual a proporção de docentes com formação superior por rede?
- Há diferença na formação de professores da rede pública e privada?
- Gráfico sugerido: Barras empilhadas ou porcentagem

### 5️⃣ Análise Temporal (se tiver mais de um ano)

- Como evoluiu o número de matrículas nos últimos anos?
- Houve queda de matrícula na pandemia?

### 6️⃣ Geolocalização (Extra)

- Se quiser ousar, pode mapear as escolas no estado usando as coordenadas (se vierem na base).
- Ou plotar por município.



In [5]:
# Analise aleátoria
colunas_desejadas = ['NO_MUNICIPIO', 'NO_ENTIDADE', 'IN_AGUA_POTAVEL', 'IN_AGUA_REDE_PUBLICA', 'IN_AGUA_POCO_ARTESIANO', 'IN_AGUA_CACIMBA', 'IN_AGUA_FONTE_RIO', 'IN_AGUA_INEXISTENTE', 'IN_AGUA_CARRO_PIPA']


# Visualizar as colunas sobre a agua das escolas
df_copia1 = df[colunas_desejadas]

In [6]:
df_copia1[df_copia1['NO_MUNICIPIO'] == 'Itambé'].head()

Unnamed: 0,NO_MUNICIPIO,NO_ENTIDADE,IN_AGUA_POTAVEL,IN_AGUA_REDE_PUBLICA,IN_AGUA_POCO_ARTESIANO,IN_AGUA_CACIMBA,IN_AGUA_FONTE_RIO,IN_AGUA_INEXISTENTE,IN_AGUA_CARRO_PIPA
3819,Itambé,ESCOLA DE REFERENCIA EM ENSINO MEDIO FREI ORLANDO,1.0,1.0,0.0,0.0,0.0,0.0,0.0
3820,Itambé,COLEGIO MUNICIPAL PROFESSOR NIVALDO XAVIER DE ...,1.0,1.0,0.0,1.0,0.0,0.0,0.0
3821,Itambé,ESCOLA ARRUDA CAMARA,1.0,1.0,0.0,1.0,0.0,0.0,0.0
3822,Itambé,ESCOLA MUL ALVARO VELOSO BORBA,1.0,0.0,0.0,1.0,0.0,0.0,0.0
3823,Itambé,ESC MUL ANTONIO GUEDES CORREIA GONDIM,1.0,0.0,0.0,1.0,0.0,0.0,0.0


## 🎯 Perfil das Escolas

- Qual a quantidade total de escolas por rede (pública x privada)?
- Qual o percentual de escolas que possuem biblioteca, laboratório de informática, quadra esportiva ou acesso à internet?
- Quais são os municípios com maior número de escolas?
- Qual o percentual de escolas urbanas x rurais?
- Qual a média de alunos por escola?
- Qual a distribuição das escolas por etapas de ensino (fundamental, médio, EJA, etc.)?

In [9]:
# Quantas escolas estão em situação de não funcionamento?
df['TP_SITUACAO_FUNCIONAMENTO'].value_counts()

TP_SITUACAO_FUNCIONAMENTO
1    8013
2    1809
3     114
Name: count, dtype: int64

- Existem 8013 escolas **Em atividade** no estado de Pernambuco;
- Ao momento são 1809 escolas **paralisadas**; e
- 114 escolas foram **extintas** desde o último censo.


In [13]:
colunas_desejadas_vinculo = ['NO_MUNICIPIO', 'NO_ENTIDADE', 
                             'IN_VINCULO_SECRETARIA_EDUCACAO', 'IN_VINCULO_SEGURANCA_PUBLICA', 'IN_VINCULO_SECRETARIA_SAUDE', 
                             'IN_VINCULO_OUTRO_ORGAO', 'IN_PODER_PUBLICO_PARCERIA', 'TP_PODER_PUBLICO_PARCERIA']

df_vinculo = df[colunas_desejadas_vinculo]

In [16]:
df_vinculo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9936 entries, 0 to 9935
Data columns (total 8 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   NO_MUNICIPIO                    9936 non-null   object 
 1   NO_ENTIDADE                     9936 non-null   object 
 2   IN_VINCULO_SECRETARIA_EDUCACAO  5842 non-null   float64
 3   IN_VINCULO_SEGURANCA_PUBLICA    5842 non-null   float64
 4   IN_VINCULO_SECRETARIA_SAUDE     5842 non-null   float64
 5   IN_VINCULO_OUTRO_ORGAO          5842 non-null   float64
 6   IN_PODER_PUBLICO_PARCERIA       8013 non-null   float64
 7   TP_PODER_PUBLICO_PARCERIA       184 non-null    float64
dtypes: float64(6), object(2)
memory usage: 621.1+ KB


In [26]:
df['IN_VINCULO_SECRETARIA_EDUCACAO'].value_counts()

IN_VINCULO_SECRETARIA_EDUCACAO
1.0    5839
0.0       3
Name: count, dtype: int64

In [36]:
# df.groupby('IN_PROF_ADMINISTRATIVOS')['QT_PROF_ADMINISTRATIVOS'].sum()
# df_admin = df[df['IN_PROF_ADMINISTRATIVOS'] == 1]

df_filtro_profisionais = df[
    (df['IN_PROF_ADMINISTRATIVOS'] == 1) &
    (df['IN_PROF_SERVICOS_GERAIS'] == 1) &
    (df['IN_PROF_BIBLIOTECARIO'] == 1) &
    (df['IN_PROF_SAUDE'] == 1) &
    (df['IN_PROF_COORDENADOR'] == 1) &
    (df['IN_PROF_FONAUDIOLOGO'] == 1) &
    (df['IN_PROF_NUTRICIONISTA'] == 1) &
    (df['IN_PROF_PSICOLOGO'] == 1) &
    (df['IN_PROF_ALIMENTACAO'] == 1) &
    (df['IN_PROF_PEDAGOGIA'] == 1) &
    (df['IN_PROF_SECRETARIO'] == 1) &
    (df['IN_PROF_SEGURANCA'] == 1) &
    (df['IN_PROF_MONITORES'] == 1) &
    (df['IN_PROF_ASSIST_SOCIAL'] == 1) &
    (df['IN_PROF_TRAD_LIBRAS'] == 1)
]

In [59]:
# df.groupby('IN_PROF_ADMINISTRATIVOS')['QT_PROF_ADMINISTRATIVOS'].sum()
# df_admin = df[df['IN_PROF_ADMINISTRATIVOS'] == 1]

df_filtro_profisionais2 = df[
    (df['IN_PROF_ADMINISTRATIVOS'] == 1) |
    (df['IN_PROF_SERVICOS_GERAIS'] == 1) |
    (df['IN_PROF_BIBLIOTECARIO'] == 1) |
    (df['IN_PROF_SAUDE'] == 1) |
    (df['IN_PROF_COORDENADOR'] == 1) |
    (df['IN_PROF_FONAUDIOLOGO'] == 1) |
    (df['IN_PROF_NUTRICIONISTA'] == 1) |
    (df['IN_PROF_PSICOLOGO'] == 1) |
    (df['IN_PROF_ALIMENTACAO'] == 1) |
    (df['IN_PROF_PEDAGOGIA'] == 1) |
    (df['IN_PROF_SECRETARIO'] == 1) |
    (df['IN_PROF_SEGURANCA'] == 1) |
    (df['IN_PROF_MONITORES'] == 1) |
    (df['IN_PROF_ASSIST_SOCIAL'] == 1) |
    (df['IN_PROF_TRAD_LIBRAS'] == 1)
]

In [67]:
df[['IN_PROF_ADMINISTRATIVOS', 'IN_PROF_SERVICOS_GERAIS', 'IN_PROF_BIBLIOTECARIO']]

Unnamed: 0,IN_PROF_ADMINISTRATIVOS,IN_PROF_SERVICOS_GERAIS,IN_PROF_BIBLIOTECARIO
0,,,
1,1.0,1.0,0.0
2,1.0,1.0,0.0
3,1.0,1.0,0.0
4,,,
...,...,...,...
9931,1.0,1.0,0.0
9932,,,
9933,1.0,1.0,0.0
9934,1.0,1.0,0.0


In [56]:
df_filtro_profisionais2

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
1,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,18.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,12.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,15.0,9.0,0.0,0.0,0.0,0.0,3.0,0.0,3.0,0.0
5,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,16.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,2024,Nordeste,2,Pernambuco,PE,26,Abreu e Lima,2600054,Recife,2601,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9930,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9931,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9933,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9934,2024,Nordeste,2,Pernambuco,PE,26,Xexéu,2616506,Recife,2601,...,11.0,4.0,0.0,0.0,0.0,0.0,4.0,4.0,0.0,0.0


In [57]:
df_filtro_profisionais2[['NO_MUNICIPIO', 'NO_ENTIDADE', 'IN_PROF_PSICOLOGO']]

Unnamed: 0,NO_MUNICIPIO,NO_ENTIDADE,IN_PROF_PSICOLOGO
1,Abreu e Lima,EM - CENTRO COMU E EDUC ISAAC MARTINS RODRIGUES,0.0
2,Abreu e Lima,EM - CENTRO COM EDUCACIONAL WILIBALDO DE FRANC...,0.0
3,Abreu e Lima,ESCOLA DE REFERENCIA EM ENSINO FUNDAMENTAL GEN...,0.0
5,Abreu e Lima,ESCOLA MARECHAL COSTA E SILVA,0.0
7,Abreu e Lima,EM - ESCOLA MUNICIPAL DE ENGENHO NOVO,0.0
...,...,...,...
9930,Xexéu,ESCOLA MUNICIPAL TEREZINHA BARBOSA DA SILVA,0.0
9931,Xexéu,ESCOLA MUNICIPAL JOAO FOGUETEIRO,1.0
9933,Xexéu,CRECHE MUNICIPAL PROFESSORA ETIENE LINS BARRETO,1.0
9934,Xexéu,ESCOLA MUNICIPAL PROFESSORA ISABEL DE CASSIA M...,1.0


In [69]:
df.isnull().sum().sort_values(ascending=False)


CO_LINGUA_INDIGENA_3              9936
CO_ESCOLA_SEDE_VINCULADA          9933
CO_LINGUA_INDIGENA_2              9931
IN_FORMA_CONT_ES_COOP_TEC_FIN     9926
IN_FORMA_CONT_ES_TERMO_FOMENTO    9926
                                  ... 
SG_UF                                0
NO_UF                                0
CO_REGIAO                            0
NO_REGIAO                            0
NU_ANO_CENSO                         0
Length: 426, dtype: int64

In [70]:
# Ver colunas que têm mais de X% de valores nulos (exemplo: mais de 50%)
porcentagem_nulos = df.isnull().mean() * 100  # Em porcentagem
colunas_com_muitos_nulos = porcentagem_nulos[porcentagem_nulos > 50]
print(colunas_com_muitos_nulos)
    

TP_CATEGORIA_ESCOLA_PRIVADA        78.150161
DS_COMPLEMENTO                     77.425523
TP_PODER_PUBLICO_PARCERIA          98.148148
IN_FORMA_CONT_TERMO_COLABORA       98.148148
IN_FORMA_CONT_TERMO_FOMENTO        98.148148
IN_FORMA_CONT_ACORDO_COOP          98.148148
IN_FORMA_CONT_PRESTACAO_SERV       98.148148
IN_FORMA_CONT_COOP_TEC_FIN         98.148148
IN_FORMA_CONT_CONSORCIO_PUB        98.148148
IN_FORMA_CONT_MU_TERMO_COLAB       98.248792
IN_FORMA_CONT_MU_TERMO_FOMENTO     98.248792
IN_FORMA_CONT_MU_ACORDO_COOP       98.248792
IN_FORMA_CONT_MU_PREST_SERV        98.248792
IN_FORMA_CONT_MU_COOP_TEC_FIN      98.248792
IN_FORMA_CONT_MU_CONSORCIO_PUB     98.248792
IN_FORMA_CONT_ES_TERMO_COLAB       99.899356
IN_FORMA_CONT_ES_TERMO_FOMENTO     99.899356
IN_FORMA_CONT_ES_ACORDO_COOP       99.899356
IN_FORMA_CONT_ES_PREST_SERV        99.899356
IN_FORMA_CONT_ES_COOP_TEC_FIN      99.899356
IN_FORMA_CONT_ES_CONSORCIO_PUB     99.899356
IN_MANT_ESCOLA_PRIVADA_EMP         78.150161
IN_MANT_ES

In [72]:
df[colunas_com_muitos_nulos.index].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9936 entries, 0 to 9935
Data columns (total 43 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   TP_CATEGORIA_ESCOLA_PRIVADA     2171 non-null   float64
 1   DS_COMPLEMENTO                  2243 non-null   object 
 2   TP_PODER_PUBLICO_PARCERIA       184 non-null    float64
 3   IN_FORMA_CONT_TERMO_COLABORA    184 non-null    float64
 4   IN_FORMA_CONT_TERMO_FOMENTO     184 non-null    float64
 5   IN_FORMA_CONT_ACORDO_COOP       184 non-null    float64
 6   IN_FORMA_CONT_PRESTACAO_SERV    184 non-null    float64
 7   IN_FORMA_CONT_COOP_TEC_FIN      184 non-null    float64
 8   IN_FORMA_CONT_CONSORCIO_PUB     184 non-null    float64
 9   IN_FORMA_CONT_MU_TERMO_COLAB    174 non-null    float64
 10  IN_FORMA_CONT_MU_TERMO_FOMENTO  174 non-null    float64
 11  IN_FORMA_CONT_MU_ACORDO_COOP    174 non-null    float64
 12  IN_FORMA_CONT_MU_PREST_SERV     17

In [26]:
df_itambe = df[df['NO_MUNICIPIO'] == 'Itambé']

In [17]:
df.fillna(0)

NU_ANO_CENSO          0
NO_REGIAO             0
CO_REGIAO             0
NO_UF                 0
SG_UF                 0
                     ..
QT_TUR_INF_PRE_INT    0
QT_TUR_FUND_INT       0
QT_TUR_FUND_AI_INT    0
QT_TUR_FUND_AF_INT    0
QT_TUR_MED_INT        0
Length: 426, dtype: int64

In [19]:
# Identificando os tipos das colunas com valores nulos:
colunas_nulas = df.columns[df.isnull().any()]

In [20]:
df[colunas_nulas].dtypes

TP_CATEGORIA_ESCOLA_PRIVADA    float64
TP_LOCALIZACAO_DIFERENCIADA    float64
NU_ENDERECO                     object
DS_COMPLEMENTO                  object
NO_BAIRRO                       object
                                ...   
QT_TUR_INF_PRE_INT             float64
QT_TUR_FUND_INT                float64
QT_TUR_FUND_AI_INT             float64
QT_TUR_FUND_AF_INT             float64
QT_TUR_MED_INT                 float64
Length: 401, dtype: object

In [21]:
# 3. Filtrar apenas as que são numéricas
colunas_nulas_numericas = [col for col in colunas_nulas if pd.api.types.is_numeric_dtype(df[col])]

In [27]:
df_itambe

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
3819,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,14.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,14.0
3820,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,19.0,0.0,0.0,0.0,0.0,0.0,5.0,5.0,0.0,0.0
3821,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,16.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3822,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3823,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3824,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3825,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3826,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,9.0,0.0,0.0,0.0,0.0,0.0,6.0,0.0,6.0,0.0
3827,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,11.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3828,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [31]:
escolas_com_biblioteca = df_itambe[df_itambe['IN_BIBLIOTECA'] == 1]

In [32]:
escolas_com_biblioteca    

Unnamed: 0,NU_ANO_CENSO,NO_REGIAO,CO_REGIAO,NO_UF,SG_UF,CO_UF,NO_MUNICIPIO,CO_MUNICIPIO,NO_REGIAO_GEOG_INTERM,CO_REGIAO_GEOG_INTERM,...,QT_TUR_BAS_D,QT_TUR_BAS_N,QT_TUR_BAS_EAD,QT_TUR_INF_INT,QT_TUR_INF_CRE_INT,QT_TUR_INF_PRE_INT,QT_TUR_FUND_INT,QT_TUR_FUND_AI_INT,QT_TUR_FUND_AF_INT,QT_TUR_MED_INT
3819,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,14.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,14.0
3820,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,19.0,0.0,0.0,0.0,0.0,0.0,5.0,5.0,0.0,0.0
3821,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,16.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3831,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,12.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0
3834,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,12.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3836,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,23.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3837,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,24.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3840,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,8.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3845,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,14.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3846,2024,Nordeste,2,Pernambuco,PE,26,Itambé,2607653,Recife,2601,...,22.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [36]:
# Ver a proporção das escolas em Itambé
# Isso mostra a porcentagem de escolas com (1) e sem (0) biblioteca.

df_itambe['IN_BIBLIOTECA'].value_counts(normalize=True) * 100


IN_BIBLIOTECA
0.0    62.068966
1.0    37.931034
Name: proportion, dtype: float64

In [38]:
df_itambe['TP_LOCALIZACAO'].value_counts()
# 1 - Urbana | 2 - Rural


TP_LOCALIZACAO
1    21
2     8
Name: count, dtype: int64