In [1]:
---
title: "Educational Data Analysis"
author: "Osvaldo Martins Quintella Junior"
date: "Last edited `r format(Sys.time(), '%d %B %Y')`"
output:
  pdf_document: default
  html_document:
    df_print: paged
---

```{r setup, include = FALSE}
knitr::opts_chunk$set(fig.align = 'center')
```

### Exploratory Data Analysis of Censo Escolar

The following code load the necessary packages.

```{r loading packages , include = TRUE, warning=FALSE, message=FALSE}
library(tidyverse)
library(ggthemes)

```

The following code read the data from my computer. But I saved all the data on a .RData file. This file is uploaded to github so everyone can download it and check the code by yourself.

```{r read data from the computer , include = TRUE, message=FALSE, warning=FALSE}
read.data <- function(year, file, variables){
  censo.escolar.year <- read_delim(file, 
                                 delim = ';',
                                 locale = locale(encoding = 'WINDOWS-1252'),
                                 escape_double = TRUE,
                                 trim_ws = TRUE,
                                 col_select = variables)}

variables <- c('NU_ANO_CENSO', 'NO_REGIAO', 'CO_REGIAO',
                                 'CO_UF', 'NO_MUNICIPIO', 'CO_ENTIDADE', 
                                 'TP_DEPENDENCIA', 'TP_LOCALIZACAO', 'TP_CATEGORIA_ESCOLA_PRIVADA',
                                 'TP_SITUACAO_FUNCIONAMENTO','QT_COMP_ALUNO',
                                  'IN_DESKTOP_ALUNO', 
                                 'QT_DESKTOP_ALUNO', 'IN_COMP_PORTATIL_ALUNO',
                                 'QT_COMP_PORTATIL_ALUNO', 'IN_TABLET_ALUNO', 
                                  'QT_COMPUTADOR', 'QT_COMP_ADMINISTRATIVO',
                                 'QT_TABLET_ALUNO', 'IN_INTERNET',
                                 'IN_INTERNET_ALUNOS', 'IN_INTERNET_APRENDIZAGEM',
                                 'IN_INTERNET_COMUNIDADE', 'IN_BANDA_LARGA', 
                                 'QT_MAT_BAS_D', 'QT_MAT_BAS_N', 'QT_MAT_BAS_EAD',
                                 'IN_FUND', 'IN_FUND_AI', 'IN_FUND_AF', 'IN_MED',
                                 'QT_MAT_FUND', 'QT_MAT_FUND_AI', 'QT_MAT_FUND_AF',
                                 'QT_MAT_MED')

file.2022 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2022/dados/microdados_ed_basica_2022.csv'

file.2021 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2021/dados/microdados_ed_basica_2021.csv'

file.2020 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2020/dados/microdados_ed_basica_2020.csv'

file.2019 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2019/dados/microdados_ed_basica_2019.csv'
  
file.2018 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2018/dados/microdados_ed_basica_2018.csv'
  
file.2017 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2017/dados/microdados_ed_basica_2017.csv'
  
file.2016 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2016/dados/microdados_ed_basica_2016.csv'
  
file.2015 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2015/dados/microdados_ed_basica_2015.csv'
  
file.2014 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2014/dados/microdados_ed_basica_2014.csv'
  
file.2013 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2013/dados/microdados_ed_basica_2013.csv'
  
file.2012 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2012/dados/microdados_ed_basica_2012.csv'
  
file.2011 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2011/dados/microdados_ed_basica_2011.csv'
  
file.2010 <- '~/Documentos/microdados/censo escolar/microdados_ed_basica_2010/dados/microdados_ed_basica_2010.csv'
  
censo.escolar.2022 <- read.data(2022, file.2022, variables)

censo.escolar.2021 <- read.data(2021, file.2021, variables)

censo.escolar.2020 <- read.data(2020, file.2020, variables)

censo.escolar.2019 <- read.data(2019, file.2019, variables)

censo.escolar.2018 <- read.data(2018, file.2018, variables)

censo.escolar.2017 <- read.data(2017, file.2017, variables)

censo.escolar.2016 <- read.data(2016, file.2016, variables)

censo.escolar.2015 <- read.data(2015, file.2015, variables)

censo.escolar.2014 <- read.data(2014, file.2014, variables)

censo.escolar.2013 <- read.data(2013, file.2013, variables)

censo.escolar.2012 <- read.data(2012, file.2012, variables)

censo.escolar.2011 <- read.data(2011, file.2011, variables)

censo.escolar.2010 <- read.data(2010, file.2010, variables)
```

I have saved the data as censo_escolar.Rdata. This file is available on my repo: [repo](https://github.com/osvaldoquintellajr/education_data_analysis)

To read the censo_escolar.Rdata, you can use the following code: \> load("paste_the_file_directory_here")

Lets bind all this data.frame in only one data.frame called `censo.escolar`.

```{r bind data.frames, echo=FALSE}
censo.escolar <- rbind(censo.escolar.2010, censo.escolar.2011, censo.escolar.2012, censo.escolar.2013, censo.escolar.2014, censo.escolar.2015, censo.escolar.2016, censo.escolar.2017, censo.escolar.2018, censo.escolar.2019, censo.escolar.2020, censo.escolar.2021, censo.escolar.2022)

censo.escolar
```

```{r remove objects, include=FALSE }
rm(censo.escolar.2010, censo.escolar.2011, censo.escolar.2012, censo.escolar.2013, censo.escolar.2014,  censo.escolar.2015, censo.escolar.2016, censo.escolar.2017, censo.escolar.2018, censo.escolar.2019, censo.escolar.2020, censo.escolar.2021, censo.escolar.2022)

rm(file.2010, file.2011, file.2012, file.2013, file.2014, file.2015, file.2016, file.2017, file.2018, file.2019, file.2020, file.2021,file.2022)
```

To make data analysis easier, it is good practice to rename the variables. Lets do it.

```{r rename variables, echo=FALSE}
censo.escolar <-censo.escolar %>%
  rename(
    'Ano' = 'NU_ANO_CENSO', 
    'Nome_região_geográfica' = 'NO_REGIAO', 
    'Código_região_geográfica' = 'CO_REGIAO',
    'Código_UF' = 'CO_UF', 
    'Nome_Município' = 'NO_MUNICIPIO', 
    'Código_Escola' = 'CO_ENTIDADE', 
    'Dependência_Administrativa' = 'TP_DEPENDENCIA', 
    'Categoria_escola_privada' = 'TP_CATEGORIA_ESCOLA_PRIVADA',
    'Localização' = 'TP_LOCALIZACAO', 
    'Situação_funcionamento' = 'TP_SITUACAO_FUNCIONAMENTO', 
    'Quantidade_computadores_uso_alunos' = 'QT_COMP_ALUNO',
    'Computadores_em_uso_pelos_alunos_desktop' = 'IN_DESKTOP_ALUNO', 
    'Quantidade_computadores_em_uso_pelos_alunos_desktop' = 'QT_DESKTOP_ALUNO', 
    'Computadores_em_uso_pelos_alunos_portátil' = 'IN_COMP_PORTATIL_ALUNO',
    'Quantidade_computadores_em_uso_pelos_alunos_portátil' = 'QT_COMP_PORTATIL_ALUNO', 
    'Computadores_em_uso_pelos_alunos_tablet' = 'IN_TABLET_ALUNO', 
    'Quantidade_computadores_em_uso_pelos_alunos_tablet' = 'QT_TABLET_ALUNO',
    'Quantidade_computadores_escola' = 'QT_COMPUTADOR',
    'Quantidade_computadores_uso_administrativo' = 'QT_COMP_ADMINISTRATIVO',
    'Acesso_Internet'= 'IN_INTERNET',
    'Acesso_Internet_alunos' = 'IN_INTERNET_ALUNOS', 
    'Acesso_Internet_processos_de_ensino_aprendizagem'= 'IN_INTERNET_APRENDIZAGEM',
    'Acesso_Internet_Para_comunidade' = 'IN_INTERNET_COMUNIDADE', 
    'Internet_Banda_Larga' = 'IN_BANDA_LARGA', 
    'Número_Matrículas_Educação_Básica_Diurno' = 'QT_MAT_BAS_D', 
    'Número_Matrículas_Educação_Básica_Noturno' = 'QT_MAT_BAS_N', 
    'Número_Matrículas_Educação_Básica_Distância' = 'QT_MAT_BAS_EAD',
    'Ensino_Fundamental_Possui_matrículas' = 'IN_FUND', 
    'Ensino_Fundamental_Anos_Iniciais_Possui_matrículas' = 'IN_FUND_AI', 
    'Ensino_Fundamental_Anos_Finais_Possui_matrículas' = 'IN_FUND_AF', 
    'Ensino_Médio_Possui_matrículas' = 'IN_MED',
    'Número_Matrículas_Ensino_Fundamental' = 'QT_MAT_FUND', 
    'Número_Matrículas_Ensino_Fundamental_Anos_Iniciais' = 'QT_MAT_FUND_AI', 
    'Número_Matrículas_Ensino_Fundamental_Anos_Finais' = 'QT_MAT_FUND_AF',
    'Número_Matrículas_Ensino_Médio' = 'QT_MAT_MED'
  )

head(censo.escolar, n = 6)
```

Before analyse the data is interesting to look at the format of all variables.

```{r cheking the structure of the data_1, echo=FALSE}
glimpse(censo.escolar)
```

-   A lot of variables are formatted as double. But the following variables:
    -   Dependência_Administrativa;
    -   Situação_funcionamento;
    -   Computadores_em_uso_pelos_alunos_desktop;
    -   and others. should all be formatted as categorical variables.

Lets change the format of variables that should be categorical.

```{r formating categorical variables, include=FALSE}
censo.escolar <- censo.escolar %>% mutate(
  Nome_região_geográfica = as_factor(if_else(Nome_região_geográfica == 'Norte', 'Norte', if_else(Nome_região_geográfica == 'Sul', 'Sul', if_else(Nome_região_geográfica == 'Sudeste', 'Sudeste', if_else(Nome_região_geográfica == 'Nordeste', 'Nordeste', if_else(Nome_região_geográfica == 'Centro_Oeste', 'Centro_Oeste', NA)))))),
  Dependência_Administrativa = as_factor(if_else(Dependência_Administrativa == 1, 'Federal', if_else(Dependência_Administrativa == 2, 'Estadual', if_else(Dependência_Administrativa == 3, 'Municipal', if_else(Dependência_Administrativa == 4, 'Privada', NA))))),
  Categoria_escola_privada = as_factor(if_else(Categoria_escola_privada == 1, 'Particular', if_else(Categoria_escola_privada == 2, 'Comunitária', if_else(Categoria_escola_privada == 3, 'Confessional', if_else(Categoria_escola_privada == 4, 'Filantrópica', NA))))),
  Localização = as_factor(if_else(Localização == 1, 'Urbana', if_else(Localização == 2, 'Rural', NA))),
  Situação_funcionamento = as_factor(if_else(Situação_funcionamento == 1, 'Em_atividade', if_else(Situação_funcionamento == 2, 'Paralisada', if_else(Situação_funcionamento == 3, 'Extinta', if_else(Situação_funcionamento == 4, 'Extinta_em_anos_anteriores', NA))))),
  Computadores_em_uso_pelos_alunos_desktop = as_factor(if_else(Computadores_em_uso_pelos_alunos_desktop == 1, 'Sim', if_else(Computadores_em_uso_pelos_alunos_desktop == 0, 'Não', NA))),
  Computadores_em_uso_pelos_alunos_portátil = as_factor(if_else(Computadores_em_uso_pelos_alunos_portátil == 1, 'Sim',  if_else(Computadores_em_uso_pelos_alunos_portátil == 0, 'Não', NA))),
  Computadores_em_uso_pelos_alunos_tablet = as_factor(if_else(Computadores_em_uso_pelos_alunos_tablet == 1, 'Sim',  if_else(Computadores_em_uso_pelos_alunos_tablet == 0, 'Não', NA))),
  Acesso_Internet = as_factor(if_else(Acesso_Internet == 1, 'Sim', if_else(Acesso_Internet == 0, 'Não', NA))),
  Acesso_Internet_alunos = as_factor(if_else(Acesso_Internet_alunos == 1, 'Sim',  if_else(Acesso_Internet_alunos == 0, 'Não', NA))),
  Acesso_Internet_processos_de_ensino_aprendizagem = as_factor(if_else(Acesso_Internet_processos_de_ensino_aprendizagem == 1, 'Sim', if_else(Acesso_Internet_processos_de_ensino_aprendizagem == 0, 'Não', NA))),
  Acesso_Internet_Para_comunidade = as_factor(if_else(Acesso_Internet_Para_comunidade == 1, 'Sim', if_else(Acesso_Internet_Para_comunidade == 0, 'Não', NA))),
  Internet_Banda_Larga = as_factor(if_else(Internet_Banda_Larga == 1, 'Sim', if_else(Internet_Banda_Larga == 0,  'Não', NA))),
  Ensino_Fundamental_Possui_matrículas = as_factor(if_else(Ensino_Fundamental_Possui_matrículas == 1, 'Sim', if_else(Ensino_Fundamental_Possui_matrículas == 0, 'Não', NA))),
  Ensino_Fundamental_Anos_Iniciais_Possui_matrículas = as_factor(if_else(Ensino_Fundamental_Anos_Iniciais_Possui_matrículas == 1, 'Sim', if_else(Ensino_Fundamental_Anos_Iniciais_Possui_matrículas == 0, 'Não', NA))),
  Ensino_Fundamental_Anos_Finais_Possui_matrículas = as_factor(if_else(Ensino_Fundamental_Anos_Finais_Possui_matrículas == 1, 'Sim', if_else(Ensino_Fundamental_Anos_Finais_Possui_matrículas == 0, 'Não', NA))),
  Ensino_Médio_Possui_matrículas = as_factor(if_else(Ensino_Médio_Possui_matrículas == 1, 'Sim', if_else(Ensino_Médio_Possui_matrículas == 0, 'Não', NA))))

```

Now, it is possible to see that we have the correct format of categorical variables.

```{r cheking the structure of the data_2, echo=FALSE}
glimpse(censo.escolar)
```

After formatting the variables, lets make some exploratory data analysis.
First, lets take a look at the number of school enrollment at basic education.

```{r número de matrículas por ano, echo=FALSE , message=FALSE, warning=FALSE}
censo.escolar  %>% na.omit() %>% group_by(Ano) %>% summarize('Número de matrículas no Ensino Fundamental' = sum(Número_Matrículas_Ensino_Fundamental), 'Número de matrículas no Ensino Fundamental_Anos Iniciais' = sum(Número_Matrículas_Ensino_Fundamental_Anos_Iniciais), 'Número de matrículas no Ensino Fundamental_Anos Finais' = sum(Número_Matrículas_Ensino_Fundamental_Anos_Finais), 'Número de matrículas no Ensino Médio' = sum(Número_Matrículas_Ensino_Médio))
```

Now, the enrollment at basic education separated by location of school. 

```{r número de matrículas por ano e Localização, echo=FALSE, message=FALSE, warning=FALSE}
censo.escolar %>% group_by(Ano, Localização) %>% summarize('Número de matrículas no Ensino Fundamental' = sum(Número_Matrículas_Ensino_Fundamental), 'Número de matrículas no Ensino Fundamental Anos Iniciais' = sum(Número_Matrículas_Ensino_Fundamental_Anos_Iniciais), 'Número de matrículas no Ensino Fundamental Anos Finais' = sum(Número_Matrículas_Ensino_Fundamental_Anos_Finais), 'Número de matrículas Ensino Médio' = sum(Número_Matrículas_Ensino_Médio)) %>% pivot_wider(names_from = Localização, values_from = 'Número de matrículas no Ensino Fundamental':'Número de matrículas Ensino Médio')
```

```{r Porcentagem de escolas que têm acesso a internet,  echo=FALSE}
censo.escolar%>% group_by(Ano, Dependência_Administrativa) %>% summarize('Proporção de escolas com acesso à internet' = mean(Internet_Banda_Larga == 'Sim')) 
```
The next table shows the proportion of schools with fast internet connection.  

```{r porcentagem de escolas com acesso a internet por localização da escola, echo=FALSE, message=FALSE, warning=FALSE}
censo.escolar %>% group_by(Ano, Localização) %>% summarize('Proporção de escolas com acesso à internet' = mean(Internet_Banda_Larga == 'Sim')) %>% ungroup() %>% pivot_wider(names_from = Localização, values_from = 'Proporção de escolas com acesso à internet') %>% na.omit() %>% rename('Proporção de escolas com acesso à internet_Rural' = 'Rural', 'Proporção de escolas com acesso à internet_Urbana' = 'Urbana')
```
The graph bellow shows the proportion of schools with fast internet connection.

```{r gráfico da proporção de escolas com conexão banda larga, echo=FALSE}
censo.escolar %>% group_by(Ano, Localização) %>% summarize('Proporção_escolas_acesso_internet' = mean(Internet_Banda_Larga == 'Sim')) %>% ungroup() %>% ggplot(aes(x = Ano, y = Proporção_escolas_acesso_internet)) + geom_ribbon(aes(ymax = Proporção_escolas_acesso_internet, ymin = 0,  fill = Localização), alpha =0.2) + theme_wsj() + scale_x_continuous(limits = c(2010, 2021), breaks = seq(2010,2022,by =1)) +theme(text = element_text(family = 'serif', size =11)) + geom_text(aes(label = round(Proporção_escolas_acesso_internet,2)), size = 3, color = 'black')
```

SyntaxError: invalid syntax (3310375777.py, line 1)