# Objetivo

O objetivo deste notebook é avaliar os dados disponíveis no [Portal de Dados Abertos da UFRN](http://dados.ufrn.br/) no grupo `Turmas`.

Assim sendo, a avaliação é apenas quanti-qualitativa para descobrirmos o que podemos extrair a favor do nosso projeto.

## 1. Bibliotecas

In [3]:
library("dplyr")
library(ggplot2)
library(gridExtra)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union


Attaching package: ‘gridExtra’

The following object is masked from ‘package:dplyr’:

    combine



## 2. Dados

In [4]:
path_data <- "/Users/rsilva/Documents/UFRN/Hackathon/UFRN\ Dados/turmas"
path_save <- "/Users/rsilva/Documents/UFRN/Hackathon/Resultados"

In [5]:
setwd(path_data)

pattern <- "_turmas-"

# listando os arquivos contidos no diretorio
listoffiles <- list.files(path_data, pattern = pattern)

# abrindo os arquivos da lista
myfiles = lapply(listoffiles, read.csv2)

“EOF within quoted string”

In [6]:
str(myfiles)

List of 16
 $ :'data.frame':	9818 obs. of  26 variables:
  ..$ id_turma                : int [1:9818] 1151160 1151161 1151162 1151163 1151164 1151168 1151171 1151172 1151173 1151177 ...
  ..$ codigo_turma            : Factor w/ 96 levels "","01","01A",..: 2 2 2 2 2 2 2 2 2 2 ...
  ..$ id_docente_interno      : int [1:9818] 25852 5753006 5753423 5752810 16790 NA 24852 23943 NA 15370 ...
  ..$ id_docente_externo      : int [1:9818] NA NA NA NA NA 18682644 NA NA 18299867 NA ...
  ..$ observacao              : Factor w/ 129 levels "","(juventude e vulnerabilidade",..: 1 1 1 1 1 1 1 1 1 1 ...
  ..$ id_componente_curricular: int [1:9818] 24054 24061 25843 41598 2055814 2055655 2055700 2055624 2055623 2055626 ...
  ..$ nivel_ensino            : Factor w/ 4 levels "GRADUAÇÃO","LATO SENSU",..: 1 1 1 3 2 2 2 2 2 2 ...
  ..$ campus_turma            : Factor w/ 5 levels "","Campus Caicó",..: 3 3 3 1 1 1 1 1 1 1 ...
  ..$ local                   : Factor w/ 1445 levels "","(Centro de Biociências) A

In [7]:
lista <- c("id_turma","id_componente_curricular","nivel_ensino","periodo","descricao_horario","tipo")

In [8]:
temp <- lapply(myfiles, FUN = function(x){x[, lista]})

In [9]:
turmas <- do.call(rbind, temp)

In [10]:
str(turmas)
head(turmas)

'data.frame':	150563 obs. of  6 variables:
 $ id_turma                : chr  "1151160" "1151161" "1151162" "1151163" ...
 $ id_componente_curricular: chr  "24054" "24061" "25843" "41598" ...
 $ nivel_ensino            : Factor w/ 29 levels "GRADUAÇÃO","LATO SENSU",..: 1 1 1 3 2 2 2 2 2 2 ...
 $ periodo                 : chr  "1" "1" "1" "1" ...
 $ descricao_horario       : Factor w/ 12064 levels "","167M2345  67T3456",..: 454 995 450 801 798 798 833 920 798 798 ...
 $ tipo                    : Factor w/ 25 levels "ENSINO INDIVIDUAL",..: 2 2 2 2 2 2 2 2 2 2 ...


id_turma,id_componente_curricular,nivel_ensino,periodo,descricao_horario,tipo
1151160,24054,GRADUAÇÃO,1,35T12,REGULAR
1151161,24061,GRADUAÇÃO,1,6T56 5N34,REGULAR
1151162,25843,GRADUAÇÃO,1,35N34,REGULAR
1151163,41598,STRICTO SENSU,1,567T6,REGULAR
1151164,2055814,LATO SENSU,1,567M2345 4567T3456 4N34,REGULAR
1151168,2055655,LATO SENSU,1,567M2345 4567T3456 4N34,REGULAR


In [11]:
turmas$id_turma <- as.numeric(turmas$id_turma)
turmas$id_componente_curricular <- as.numeric(turmas$id_componente_curricular)
turmas$periodo <- as.numeric(turmas$periodo)

“NAs introduced by coercion”

In [12]:
summary(turmas)

    id_turma        id_componente_curricular                nivel_ensino   
 Min.   :       2   Min.   :      2          GRADUAÇÃO            :121342  
 1st Qu.: 1184765   1st Qu.:  27148          STRICTO SENSU        : 17844  
 Median : 1219827   Median :  46967          TÉCNICO              :  6588  
 Mean   :20069662   Mean   : 465304          LATO SENSU           :  3569  
 3rd Qu.:57564092   3rd Qu.:  61214          FORMAÇÃO COMPLEMENTAR:   626  
 Max.   :57612859   Max.   :2056265          RESIDÊNCIA           :   462  
 NA's   :118        NA's   :127              (Other)              :   132  
    periodo         descricao_horario                           tipo       
 Min.   :   1.000          : 18097    REGULAR                     :148575  
 1st Qu.:   1.000   35N12  :  1945    ENSINO INDIVIDUAL           :  1824  
 Median :   1.000   35M34  :  1724                                :   121  
 Mean   :   1.508   35T56  :  1524    REPOSIÇÃO NO PERÍODO REGULAR:    19  
 3rd Qu.:   

In [13]:
# convertendo todas as entras nulas em valores NA

turmas$tipo[turmas$tipo == ""] <- NA
turmas$nivel_ensino[turmas$nivel_ensino == ""] <- NA
turmas$descricao_horario[turmas$descricao_horario == ""] <- NA

In [14]:
# calcular as porcentagens de valores nulos conforme a sumarização acima e o total de entradas
total <- nrow(turmas)
nulo_idturma <- sum(is.na(turmas$id_turma))
nulo_idcomponente <- sum(is.na(turmas$id_componente_curricular))
nulo_nivel <- sum(is.na(turmas$nivel_ensino))
nulo_periodo <- sum(is.na(turmas$periodo))
nulo_horario <- sum(is.na(turmas$descricao_horario))
nulo_tipo <- sum(is.na(turmas$tipo))

In [15]:
sprintf("%.2f%% para IdTurma", (nulo_idturma/total)*100)
sprintf("%.2f%% para IdComponente", (nulo_idcomponente/total)*100)
sprintf("%.2f%% para Nível Ensino", (nulo_nivel/total)*100)
sprintf("%.2f%% para Período", (nulo_periodo/total)*100)
sprintf("%.2f%% para Horário", (nulo_horario/total)*100)
sprintf("%.2f%% para Tipo", (nulo_tipo/total)*100)

In [16]:
# removendo todos os valores NAs do dataset

reduced <- turmas[complete.cases(turmas), ]

In [17]:
reduced <- subset(reduced, nivel_ensino == "GRADUAÇÃO")
reduced <- droplevels(reduced)

In [18]:
summary(reduced)

    id_turma        id_componente_curricular    nivel_ensino       periodo     
 Min.   : 1151160   Min.   :  20001          GRADUAÇÃO:104612   Min.   :1.000  
 1st Qu.: 1187866   1st Qu.:  25706                             1st Qu.:1.000  
 Median : 1222440   Median :  48498                             Median :1.000  
 Mean   :20248351   Mean   : 468971                             Mean   :1.495  
 3rd Qu.:57565429   3rd Qu.:  61213                             3rd Qu.:2.000  
 Max.   :57612405   Max.   :2056212                             Max.   :2.000  
                                                                               
 descricao_horario                           tipo       
 35N12  : 1922     ENSINO INDIVIDUAL           :   852  
 35M34  : 1649     REGULAR                     :103754  
 35N34  : 1451     REPOSIÇÃO NO PERÍODO REGULAR:     6  
 35T56  : 1389                                          
 35M12  : 1377                                          
 24N12  : 1237    

## 3. Exportando os Resultados

In [24]:
# salvando o dataset em CSV para facilitar trabalhos futuros
setwd(path_save)

write.csv(reduced, "turmas.csv", row.names=FALSE)

### 3.1. Exportando apenas as Turmas 

In [19]:
lst_turmas <- data.frame("IdTurmas" = reduced$id_turma)

In [20]:
str(lst_turmas)

'data.frame':	104612 obs. of  1 variable:
 $ IdTurmas: num  1151160 1151161 1151162 1151178 1151178 ...


In [21]:
head(lst_turmas)

IdTurmas
1151160
1151161
1151162
1151178
1151178
1151179


In [22]:
setwd(path_save)

write.csv(lst_turmas, "lst_turmas.csv", row.names=FALSE)