# Objetivo

O objetivo deste notebook é avaliar os dados disponíveis no [Portal de Dados Abertos da UFRN](http://dados.ufrn.br/) no grupo `Componentes Curriculares`.

Assim sendo, a avaliação é apenas quanti-qualitativa para descobrirmos o que podemos extrair a favor do nosso projeto.

## 1. Bibliotecas

In [1]:
library("dplyr")
library(ggplot2)
library(gridExtra)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union


Attaching package: ‘gridExtra’

The following object is masked from ‘package:dplyr’:

    combine



## 2. Dados

In [4]:
path_data <- "/Users/rsilva/Documents/UFRN/Hackathon/UFRN\ Dados/curriculo"
path_save <- "/Users/rsilva/Documents/UFRN/Hackathon/Resultados"

In [5]:
setwd(path_data)

# abrindo o documento de componente curricular
componentes <- read.csv2("componentes-curriculares-presenciais.csv", header=T)

# abrindo o documento de curriculo
curriculo <- read.csv2("curriculo-componente-graduacao.csv",header=T)

In [6]:
reduced_curriculo <- subset(curriculo, select=c("id_curriculo_componente", 
                                                "id_componente_curricular",
                                                "semestre_oferta",
                                                "tipo_vinculo_componente",
                                                "nivel_ensino"))

reduced_componente <- subset(componentes, select=c("id_componente",
                                                   "nome",
                                                   "unidade_responsavel",
                                                   "ch_total"))


In [7]:
names(reduced_curriculo)[2] <- "id_componente"

In [9]:
nrow(reduced_curriculo)
nrow(reduced_componente)

In [11]:
reduced <- merge(reduced_curriculo, reduced_componente, by="id_componente", all.x = TRUE)

In [12]:
str(reduced)

'data.frame':	69615 obs. of  8 variables:
 $ id_componente          : int  20000 20000 20000 20000 20001 20001 20001 20002 20003 20003 ...
 $ id_curriculo_componente: int  105680 105677 105678 105679 104850 104848 104849 125003 107690 107680 ...
 $ semestre_oferta        : int  10 10 10 10 4 4 4 3 6 9 ...
 $ tipo_vinculo_componente: Factor w/ 3 levels "COMPLEMENTAR",..: 2 2 2 2 2 2 2 2 3 2 ...
 $ nivel_ensino           : Factor w/ 1 level "GRADUAÇÃO": 1 1 1 1 1 1 1 1 1 1 ...
 $ nome                   : Factor w/ 22290 levels "","  TEORIAS DA APRENDIZAGEM E ENSINO DE LÍNGUA PORTUGUESA",..: NA NA NA NA 11857 11857 11857 16094 1339 1339 ...
 $ unidade_responsavel    : Factor w/ 306 levels "CB - COORDENAÇÃO DO CURSO DE CIÊNCIAS BIOLÓGICAS - LICENCIATURA",..: NA NA NA NA 87 87 87 15 84 84 ...
 $ ch_total               : int  NA NA NA NA 60 60 60 90 60 60 ...


In [13]:
names(reduced)[2] <- "id_curriculo"

In [14]:
summary(reduced)

 id_componente      id_curriculo       semestre_oferta  tipo_vinculo_componente
 Min.   :  20000   Min.   :   100851   Min.   : 0.000   COMPLEMENTAR:   85     
 1st Qu.:  23306   1st Qu.:   119770   1st Qu.: 0.000   OBRIGATÓRIO :35593     
 Median :  25885   Median :   137611   Median : 3.000   OPTATIVO    :33937     
 Mean   : 251021   Mean   : 35673980   Mean   : 3.476                          
 3rd Qu.:  45530   3rd Qu.: 86566946   3rd Qu.: 6.000                          
 Max.   :2056212   Max.   :421273697   Max.   :13.000                          
                                                                               
    nivel_ensino                               nome      
 GRADUAÇÃO:69615   EDUCACAO FISICA I             :  469  
                   EDUCACAO FISICA II            :  464  
                   ESTUDO DE PROB BRASILEIROS I  :  416  
                   ESTUDOS DE PROB BRASILEIROS II:  413  
                   ENADE - INGRESSANTE           :  355  
            

In [16]:
# calcular as porcentagens de valores nulos conforme a sumarização acima e o total de entradas
total <- nrow(reduced)
nulo_nome <- sum(is.na(reduced$nome))
nulo_unidade <- sum(is.na(reduced$unidade_responsavel))
nulo_ch <- sum(is.na(reduced$ch_total))

In [17]:
sprintf("%.2f%% para Nome", (nulo_nome/total)*100)
sprintf("%.2f%% para Unidade Responsável", (nulo_unidade/total)*100)
sprintf("%.2f%% para Ch Total", (nulo_ch/total)*100)

In [18]:
# removendo todos os valores NAs do dataset

reduced <- reduced[complete.cases(reduced), ]
reduced <- droplevels(reduced)

## 3. Exportando os Resultados

In [19]:
# salvando o dataset em CSV para facilitar trabalhos futuros
setwd(path_save)

write.csv(reduced, "componentes.csv", row.names=FALSE)