# Trabalho da segunda unidade de Probabilidade
Esse trabalho possui como objetivo análisar os dados referentes a pesquisa no Instituto Metrópole Digital (IMD).

**Componentes**:
- <a href="https://github.com/alvarofpp">Álvaro Ferreira Pires de Paiva</a>
  - Matrícula: 2016039162
  - E-mail: alvarofepipa@gmail.com
- <a href="https://github.com/davir8">Davi Rodrigues de Medeiros</a>
  - Matrícula: 20160143888
  - E-mail:davirodrigues8@gmail.com

## Dados
Os dados utilizados forma retirados do site de <a href="http://dados.ufrn.br/">dados abertos da UFRN</a>. Foram utilizados os seguintes dados:
- <a href="http://dados.ufrn.br/dataset/bolsistas-de-iniciacao-cientifica">Bolsistas de Iniciação Científica</a>
- <a href="http://dados.ufrn.br/dataset/discentes">Discentes</a>
- <a href="http://dados.ufrn.br/dataset/docentes">Docentes</a>


###### Sumário
- [Preparando o ambiente](#ambiente)
- [Tratamento dos dados](#tratamento)
  - [Filtragem](#filtragem)
  - [Vinculação](#vinculacao)

## <a id="ambiente">Preparando o ambiente</a>
Nessa seção, iremos declarar as variáveis globais que iremos utilizar durante esse notebook, importar as libs necessárias e preparar os arquivos que temos para podermos utilizá-los nas seções seguintes.

In [2]:
# Imports
import os
import pandas as pd

In [3]:
# Caminhos dos arquivos
path_files = "files/"
path_discentes = path_files + "discentes/"

A seguir, iremos filtrar os discentes para, exclusivamente, os que ingressaram no curso de Tecnologia da Informação.

In [67]:
# Iremos pegar todos os discentes e filtrar-los em apenas os discentes do IMD
df_ingressantes_imd = pd.DataFrame()

for root, dirs, files in os.walk(path_discentes):
    for filename in files:
        print(root + filename)
        df_ingressantes = pd.read_csv((root + filename), sep=';')
        df_ingressantes_filter = df_ingressantes[df_ingressantes.nome_curso == "TECNOLOGIA DA INFORMAÇÃO"]
        df_ingressantes_imd = pd.concat([df_ingressantes_imd, df_ingressantes_filter])

files/discentes/discentes-2014
files/discentes/discentes-2018
files/discentes/discentes-2016
files/discentes/discentes-2017
files/discentes/discentes-2013
files/discentes/discentes-2015


In [53]:
# Remove as colunas que não nos servem para nada
df_ingressantes_imd = df_ingressantes_imd.drop(columns=['sigla_nivel_ensino', 'nivel_ensino',
                                  'id_curso', 'nome_curso',
                                  'id_unidade', 'nome_unidade',
                                 'id_unidade_gestora', 'nome_unidade_gestora'])

# Converte colunas que são float, mas deveriam ser double
df_ingressantes_imd.periodo_ingresso = df_ingressantes_imd.periodo_ingresso.astype('int64')

In [68]:
df_ingressantes_imd.head()

Unnamed: 0,matricula,nome_discente,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
56,2014065000.0,ADAUTO VIEIRA DE ARAÚJO GUEDES,2014,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,92127264.0,TECNOLOGIA DA INFORMAÇÃO,PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
135,2014053000.0,ADRIANA ARAUJO DE ALBUQUERQUE ANDRADE,2014,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,92127264.0,TECNOLOGIA DA INFORMAÇÃO,PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
364,2014065000.0,ALAN VITOR COSTA DE OLIVEIRA,2014,1.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,92127264.0,TECNOLOGIA DA INFORMAÇÃO,PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
582,2014024000.0,ALEXANDRE NELSON ALVES DE CARVALHO JUNIOR,2014,1.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,92127264.0,TECNOLOGIA DA INFORMAÇÃO,PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
594,2014057000.0,ALEXANDRE VITOR CUNHA DE MEDEIROS,2014,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,92127264.0,TECNOLOGIA DA INFORMAÇÃO,PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE


In [57]:
# Salvamos o arquivo
df_ingressantes_imd.to_csv('data/discentes_imd.csv')

Agora iremos filtrar os docentes para, exclusivamente, os docentes que possuem como unidade de lotação o Instituto Metrópole Digital.

In [72]:
# Todos os docentes
df_docentes = pd.read_csv(('files/docentes.csv'), sep=';')

# Filtramos para os que são do IMD
df_docentes = df_docentes[df_docentes.id_unidade_lotacao == 6069]

# Remove as colunas que não nos servem para nada
df_docentes = df_docentes.drop(columns=['siape',
                                  'id_unidade_lotacao', 'lotacao'], indexs=[11])

df_docentes.head()

TypeError: drop() got an unexpected keyword argument 'indexs'

In [69]:
# Salvamos o arquivo
df_docentes.to_csv('data/docentes_imd.csv')

Unnamed: 0,id_servidor,siape,nome,formacao,tipo_jornada_trabalho,vinculo,categoria,classe_funcional,id_unidade_lotacao,lotacao,admissao,Unnamed: 11
13,5757141,2149456,ALUIZIO FERREIRA DA ROCHA NETO,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DIII ...,6069,INSTITUTO METROPOLE DIGITAL,2015-01-28 00:00:00,
15,5756816,2140866,ALYSON MATHEUS DE CARVALHO SOUZA,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DIII ...,6069,INSTITUTO METROPOLE DIGITAL,2014-07-11 00:00:00,
25,5756955,1013173,ANDRE LUIZ DE SOUZA BRITO,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DIII ...,6069,INSTITUTO METROPOLE DIGITAL,2014-07-15 00:00:00,
33,5757540,4857233,ANTONIO IGOR SILVA DE OLIVEIRA,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DI ...,6069,INSTITUTO METROPOLE DIGITAL,2015-05-26 00:00:00,
34,5757618,1157135,ANTONIO WALLACE ANTUNES SOARES,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DI ...,6069,INSTITUTO METROPOLE DIGITAL,2015-07-31 00:00:00,
