# Trabalho da segunda unidade de Probabilidade
Esse trabalho possui como objetivo análisar os dados referentes a pesquisa no Instituto Metrópole Digital (IMD).

**Componentes**:
- <a href="https://github.com/alvarofpp">Álvaro Ferreira Pires de Paiva</a>
  - Matrícula: 2016039162
  - E-mail: alvarofepipa@gmail.com
- <a href="https://github.com/davir8">Davi Rodrigues de Medeiros</a>
  - Matrícula: 20160143888
  - E-mail:davirodrigues8@gmail.com

## Dados
Os dados utilizados forma retirados do site de <a href="http://dados.ufrn.br/">dados abertos da UFRN</a>. Foram utilizados os seguintes dados:
- <a href="http://dados.ufrn.br/dataset/bolsistas-de-iniciacao-cientifica">Bolsistas de Iniciação Científica</a>
- <a href="http://dados.ufrn.br/dataset/discentes">Discentes</a>
- <a href="http://dados.ufrn.br/dataset/docentes">Docentes</a>


###### Sumário
- [Preparando o ambiente](#ambiente)
- [Tratamento dos dados](#tratamento)
  - [Filtragem](#filtragem)
  - [Vinculação](#vinculacao)

## <a id="ambiente">Preparando o ambiente</a>
Nessa seção, iremos declarar as variáveis globais que iremos utilizar durante esse notebook, importar as libs necessárias e preparar os arquivos que temos para podermos utilizá-los nas seções seguintes.

In [42]:
# Imports
import os
import pandas as pd

In [43]:
# Caminhos dos arquivos
path_files = "files/"
path_discentes = path_files + "discentes/"

# Ids
id_imd = 6069

A seguir, iremos filtrar os discentes para, exclusivamente, os que ingressaram no curso de Tecnologia da Informação.

In [44]:
# Iremos pegar todos os discentes e filtrar-los em apenas os discentes do IMD
df_ingressantes_imd = pd.DataFrame()

for root, dirs, files in os.walk(path_discentes):
    for filename in files:
        print(root + filename)
        df_ingressantes = pd.read_csv((root + filename), sep=';')
        df_ingressantes_filter = df_ingressantes[df_ingressantes.nome_curso == "TECNOLOGIA DA INFORMAÇÃO"]
        df_ingressantes_imd = pd.concat([df_ingressantes_imd, df_ingressantes_filter])

files/discentes/discentes-2013
files/discentes/discentes-2018
files/discentes/discentes-2017
files/discentes/discentes-2014
files/discentes/discentes-2016
files/discentes/discentes-2015


In [45]:
# Remove as colunas que não nos servem para nada
df_ingressantes_imd = df_ingressantes_imd.drop(columns=['sigla_nivel_ensino', 'nivel_ensino',
                                  'id_curso', 'nome_curso',
                                  'id_unidade', 'nome_unidade',
                                 'id_unidade_gestora', 'nome_unidade_gestora'])

# Converte colunas que são float, mas deveriam ser double
df_ingressantes_imd.matricula = df_ingressantes_imd.matricula.astype('int64')
df_ingressantes_imd.periodo_ingresso = df_ingressantes_imd.periodo_ingresso.astype('int64')

In [46]:
df_ingressantes_imd.head()

Unnamed: 0,matricula,nome_discente,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,modalidade_educacao
80,2013019611,ADEMIR BEZERRA DA SILVA JUNIOR,2013,1,VESTIBULAR,REGULAR,CONCLUÍDO,PRESENCIAL
122,2013055903,ADONIAS GALVÃO FILHO,2013,1,SiSU,REGULAR,ATIVO,PRESENCIAL
490,2013046600,ALESON BELO DA SILVA,2013,1,SiSU,REGULAR,CANCELADO,PRESENCIAL
596,2013042431,ALEXANDRE TADEU DE FIGUEIREDO AZEVEDO,2013,1,SiSU,REGULAR,CANCELADO,PRESENCIAL
622,2013050630,ALEXIS JORDÃO GONÇALVES PEREIRA,2013,1,VESTIBULAR,REGULAR,CONCLUÍDO,PRESENCIAL


In [47]:
# Salvamos o arquivo
df_ingressantes_imd.to_csv('data/discentes_imd.csv')

Agora iremos filtrar os docentes para, exclusivamente, os docentes que possuem como unidade de lotação o Instituto Metrópole Digital.

In [48]:
# Todos os docentes
df_docentes = pd.read_csv(('files/docentes.csv'), sep=';')

# Filtramos para os que são do IMD
df_docentes_imd = df_docentes[df_docentes.id_unidade_lotacao == id_imd]

# Remove as colunas que não nos servem para nada
df_docentes_imd = df_docentes_imd.drop(columns=['siape', 'Unnamed: 11',
                                  'id_unidade_lotacao', 'lotacao'])

df_docentes_imd.head()

Unnamed: 0,id_servidor,nome,formacao,tipo_jornada_trabalho,vinculo,categoria,classe_funcional,admissao
13,5757141,ALUIZIO FERREIRA DA ROCHA NETO,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DIII ...,2015-01-28 00:00:00
15,5756816,ALYSON MATHEUS DE CARVALHO SOUZA,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DIII ...,2014-07-11 00:00:00
25,5756955,ANDRE LUIZ DE SOUZA BRITO,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DIII ...,2014-07-15 00:00:00
33,5757540,ANTONIO IGOR SILVA DE OLIVEIRA,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DI ...,2015-05-26 00:00:00
34,5757618,ANTONIO WALLACE ANTUNES SOARES,MESTRADO,Dedicação exclusiva,Ativo Permanente,PROFESSOR DE ENSINO BASICO TECNICO E TECNOLOGICO,DI ...,2015-07-31 00:00:00


In [49]:
# Salvamos o arquivo
df_docentes_imd.to_csv('data/docentes_imd.csv')

Agora iremos filtrar os bolsista de iniciação científica para, exclusivamente, os discentes do curso de Tecnologia da Informação.

In [50]:
# Todos os bolsistas de iniciação científica
df_bolsistas = pd.read_csv(('files/bolsistas-de-iniciacao-cientifica.csv'), sep=';')

# Filtramos para os que são do IMD
df_bolsistas_imd = df_bolsistas[df_bolsistas.id_unidade == id_imd]

# Remove as colunas que não nos servem para nada
df_bolsistas_imd = df_bolsistas_imd.drop(columns=['Unnamed: 20',
                                  'id_unidade', 'unidade'])

df_bolsistas_imd.head()

Unnamed: 0,id_discente,matricula,discente,titulo,codigo_projeto,id_projeto_pesquisa,ano,id_orientador,orientador,categoria,tipo_de_bolsa,linha_pesquisa,id_grupo_pesquisa,grupo_pesquisa,cota,inicio,fim,status
768,657578,2014068307,ALICE GABRIELA ALVES DE SALES FARIAS,Modulo de comunicação para sistema Embarcado d...,PIT12872-2016,117151961,2016,5756871,EDUARDO NOGUEIRA CUNHA,Iniciação Científica (IC),VOLUNTÁRIO,Monitoramento Residencial,,,2016-2017,2016-08-10,,PENDENTE DE RELATORIO
1030,693925,2015041845,ALLAN VALDIVINO GONÇALVES,Detecção de Code Smells em sistemas Python,PIT14429-2017,123478649,2017,5757883,EIJI ADACHI MEDEIROS BARBOSA,Iniciação Científica (IC),VOLUNTÁRIO,Engenharia de Software,,,2017-2018,2017-08-02,,EM ANDAMENTO
1294,693430,2015032710,AMANDA MARIA DOMINGOS DE OLIVEIRA,OBJETOS DE APRENDIZAGEM PARA O ENSINO DE MATEM...,PIT12982-2016,117612151,2016,5757088,DENNYS LEITE MAIA,Iniciação Tecnológica (IT),PIBITI UFRN,Formação de professores de Matemática,,,2017-2018,2017-08-05,,EM ANDAMENTO
1295,693430,2015032710,AMANDA MARIA DOMINGOS DE OLIVEIRA,Objetos de aprendizagem para o ensino de Matem...,PIT12982-2016,117612151,2016,5757088,DENNYS LEITE MAIA,Iniciação Tecnológica (IT),PIBITI UFRN,Formação de professores de Matemática,,,2016-2017,2016-08-06,,FINALIZADO
1658,642002,2014023889,ANA CLAUDIA NUNES SILVA,Objetos de aprendizagem para o ensino de Matem...,PIT12982-2016,117612151,2016,5757088,DENNYS LEITE MAIA,Iniciação Tecnológica (IT),PIBITI UFRN,Formação de professores de Matemática,,,2016-2017,2016-08-08,,FINALIZADO


In [51]:
# Salvamos o arquivo
df_bolsistas_imd.to_csv('data/bolsistas_imd.csv')

Agora iremos fazer o merge com as informações dos bolsista de iniciação científica e dos discentes do Instituto Metrópole Digital.

In [55]:
# Merge entre os discentes e os bolsistas do imd utilizando como base a coluna matricula
df_discentes_bolsistas = pd.merge(df_ingressantes_imd, df_bolsistas_imd, on='matricula')

df_discentes_bolsistas.head()

Unnamed: 0,matricula,nome_discente,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status_x,modalidade_educacao,id_discente,discente,...,orientador,categoria,tipo_de_bolsa,linha_pesquisa,id_grupo_pesquisa,grupo_pesquisa,cota,inicio,fim,status_y
0,2013019470,ANDERSON MATHEUS SILVA,2013,1,VESTIBULAR,REGULAR,CONCLUÍDO,PRESENCIAL,594670,ANDERSON MATHEUS SILVA,...,GUSTAVO GIRAO BARRETO DA SILVA,Iniciação Tecnológica (IT),PROPESQ,Sistemas Embarcados,,,2015-2016 Propesq,2015-08-03,2016-07-31 00:00:00,FINALIZADO
1,2013018973,CIRO MARTINS PINTO,2013,1,VESTIBULAR,REGULAR,CONCLUÍDO,PRESENCIAL,594676,CIRO MARTINS PINTO,...,RAFAEL VIDAL AROCA,Iniciação Científica (IC),PIBIC,Sistemas Embarcados,,,2013-2014,2013-07-29,2014-07-31 00:00:00,FINALIZADO
2,2013046851,DANIEL TIAGO DE SOUZA BRITO,2013,1,VESTIBULAR,REGULAR,ATIVO - FORMANDO,PRESENCIAL,597254,DANIEL TIAGO DE SOUZA BRITO,...,DENNYS LEITE MAIA,Iniciação Científica (IC),VOLUNTÁRIO,Formação de professores de Matemática,,,2016-2017,2016-09-08,2017-06-13 00:00:00,PENDENTE DE RELATORIO
3,2013017608,FRANCISCO LAÉRCIO DE MORAIS,2013,1,VESTIBULAR,REGULAR,CONCLUÍDO,PRESENCIAL,594682,FRANCISCO LAÉRCIO DE MORAIS,...,GUSTAVO GIRAO BARRETO DA SILVA,Iniciação Científica (IC),PIBIC UFRN,Sistemas Embarcados,,,2016-2017,2016-08-08,2017-04-06 00:00:00,PENDENTE DE RELATORIO
4,2013017608,FRANCISCO LAÉRCIO DE MORAIS,2013,1,VESTIBULAR,REGULAR,CONCLUÍDO,PRESENCIAL,594682,FRANCISCO LAÉRCIO DE MORAIS,...,GUSTAVO GIRAO BARRETO DA SILVA,Iniciação Científica (IC),PROPESQ,Sistemas Embarcados,,,2015-2016 Propesq,2015-08-05,2016-07-31 00:00:00,FINALIZADO


In [53]:
# Salvamos o arquivo
df_discentes_bolsistas.to_csv('data/discentes_bolsistas_imd.csv')