## Estudo em dados sobre bolsistas de iniciação científica da UFRN

Um dos parâmetros para medir a qualidade de uma instituição de ensino, é o quanto ela investe em pesquisa e desenvolvimento, incentivando seus alunos a terem familiaridade com trabalhos científicos ainda na graduação. Desse modo, esse trabalho tem por objetivo fazer uma análise sobre os dados dos bolsistas de iniciação científica da UFRN e apresentar, de forma clara, algumas informações sobre eles.

Trabalho desenvolvido com base de dados abertos da UFRN
*http://dados.ufrn.br/

In [51]:
# Importar o Pandas
import pandas as pd

# Importar os dados de bolsistas-de-iniciacao-cientifica.csv
data = pd.read_csv("bolsistas-de-iniciacao-cientifica.csv", encoding = 'utf-8', sep = None, engine = 'python')

In [52]:
data.head()

Unnamed: 0,matricula,discente,titulo,codigo_projeto,ano,orientador,categoria,tipo_de_bolsa,linha_pesquisa,base_pesquisa,cota,inicio,fim,unidade,status
0,200504593,ABDON SILVA RIBEIRO DA CUNHA,Motivos de Adesão e Filiação ao Trabalho Volun...,PVE3275-2009,2009,WASHINGTON JOSE DE SOUSA,Iniciação Científica (IC),PIBIC,Análise e Avaliação de Políticas Públicas;;;,,2009-2010,2009-08-01,2009-12-25 00:00:00,DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS - DEP...,FINALIZADO
1,200504593,ABDON SILVA RIBEIRO DA CUNHA,O agronegócio da carcinicultura no RN e a estr...,PVE334-2007,2007,MARIANA BALDI,Iniciação Científica (IC),PIBIC,Organizações e comportamento organizacional;;;,BASE DE ESTUDOS E PESQUISAS EM ESTRATÉGIAS E P...,2007-2008,2007-08-01,2008-07-31 00:00:00,CENTRO DE CIÊNCIAS SOCIAIS APLICADAS - CCSA,FINALIZADO
2,200504593,ABDON SILVA RIBEIRO DA CUNHA,Geração e disseminação da inovação na carcinic...,PVE2463-2008,2008,MARIANA BALDI,Iniciação Científica (IC),PIBIC,Organizações e comportamento organizacional,BASE DE ESTUDOS E PESQUISAS EM ESTRATÉGIAS E P...,2008-2009,2008-08-25,2008-11-06 13:35:24.877,DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS - DEP...,FINALIZADO
3,200504593,ABDON SILVA RIBEIRO DA CUNHA,O agronegócio da carcinicultura no RN e a estr...,PVE334-2006,2006,MARIANA BALDI,Iniciação Científica (IC),PROPESQ,Organizações e comportamento organizacional;;;,BASE DE ESTUDOS E PESQUISAS EM ESTRATÉGIAS E P...,2006-2007,2006-08-01,2007-07-31 00:00:00,CENTRO DE CIÊNCIAS SOCIAIS APLICADAS - CCSA,FINALIZADO
4,2011049415,ABEL LUIS DA SILVA NETO,Estudo de Antenas com Reflectarrays e suas Apl...,PVG6992-2013,2013,ADAILDO GOMES D ASSUNCAO,Iniciação Tecnológica (IT),PIBIT,"ANTENAS, PROPAGAÇÃO E COMUNICAÇÕES SEM FIO",GRUPO DE MICROONDAS E ANTENAS,2013-2014,2013-08-14,2014-06-26 00:00:00,DEPARTAMENTO DE ENGENHARIA DE COMUNICACOES - DCO,PENDENTE DE RELATORIO


### Tratamento dos dados

In [53]:
#Colunas da matriz de dados
data.columns.values.tolist()

##Colunas dispensáveis para esse projeto: discente, código projeto

['matricula',
 'discente',
 'titulo',
 'codigo_projeto',
 'ano',
 'orientador',
 'categoria',
 'tipo_de_bolsa',
 'linha_pesquisa',
 'base_pesquisa',
 'cota',
 'inicio',
 'fim',
 'unidade',
 'status']

In [54]:
# Removendo-as...
data.drop(data.columns[1], axis=1, inplace=True)
data.drop(data.columns[2], axis=1, inplace=True)

In [55]:
#Número de entradas: 26473
data.info()
#Dados não obrigatórios: título, linha_pesquisa, base_pesquisa, cota, inicio, fim

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26473 entries, 0 to 26472
Data columns (total 13 columns):
matricula         26473 non-null int64
titulo            26464 non-null object
ano               26473 non-null int64
orientador        26473 non-null object
categoria         26473 non-null object
tipo_de_bolsa     26473 non-null object
linha_pesquisa    25610 non-null object
base_pesquisa     22210 non-null object
cota              26473 non-null object
inicio            26468 non-null object
fim               23323 non-null object
unidade           26473 non-null object
status            26473 non-null object
dtypes: int64(2), object(11)
memory usage: 2.6+ MB


In [58]:
#De modo a deixar a análise mais concisa, vamos fazer a análise dos dados dos ultimos 5 anos.

#Ordena dados por ano
data = data.sort_values(data.columns[2], ascending = True)
                 
#Dados dos últimos 5 anos
data_ultimosAnos = data[data['ano'] > 2012]

#Diminuição do número de dados: 11101 entradas
data_ultimosAnos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11101 entries, 15534 to 14065
Data columns (total 13 columns):
matricula         11101 non-null int64
titulo            11101 non-null object
ano               11101 non-null int64
orientador        11101 non-null object
categoria         11101 non-null object
tipo_de_bolsa     11101 non-null object
linha_pesquisa    10693 non-null object
base_pesquisa     9121 non-null object
cota              11101 non-null object
inicio            11101 non-null object
fim               8015 non-null object
unidade           11101 non-null object
status            11101 non-null object
dtypes: int64(2), object(11)
memory usage: 1.2+ MB


In [59]:
data_ultimosAnos.head()

Unnamed: 0,matricula,titulo,ano,orientador,categoria,tipo_de_bolsa,linha_pesquisa,base_pesquisa,cota,inicio,fim,unidade,status
15534,2010057643,Aplicação de Metamateriais em Substratos de An...,2013,CRISTHIANNE DE FATIMA LINHARES DE VASCONCELOS,Iniciação Científica (IC),VOLUNTÁRIO,Metamateriais,GRUPO DE MICROONDAS E ANTENAS,2013,2013-01-29,,DEPARTAMENTO DE ENGENHARIA DE COMUNICACOES - DCO,FINALIZADO
15193,2011035438,Determinação da composição química do arroz ve...,2013,RENATA ALEXANDRA MOREIRA DAS NEVES,Iniciação Científica (IC),PROPESQ,Análise de Alimentos,"ALIMENTOS, NUTRIÇÃO E SAÚDE",2014,2014-02-12,2015-07-31 00:00:00,DEPARTAMENTO DE NUTRIÇÃO - DENUT/CCS,FINALIZADO
9164,2013077301,Tecnicas de determinacao da oxitocina e BDNF,2013,MARIA BERNARDETE CORDEIRO DE SOUSA,Iniciação Científica (IC),PIBIC,Neuroimunoendocrinologia,Estudo de mecanismos de integração dos sistema...,2015-2016 Pibic,2016-01-04,2016-07-31 00:00:00,INSTITUTO DO CÉREBRO - INST. CÉREBRO,FINALIZADO
15212,2013084370,Novas avaliações in vivo da ação cicatrizante ...,2013,VANIA SOUSA ANDRADE,Iniciação Científica (IC),PROPESQ,Novas moléculas aplicadas à doenças infecciosas,BIOLOGIA DO CANCER E DE DOENÇAS INFECCIOSAS,2014,2014-02-10,2014-02-12 00:00:00,DEPARTAMENTO DE MICROBIOLOGIA E PARASITOLOGIA ...,FINALIZADO
7753,2012948609,Pesquisa de campo sobre indústrias criativas n...,2013,FERNANDO MANUEL ROCHA DA CRUZ,Iniciação Científica (IC),VOLUNTÁRIO,Economia Criativa,Grupo de Pesquisa de Economia Criativa,2013-2014,2013-08-26,2013-12-12 00:00:00,DEPARTAMENTO DE POLÍTICAS PÚBLICAS - DPP,FINALIZADO


## Análise dos dados: Tipos de bolsa & Unidades mais contempladas com bolsistas
Vamos verificar então a distribuição dos tipos de bolsas entre os alunos nos últimos 5 anos:

In [209]:
tipos_bolsa = data_ultimosAnos['tipo_de_bolsa'].reset_index()

#Novo dataframe com quantidade de cada bolsa
tipos_bolsa['count'] = 0
tipos_bolsa = pd.DataFrame(tipos_bolsa.groupby(['tipo_de_bolsa'])['count'].count()).reset_index()

tipos_bolsa = tipos_bolsa.sort_values(tipos_bolsa.columns[1], ascending = True).reset_index()
tipos_bolsa.drop(tipos_bolsa.columns[0], axis=1, inplace=True)

In [210]:
tipos_bolsa

Unnamed: 0,tipo_de_bolsa,count
0,BALCÃO,1
1,ECT,2
2,PPG/PROPESQ,2
3,Bolsas de IC/IT -PICME,5
4,FUNTTEL,8
5,PIBITI CNPq,14
6,PIBIC AF CNPq,26
7,PIBIC AF,41
8,PIBIT,45
9,NUPLAM,91


In [211]:
from bokeh.charts import Bar, output_notebook, show

p = Bar(tipos_bolsa, 'tipo_de_bolsa', values='count', title="Distribuição de bolsas da UFRN", legend = None )

p.xaxis.axis_label = 'Bolsas ofertadas'
p.yaxis.axis_label = 'Quantidade'

output_notebook()
show(p)

   #### Análise preliminar
$\qquad$ Pelo gráfico acima, pode-se perceber que a UF contava com 18 classificações de bolsas, fornecendo mais de 8000 bolsas ao 
longo desses 5 anos. Os tipos de bolsa remunerada que contemplam mais alunos são as do programa de Bolsas de Iniciação Científica da Pró-Reitoria de Pesquisa(PROPESQ-REUNI),Jovens Talentos e do programa Institucional de Bolsas de Iniciação Científica (PIBIC). As duas primeiras são ministradas diretamente pela UFRN, enquanto que as bolsas do PIBIC fazem parte do programa do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ). <br/>
$\qquad$ Podemos perceber ainda o grande número de voluntários ao longo desses 5 anos, o que pode indicar a grande demanda por bolsas e o grande interesse dos alunos em ingressarem a iniciação científica, o que só reforça a importância que esses programas de bolsas tem para a faculdade. <br/>
$\qquad$ Vejamos agora um comparativo da distribuição das bolsas de pesquisa da UF ao longo dos últimos 17 anos e quais departamentos da instituição foram mais contemplados com bolsistas e voluntários.

### Distribuição de bolsas ao longo dos anos:

In [243]:
bolsas = data.filter(['ano','tipo_de_bolsa'], axis=1).reset_index()
bolsas.drop(bolsas.columns[0], axis=1, inplace=True)

bolsas_por_ano = bolsas['tipo_de_bolsa'].groupby(bolsas['ano']).count()

#Distribuição das bolsas da UF ao longo dos anos, de 2001 até atualmente (2017)
bolsas_por_ano

ano
2001     662
2002     704
2003     735
2004     788
2005     789
2006     883
2007    1736
2008     850
2009    1853
2010    2349
2011    2000
2012    2023
2013    3595
2014    2707
2015    1865
2016    2009
2017     925
Name: tipo_de_bolsa, dtype: int64

In [244]:
from bokeh.plotting import figure

p = figure(plot_width=500, plot_height=400)

anos = list(range(2001,2018))
valores = bolsas_por_ano.tolist()

# add a line renderer
p.line(anos, valores, line_width=2)

output_notebook()
show(p)

In [245]:
media_valores = bolsas_por_ano.mean()
media_valores

1557.235294117647

In [246]:
mediana_valores = bolsas_por_ano.median()
mediana_valores

1736.0

In [248]:
moda_valores = bolsas_por_ano.mode()
moda_valores

Series([], dtype: int64)

In [249]:
desvio_padrao = bolsas_por_ano.std()
desvio_padrao

854.1987861010284

$\qquad$ Pelo gráfico de linhas, temos uma boa noção de como se deu a distribuição de bolsas de pesquisa ao longo desses últimos 17 anos na UFRN. De modo geral, percebe-se que houve um gradativo aumento do número de oportunidades para os alunos desde 2001, começando com cerca de **662 contemplados, valor mínimo de bolsas **nessa distribuição, e tendo um ** valor máximo em 2013, com 3595 bolsas**. <br/>
$\qquad$ Uma situação preocupante é que desde o seu máximo em 2013, o número de bolsas vem caindo gradativamente, até chegar ao menor valor de bolsistas e voluntários em 8 anos, com apenas 925 alunos ligados diretamente aos programas de bolsa da universidade até agora em 2017. Considerando que faltam pouco menos de 4 meses para o fim do período letivo, esse número não deve variar muito. <br/>
$\qquad$ Quanto a dados estatísticos gerais, temos uma **média de bolsas por ano de 1557**. Valor não muito distante da **mediana, de 1736 bolsas**. A distribuição ainda tem um **desvio padrão de 854** e **não possui moda**.