## Análise da Iniciação Científica

### Importando e tratando

In [0]:
import pandas as pd

In [109]:
bolsas_ic = pd.read_csv('bolsistas-de-iniciacao-cientifica.csv', error_bad_lines=False, delimiter=";")
bolsas_ic.head()

Unnamed: 0,id_discente,matricula,discente,titulo,codigo_projeto,id_projeto_pesquisa,ano,id_orientador,orientador,categoria,...,linha_pesquisa,id_grupo_pesquisa,grupo_pesquisa,cota,inicio,fim,id_unidade,unidade,status,Unnamed: 20
0,88234,200504593,ABDON SILVA RIBEIRO DA CUNHA,Geração e disseminação da inovação na carcinic...,PVE2463-2008,5554243,2008,64653,MARIANA BALDI,Iniciação Científica (IC),...,Organizações e comportamento organizacional,38.0,BASE DE ESTUDOS E PESQUISAS EM ESTRATÉGIAS E P...,2008-2009,2008-08-25,2008-11-06 13:35:24.877,161,DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS - DEP...,FINALIZADO,
1,88234,200504593,ABDON SILVA RIBEIRO DA CUNHA,Motivos de Adesão e Filiação ao Trabalho Volun...,PVE3275-2009,11687003,2009,23198,WASHINGTON JOSE DE SOUSA,Iniciação Científica (IC),...,Análise e Avaliação de Políticas Públicas;;;,,,2009-2010,2009-08-01,2009-12-25 00:00:00,161,DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS - DEP...,FINALIZADO,
2,88234,200504593,ABDON SILVA RIBEIRO DA CUNHA,O agronegócio da carcinicultura no RN e a estr...,PVE334-2006,41258,2006,64653,MARIANA BALDI,Iniciação Científica (IC),...,Organizações e comportamento organizacional;;;,38.0,BASE DE ESTUDOS E PESQUISAS EM ESTRATÉGIAS E P...,2006-2007,2006-08-01,2007-07-31 00:00:00,443,CENTRO DE CIÊNCIAS SOCIAIS APLICADAS - CCSA,FINALIZADO,
3,88234,200504593,ABDON SILVA RIBEIRO DA CUNHA,ELEMENTOS DO COMPORTAMENTO ORGANIZACIONAL:Tipo...,PVE513-2008,5487590,2008,23198,WASHINGTON JOSE DE SOUSA,Iniciação Científica (IC),...,Gestão de Organizações Sociais;Trabalho Volunt...,43.0,GRUPO DE ESTUDOS E PESQUISAS EM GESTÃO INSTITU...,2008-2009,2008-11-06,2009-07-31 00:00:00,443,CENTRO DE CIÊNCIAS SOCIAIS APLICADAS - CCSA,FINALIZADO,
4,545009,2011049415,ABEL LUIS DA SILVA NETO,Estudo de Antenas com Reflectarrays e suas Apl...,PVG6992-2013,97873251,2013,5754609,ADAILDO GOMES D ASSUNCAO,Iniciação Tecnológica (IT),...,"ANTENAS, PROPAGAÇÃO E COMUNICAÇÕES SEM FIO",16.0,GRUPO DE MICROONDAS E ANTENAS,2013-2014,2013-08-14,2014-06-26 00:00:00,5204,DEPARTAMENTO DE ENGENHARIA DE COMUNICACOES - DCO,PENDENTE DE RELATORIO,


In [110]:
bolsas_ic = bolsas_ic.drop(columns=['discente', 'matricula', 'titulo', 'orientador', 'codigo_projeto', 'id_projeto_pesquisa', 'inicio', 'fim', 'Unnamed: 20'])
bolsas_ic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26725 entries, 0 to 26724
Data columns (total 12 columns):
id_discente          26725 non-null int64
ano                  26725 non-null int64
id_orientador        26725 non-null int64
categoria            26725 non-null object
tipo_de_bolsa        26725 non-null object
linha_pesquisa       25851 non-null object
id_grupo_pesquisa    22479 non-null float64
grupo_pesquisa       22437 non-null object
cota                 26725 non-null object
id_unidade           26725 non-null int64
unidade              26725 non-null object
status               26725 non-null object
dtypes: float64(1), int64(4), object(7)
memory usage: 2.4+ MB


### Importando Bokeh

In [0]:
from bokeh.plotting import figure, output_file, show
from bokeh.models import ColumnDataSource, HoverTool
from bokeh.palettes import Category20c
from bokeh.transform import cumsum
from math import pi

### Unidades que mais possuem projetos de IC

In [142]:
projetos_unidade = bolsas_ic.unidade.value_counts()
projetos_unidade.head()

ESCOLA AGRÍCOLA DE JUNDIAÍ - EAJ                      1097
CENTRO DE CIÊNCIAS DA SAÚDE - CCS                     1012
CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES - CCHLA    1010
CT VICE-DIRETORIA - CT-VICEDIR                         953
ESCOLA DE CIÊNCIAS E TECNOLOGIA - ECT                  945
Name: unidade, dtype: int64

In [0]:
output_file('projetos_unidade.html')

In [180]:
data_unidades = projetos_unidade.head(20).reset_index(name='value').rename(columns={'index': 'unidade'})
data_unidades['angle'] = data_unidades['value']/data_unidades['value'].sum() * 2 * pi
data_unidades['color'] = Category20c[len(data_unidades)]
data_unidades.head()

Unnamed: 0,unidade,value,angle,color
0,ESCOLA AGRÍCOLA DE JUNDIAÍ - EAJ,1097,0.488875,#3182bd
1,CENTRO DE CIÊNCIAS DA SAÚDE - CCS,1012,0.450995,#6baed6
2,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES - C...",1010,0.450104,#9ecae1
3,CT VICE-DIRETORIA - CT-VICEDIR,953,0.424702,#c6dbef
4,ESCOLA DE CIÊNCIAS E TECNOLOGIA - ECT,945,0.421137,#e6550d


In [0]:
pie_unidades = figure(title="Unidades da UFRN com mais bolsas de IC", toolbar_location=None,
                      plot_height=600, plot_width=1100,
                      tools="hover", tooltips="@unidade: @value", x_range=(-0.5, 1.5))

In [182]:
pie_unidades.wedge(x=0, y=1, radius=0.4,
        start_angle=cumsum('angle', include_zero=True), end_angle=cumsum('angle'),
        line_color="white", fill_color='color', legend='unidade', source=data_unidades)

In [0]:
show(pie_unidades)

### Grupos de pesquisa com mais projetos de IC

In [187]:
projetos_grupos = bolsas_ic.grupo_pesquisa.value_counts()
projetos_grupos.head()

ISOLADO                            703
DESENVOLVIMENTO DE MEDICAMENTOS    506
ALIMENTOS, NUTRIÇÃO E SAÚDE        457
BIOANÁLISES                        429
PATOLOGIA ORAL                     339
Name: grupo_pesquisa, dtype: int64

In [0]:
output_file('projetos_grupo3.html')

In [207]:
data_grupos = projetos_grupos.head(20).reset_index(name='value').rename(columns={'index': 'grupo'})
data_grupos['angle'] = data_grupos['value']/data_grupos['value'].sum() * 2 * pi
data_grupos['color'] = Category20c[len(data_grupos)]
data_grupos.head()

Unnamed: 0,grupo,value,angle,color
0,ISOLADO,703,0.834987,#3182bd
1,DESENVOLVIMENTO DE MEDICAMENTOS,506,0.601,#6baed6
2,"ALIMENTOS, NUTRIÇÃO E SAÚDE",457,0.542801,#9ecae1
3,BIOANÁLISES,429,0.509544,#c6dbef
4,PATOLOGIA ORAL,339,0.402646,#e6550d


In [0]:
pie_grupos = figure(title="Grupos de Pesquisa com mais bolsas de IC", toolbar_location=None,
                    plot_height=600, plot_width=1250,
                    tools="hover", tooltips="@grupo: @value", x_range=(-0.5, 1.8))

In [209]:
pie_grupos.wedge(x=0, y=1, radius=0.4,
                 start_angle=cumsum('angle', include_zero=True), end_angle=cumsum('angle'),
                 line_color="white", fill_color='color', legend='grupo', source=data_grupos)

In [0]:
show(pie_grupos)

### Projetos por ano

In [237]:
projetos_ano = bolsas_ic.ano.value_counts().sort_index()
projetos_ano.head()

2001    662
2002    704
2003    735
2004    788
2005    789
Name: ano, dtype: int64

In [319]:
cnpq_orc = {2001: 6.8, 2002: 6.2, 2003: 7.0, 2004: 7.2, 2005: 8.1, 2006: 8.7, 2007: 9.1, 2008: 9.9, 2009: 11, 2010: 12.4, 2011: 10.7, 2012: 11.2, 2013: 14.1, 2014: 10.4, 2015: 9.9, 2016: 8.1, 2017: None, 2018: None }
cnpq_orc = pd.Series(cnpq_orc, name='orcamento')
cnpq_orc.head()

2001    6.8
2002    6.2
2003    7.0
2004    7.2
2005    8.1
Name: orcamento, dtype: float64

In [0]:
data_projetos_ano = projetos_ano.reset_index(name='value').rename(columns={'index': 'ano'})

In [0]:
cnpq_orc = cnpq_orc.reset_index(name='value').drop(columns=['index'])

In [322]:
data_projetos_ano['orcamento'] = cnpq_orc * 100
data_projetos_ano.head()

Unnamed: 0,ano,value,orcamento
0,2001,662,680.0
1,2002,704,620.0
2,2003,735,700.0
3,2004,788,720.0
4,2005,789,810.0


In [0]:
output_file('projetos_ano10.html')

In [0]:
pie_anos = figure(title="Quantidade de projetos de IC por ano", tooltips="<b>@ano: $ @orcamento mi</b><br/> @value")

In [326]:
pie_anos.vbar(top='value', x='ano', width=0.9, source=data_projetos_ano)

In [327]:
pie_anos.line(y='orcamento', x='ano', color='orange', line_width=3, source=data_projetos_ano)
pie_anos.circle(y='orcamento', x='ano', fill_color='white', size=8, source=data_projetos_ano)

In [0]:
show(pie_anos)