## Análise de Bolsas de Pós Graduação Academica Concedidas Pelo CAPES

## Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Carregando e Visualizando a Base de Dados

In [3]:
# Carregando o dataset
dataset = pd.read_csv('./dados/capes-bolsas-dataset.csv')

# Visualizando as 3 primeiras linhas
dataset.head(3)

Unnamed: 0,Ano,UF,Município,Região,Código Programa,Programa Fomento,IES,Status Jurídico,Programa,Área Avaliação,...,JOVENS TALENTOS - A,JOVENS TALENTOS - B,MESTRADO,MESTRADO PROFISSIONAL,PESQUISADOR VISITANTE ESPECIAL,PROF VISITANTE NACIONAL SÊNIOR,PROFESSOR VISITANTE EXTERIOR PLENO,PROFESSOR VISITANTE EXTERIOR SENIOR,PÓS-DOUTORADO,Total Linha
0,2020,AC,RIO BRANCO,NORTE,10001018002P1,PROCAD-AM,UFAC,Federal,BIOLOGIA EXPERIMENTAL,CIÊNCIAS BIOLÓGICAS III ...,...,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,1.0,1
1,2020,AC,RIO BRANCO,NORTE,11001011001P8,DS,UFAC,Federal,ECOLOGIA E MANEJO DE RECURSOS NATURAIS,BIODIVERSIDADE ...,...,0.0,0.0,9,0.0,0.0,0.0,0.0,0.0,0.0,9
2,2020,AC,RIO BRANCO,NORTE,11001011001P8,PNPD,UFAC,Federal,ECOLOGIA E MANEJO DE RECURSOS NATURAIS,BIODIVERSIDADE ...,...,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,1.0,1


In [4]:
# Visualizando as 3 últimas linhas
dataset.tail(3)

Unnamed: 0,Ano,UF,Município,Região,Código Programa,Programa Fomento,IES,Status Jurídico,Programa,Área Avaliação,...,JOVENS TALENTOS - A,JOVENS TALENTOS - B,MESTRADO,MESTRADO PROFISSIONAL,PESQUISADOR VISITANTE ESPECIAL,PROF VISITANTE NACIONAL SÊNIOR,PROFESSOR VISITANTE EXTERIOR PLENO,PROFESSOR VISITANTE EXTERIOR SENIOR,PÓS-DOUTORADO,Total Linha
154913,1995,SP,SÃO PAULO,SUDESTE,33019010006P4,DS,FCMSCSP-TI,Privada,MEDICINA (PEDIATRIA),MEDICINA II ...,...,,,7,,,,,,,12
154914,1995,SP,SÃO PAULO,SUDESTE,33019010007P0,DS,FCMSCSP-TI,Privada,MEDICINA (OTORRINOLARINGOLOGIA),MEDICINA III ...,...,,,5,,,,,,,5
154915,1995,SP,SÃO PAULO,SUDESTE,33038015003P2,DS,IAMSPE,Estadual,MEDICINA (GASTROENTEROLOGIA CIRÚRGICA),MEDICINA III ...,...,,,5,,,,,,,5


In [5]:
# Colunas do dataset
dataset.columns

Index(['Ano', 'UF', 'Município', 'Região', 'Código Programa',
       'Programa Fomento', 'IES', 'Status Jurídico', 'Programa',
       'Área Avaliação', 'Área Conhecimento', 'Grande Área', 'Codigo IES',
       'DOUTORADO PLENO', 'DOUTORADO PROFFISIONAL', 'Iniciação Científica',
       'JOVENS TALENTOS - A', 'JOVENS TALENTOS - B', 'MESTRADO',
       'MESTRADO PROFISSIONAL', 'PESQUISADOR VISITANTE ESPECIAL',
       'PROF VISITANTE NACIONAL SÊNIOR', 'PROFESSOR VISITANTE EXTERIOR PLENO',
       'PROFESSOR VISITANTE EXTERIOR SENIOR', 'PÓS-DOUTORADO', 'Total Linha'],
      dtype='object')

In [7]:
# Informações da base
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 154916 entries, 0 to 154915
Data columns (total 26 columns):
 #   Column                               Non-Null Count   Dtype  
---  ------                               --------------   -----  
 0   Ano                                  154916 non-null  int64  
 1   UF                                   154916 non-null  object 
 2   Município                            154916 non-null  object 
 3   Região                               154916 non-null  object 
 4   Código Programa                      148312 non-null  object 
 5   Programa Fomento                     154916 non-null  object 
 6   IES                                  154915 non-null  object 
 7   Status Jurídico                      154916 non-null  object 
 8   Programa                             148312 non-null  object 
 9   Área Avaliação                       154916 non-null  object 
 10  Área Conhecimento                    154916 non-null  object 
 11  Grande Área  

In [9]:
# Dimensões do dataset
dataset.shape

(154916, 26)

In [10]:
# Verificando dados nulos
dataset.isnull().sum()

Ano                                         0
UF                                          0
Município                                   0
Região                                      0
Código Programa                          6604
Programa Fomento                            0
IES                                         1
Status Jurídico                             0
Programa                                 6604
Área Avaliação                              0
Área Conhecimento                           0
Grande Área                                 0
Codigo IES                             125450
DOUTORADO PLENO                             0
DOUTORADO PROFFISIONAL                 146111
Iniciação Científica                    75191
JOVENS TALENTOS - A                    125450
JOVENS TALENTOS - B                    125450
MESTRADO                                    0
MESTRADO PROFISSIONAL                   59026
PESQUISADOR VISITANTE ESPECIAL         125450
PROF VISITANTE NACIONAL SÊNIOR    

## Tratamento da Base

In [47]:
# Seleção de colunas para exclusão
colunas = ['Código Programa',
       'Programa Fomento', 'IES','Programa',
       'Área Avaliação', 'Área Conhecimento','Codigo IES',
       'DOUTORADO PROFFISIONAL', 'Iniciação Científica',
       'JOVENS TALENTOS - A', 'JOVENS TALENTOS - B', 
       'MESTRADO PROFISSIONAL', 'PESQUISADOR VISITANTE ESPECIAL',
       'PROF VISITANTE NACIONAL SÊNIOR', 'PROFESSOR VISITANTE EXTERIOR PLENO',
       'PROFESSOR VISITANTE EXTERIOR SENIOR', 'Total Linha']
base_tratada = dataset.drop(columns=colunas)

In [48]:
# Visualizando a base tratada
base_tratada.head()

Unnamed: 0,Ano,UF,Município,Região,Status Jurídico,Grande Área,DOUTORADO PLENO,MESTRADO,PÓS-DOUTORADO
0,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
1,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,9,0.0
2,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
3,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
4,2020,AC,RIO BRANCO,NORTE,Federal,"LINGÜÍSTICA, LETRAS E ARTES ...",5,17,0.0


In [49]:
# Renomeando as variáveis
colunas_renomeadas = ['Ano', 'UF', 'Municipio', 'Regiao', 'Tipo', 'Area', 'Doutorado', 'Mestrado', 'PosDoc']
base_tratada.columns = colunas_renomeadas

In [50]:
# Visualizando alteração
base_tratada.head()

Unnamed: 0,Ano,UF,Municipio,Regiao,Tipo,Area,Doutorado,Mestrado,PosDoc
0,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
1,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,9,0.0
2,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
3,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
4,2020,AC,RIO BRANCO,NORTE,Federal,"LINGÜÍSTICA, LETRAS E ARTES ...",5,17,0.0


In [51]:
# Verificando nulos na variável 'PosDoc'
base_tratada['PosDoc'] = base_tratada['PosDoc'].fillna(0)

# Visualizando
base_tratada.head()

Unnamed: 0,Ano,UF,Municipio,Regiao,Tipo,Area,Doutorado,Mestrado,PosDoc
0,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
1,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,9,0.0
2,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
3,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1.0
4,2020,AC,RIO BRANCO,NORTE,Federal,"LINGÜÍSTICA, LETRAS E ARTES ...",5,17,0.0


In [52]:
base_tratada['PosDoc'] = base_tratada['PosDoc'].astype(int)

In [53]:
base_tratada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 154916 entries, 0 to 154915
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   Ano        154916 non-null  int64 
 1   UF         154916 non-null  object
 2   Municipio  154916 non-null  object
 3   Regiao     154916 non-null  object
 4   Tipo       154916 non-null  object
 5   Area       154916 non-null  object
 6   Doutorado  154916 non-null  int64 
 7   Mestrado   154916 non-null  int64 
 8   PosDoc     154916 non-null  int32 
dtypes: int32(1), int64(3), object(5)
memory usage: 10.0+ MB


## Análise Exploratória dos Dados (AED)

## Hipóteses

1. O número de bolsas concedidas pela Capes aumentou ao longo dos anos?
2. A distribuição de bolsas varia significativamente entre as grandes áreas de estudo?
3. A distribuição de bolsas é desigual entre as regiões geográficas do país?
4. O status jurídico que disponibiliza o maior número de bolsas é o Federal?
5. Pesquisas relacionadas à ciências humanas recebem mais concessão de bolsas?
6. A quantidade de bolsas diminui conforme aumenta o nível acadêmico?
7. No período analisado, a área com maior quantidade de bolsas se manteve durante os anos?
8. Qual a quantidade de Mestrandos e Doutorandos que recebem bolsa?

In [54]:
# Base de dados
dados = base_tratada.copy()

# Visualizando
dados.head()

Unnamed: 0,Ano,UF,Municipio,Regiao,Tipo,Area,Doutorado,Mestrado,PosDoc
0,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1
1,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,9,0
2,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1
3,2020,AC,RIO BRANCO,NORTE,Federal,CIÊNCIAS BIOLÓGICAS ...,0,0,1
4,2020,AC,RIO BRANCO,NORTE,Federal,"LINGÜÍSTICA, LETRAS E ARTES ...",5,17,0


### 1. O número de bolsas concedidas pela Capes aumentou ao longo dos anos?

## Conclusão