# Análise Exploratória

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

plt.rcParams['figure.figsize']  = (10, 8)
plt.rcParams['axes.labelsize']  = 12
plt.rcParams['axes.titlesize']  = 16
plt.rcParams['legend.fontsize'] = 12
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
plt.rcParams['lines.linewidth'] = 10.5

In [None]:
plt.ion()

plt.style.use('seaborn-colorblind')
plt.rcParams['figure.figsize']  = (12, 8)
plt.rcParams['patch.edgecolor'] = 'k'

In [None]:
# Importando dataset
dados = pd.read_excel("./datasets/dados_posGraduacao_UFMG.xlsx")

In [None]:
# Removendo entradas inferiores a 2008 e menores que 2018
dados08_17 = dados.query("AnoBase >= 2008")
dados08_17 = dados08_17.query("AnoBase < 2018")

# Removendo cursos sem nome
dados08_17 =  dados08_17[pd.notnull(dados08_17['NomePrograma'])]

print("Ano Max", dados08_17['AnoBase'].max(), "Ano Min:", dados08_17['AnoBase'].min())
display(dados08_17.head(5))

In [None]:
# Removendo entradas inferiores a 2008 e menores que 2018
dados08_17 = dados.query("AnoBase >= 2008")
dados08_17 = dados08_17.query("AnoBase < 2018")

# Removendo cursos sem nome
dados08_17 =  dados08_17[pd.notnull(dados08_17['NomePrograma'])]

print("Ano Max", dados08_17['AnoBase'].max(), "Ano Min:", dados08_17['AnoBase'].min())
display(dados08_17.head(5))

In [None]:
# Consertando tipo dos dados
# Algumas bolsas estao como string ou -
def series_to_num(df):
    # copio o df para n ter problemas com pandas
    df_to_return = df.copy()
    df_to_return = df_to_return.replace('-', np.nan)
    df_to_return = pd.to_numeric(df_to_return)
    return df_to_return

# Tratando para as colunas Bolsas e Notas da Capes:
dados08_17['BolsasDoutorado'] = series_to_num(dados08_17['BolsasDoutorado'])
dados08_17['BolsasMestrado'] = series_to_num(dados08_17['BolsasMestrado'])
dados08_17['NotaCapesDoutorado'] = series_to_num(dados08_17['NotaCapesDoutorado'])
dados08_17['NotaCapesMestrado'] = series_to_num(dados08_17['NotaCapesMestrado'])

dados08_17 =  dados08_17[pd.notnull(dados08_17['NotaCapesMestrado'])]
dados08_17 = dados08_17[pd.notnull(dados08_17['NotaCapesDoutorado'])]

dados08_17['NotaCapesMestrado'] = dados08_17["NotaCapesMestrado"].astype(float)
dados08_17['NotaCapesDoutorado'] =dados08_17["NotaCapesDoutorado"].astype(float)
dados08_17.describe()

## Gráficos: Bolsas

#### Bolsas por ano

In [None]:
bolsasAno = dados08_17.groupby("AnoBase",as_index=False).agg({
    "BolsasMestrado": 'sum', 
    "BolsasDoutorado": 'sum',
})

plotResult = bolsasAno.plot.bar(x="AnoBase", edgecolor='k').set(
    xlabel="Anos",
    ylabel="Número de bolsas",
    title="Quantidade de bolsas por ano",
    #edgecolor='k'
)

#### Bolsas pelo número de teses

In [None]:
dados08_17.plot.scatter(x="NumTeses", y="BolsasDoutorado", edgecolor='k').set(
    xlabel="Número de teses", 
    ylabel="Número de bolsas", 
    title="Número de teses pelo numero de bolsas"
)

#### Bolsas pelo número de dissertações

In [None]:
dados08_17.plot.scatter(x="Dissertacao", y="BolsasMestrado", edgecolor='k').set(
    xlabel="Numero de Dissertacões", 
    ylabel="Número de bolsas", 
    title="Número de Dissertacoes por Numero ano de bolsas",
)

#### Bolsas de doutorado pelo nível capes

In [None]:
dados08_17.plot.scatter(x="NotaCapesDoutorado", y="BolsasDoutorado", edgecolor='k').set(
    xlabel="Nota Capes", 
    ylabel="Número de bolsas", 
    title=" Bolsas de doutorado por nota Capes"
)

#### Bolsas de mestrado pelo nível capes

In [None]:
dados08_17.plot.scatter(x="NotaCapesMestrado", y="BolsasMestrado", edgecolor='k').set(
    xlabel="Nota Capes", 
    ylabel="Número de bolsas", 
    title=" Bolsas de mestrado por nota Capes",
)

## Gráficos: Producao

#### Tipos de producao por ano

In [None]:
producao = dados08_17.groupby("AnoBase",as_index=False).agg({
    "ProducoesArtisticas": 'sum',
    "ProducoesBibliograficas": 'sum',
    "ProducoesTecnicas": 'sum'
})

producao.plot.bar(x="AnoBase", edgecolor='k').set(xlabel="Anos", ylabel="Produção", title="Produtividade anual")


#### Produção pelo investimento total

In [None]:
y = (dados08_17["ProducoesArtisticas"] + dados08_17["ProducoesBibliograficas"] + dados08_17["ProducoesTecnicas"])
x = (dados08_17["ValorAnualBolsaMestrado"] + dados08_17["ValorAnualBolsaDoutorado"])
ano = dados08_17["AnoBase"]

data = {
    'AnoBase': ano,
    'Producao': x,
    'Investimento': y
}

result = pd.DataFrame(data= data)

result.plot.scatter(x="Producao", y="Investimento", edgecolor='k').set(
    ylabel="Producao anual", 
    xlabel="Investimento anual", 
    title="Produção pelo investimento total",
)


#### Produção pelo investimento total

In [None]:
x = (dados08_17["ProducoesArtisticas"] + dados08_17["ProducoesBibliograficas"] + dados08_17["ProducoesTecnicas"])/3
y = (dados08_17["NotaCapesMestrado"] + dados08_17["NotaCapesMestrado"])/2
ano = dados08_17["AnoBase"]

data = {
    'AnoBase': ano,
    'Producao': y,
    'Investimento': x
}

result = pd.DataFrame(data= data)

result.plot.scatter(x="Producao", y="Investimento", edgecolor='k').set(
    ylabel="Producao anual", 
    xlabel="Nota Capes", 
    title="Produção pelo investimento total",
)