# Descrição do Notebook
Este notebook tem por função:

- Realizar uma análise de consistência dos dados da FEBRACE
- Realizar as seguintes análises exploratórias
    - Análise da quantidade de projetos e premiações, por ano e categoria
    - Analise da quantidade de categorias e subcategorias, por ano
    - Análise da quantidade de projetos e premiaões, por UF
    - Análise da proporção de projetos e da população, por UF
    - Análise da proporção de projetos e prêmios por categoria

# Preparação do Dataframe

Import libraries

In [1]:
#data manipulation
import pandas as pd
import numpy as np
import seaborn as sns

## data viz
import seaborn as sns
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import plotly
import plotly.graph_objects as go
import plotly.express as px
plotly.offline.init_notebook_mode(connected=True)

Ajuste de linhas e colunas

In [2]:
#set max number of rows and columns
pd.options.display.max_columns = None
pd.options.display.max_rows = 70

Import datasets

In [3]:
#url path
url1 = 'https://raw.githubusercontent.com/andre-carneiro/PCS5787/main/Arquivos/premios.csv'
url2 = 'https://raw.githubusercontent.com/andre-carneiro/PCS5787/main/Arquivos/projetos.csv'
url3 = 'https://raw.githubusercontent.com/andre-carneiro/PCS5787/main/Arquivos/projetos_com_premios.csv'

#import dataset
df_prem = pd.read_csv(url1)
df_proj = pd.read_csv(url2)
df_proj_prem = pd.read_csv(url3)

#drop colunas indesejada
df_proj_prem.drop(['Unnamed: 0'], axis = 1, inplace = True)
df_proj.drop(['foto', "video", "poster"], axis = 1, inplace = True)

#adição coluna aux
df_proj_prem["tem_premio"] = df_proj_prem["qtd_premios"] >0

Criação do hashing (chave única)

In [4]:
#hashing
df_prem["hash"] = pd.util.hash_pandas_object(df_prem[["codigo projeto", "ano"]],
                                                   index=False, encoding="utf8")
df_proj["hash"] = pd.util.hash_pandas_object(df_proj[["codigo", "ano"]],
                                                   index=False, encoding="utf8")
df_proj_prem["hash"] = pd.util.hash_pandas_object(df_proj_prem[["codigo", "ano"]],
                                                   index=False, encoding="utf8")

Verificação dos datasets

In [5]:
#premios
df_prem

Unnamed: 0,premio,empresa,codigo projeto,tipo do premio,premio estudante 1,premio estudante 2,premio estudante 3,premio orientador,premio coorientador,premio escola,premio local de pesquisa,ano,hash
0,ASU Walton Sustainability Solution Initiatives,Arizona State University - Rob and Melani Walt...,HUM088,Projeto,0,0,0,0,0,0,0,2015,16580233724752982817
1,ASU Walton Sustainability Solution Initiatives,Arizona State University - Rob and Melani Walt...,AGR120,Projeto,0,0,0,0,0,0,0,2015,1482971311073618315
2,ASU Walton Sustainability Solution Initiatives,Arizona State University - Rob and Melani Walt...,HUM099,Projeto,0,0,0,0,0,0,0,2015,663621263540065278
3,Prêmio Marinha do Brasil -2o. Lugar em Mentali...,Centro de Coordenação de Estudos da Marinha em...,ENG072,Projeto,0,0,0,0,0,0,0,2015,15675054201398720615
4,Intel Excellence in Computer Science,Intel Excellence in Computer Science,EXA290,Projeto,0,0,0,0,0,0,0,2015,14987214550932579066
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1459,Prêmio Destaque Unidades da Federação - Rio de...,FEBRACE,SAU120,Projeto,0,0,0,0,0,0,0,2016,10665877240586278483
1460,Prêmio Destaque Unidades da Federação - Rio Gr...,FEBRACE,EXA262,Projeto,0,0,0,0,0,0,0,2016,6610158273954735260
1461,Prêmio Space Camp,Acrux Aerospace Technologies,ENG049,Projeto,0,0,0,0,0,0,0,2016,17877501136951391780
1462,Prêmio Intel Mulheres e Tecnologia,Intel do Brasil,EXA287,Participantes,0,1,0,0,0,0,0,2016,17721240818074921800


In [12]:
#projetos
df_proj

Unnamed: 0,titulo,estudantes,orientadores,escola,UF,municipio,resumo,palavras-chave,categoria,subcategoria,codigo,ano,hash
0,Encontro de cientistas,"Matheus Minari Matias, Mikaela Miguel dos Santos",Victor Seiji Fujiwara,Colégio Alexandra,SP,SAO PAULO,A alfabetização científica é um tema muito imp...,"alfabetização científica, ciências, didática",HUM,608 Educação,HUM174,2016,7947670427794332256
1,"Leite adulterado, como identificá-lo na sua casa?","Amanda Pavão Matana, Marcos Vinicius Pandolfo,...","Leila Augusta Friedrich, Amanda Lucia Debuss",Centro de Excelência em Educação,PR,PALOTINA,Nos últimos tempos vem-se relatando vários cas...,"Leite, Adulteração , Indicadores Naturais",EXA,107 Química,EXA259,2016,7476427122702185966
2,Epifania fronteiriça: possíveis diálogos entre...,"Juliana Arevalos Bordão, Gabriela Camargo Pacher","Fabrícia Carla Viviani, Eli Gomes Castanho","Instituto Federal de Educação, Ciência e Tecno...",MS,PONTA PORA,A presente pesquisa é fruto de um projeto inti...,"Ditadura militar brasileira (1964 - 1985), Dit...",HUM,605 História,HUM148,2016,12551047568152180559
3,Preconceitos camuflados nas falas dos humoristas,"Maria Laura do Nascimento, Fernanda Gomes Coel...",Marlise Maurente Machado,COLÉGIO DRUMMOND,SP,LORENA,Diante da atual polêmica acerca do papel e dos...,"LIMITE, PAPEL, HUMOR",HUM,601 Filosofia,HUM143,2016,3851247535722774686
4,Explorando as áreas das figuras geométricas pl...,"Barbara da Costa Amoras, Diovana de Sousa da S...",Iris Maciel Pantoja,EE RUTH DE ALMEIDA BEZERRA,AP,MACAPA,O processo educacional se constrói por meio de...,"Ensino de matemática, Figuras geométricas Plan...",EXA,101 Matemática,EXA238,2016,11716384191306140236
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1724,TAAPETE: tecnologia assistiva acessível para p...,Álvaro da Silva Couto Vasques,"Leandro Silva Teixeira, Gustavo de Araujo Sabry",IF Baiano - Campus Valença,BA,VALENCA,O mundo moderno vive em uma constante evolução...,"Tecnologia assistiva, Inclusão social, Limitaç...",EXA,104 Ciência da Computação,EXA233,2020,9587773614106999073
1725,O uso da pimenta dedo-de-moça no cultivo de ho...,"Ana Cláudia Santos Piñeiro, Amanda De Lorenzi ...","Ana Helena Matias Saturnino, Flávia Santos Twa...",Escola Estadual de Ensino Fundamental General ...,RS,OSORIO,A agricultura familiar é uma das principais fo...,"Alface, Pimenta Dedo-de-Moça, Extrato",AGR,401 Agronomia,AGR190,2020,13799712817327432275
1726,Macadubo: plantio sustentável de café consorci...,"THIAGO SOUZA DE OLIVEIRA, MELISSA LOPES SCHMID...",PAULO ROBERTO DA COSTA LEMOS,E.E. Ângelo Scarabucci,SP,FRANCA,O setor agropecuário brasileiro tem nível de p...,"Macaúba (Acrocomia aculeata), Adubação Orgânic...",AGR,401 Agronomia,AGR189,2020,15762545616606299643
1727,Produção de biomoléculas bacterianas por ferme...,"Maria Vitória de Miranda Rodrigues, Milena Car...","Danielle Hiromi Nakagawa, Juliana Guerra de Ol...",IFPR - Campus Jaguariaíva,PR,JAGUARIAIVA,Na última década houve um aumento na produção ...,"Biossurfactantes, Biodesemulsificantes, Resídu...",BIO,212 Microbiologia,BIO156,2020,11713075001306808506


In [13]:
#projetos e premios
df_proj_prem

Unnamed: 0,titulo,estudantes,orientadores,escola,UF,municipio,resumo,palavras-chave,categoria,subcategoria,codigo,ano,qtd_premios,tem_premio,hash
0,Encontro de cientistas,"Matheus Minari Matias, Mikaela Miguel dos Santos",Victor Seiji Fujiwara,Colégio Alexandra,SP,SAO PAULO,A alfabetização científica é um tema muito imp...,"alfabetização científica, ciências, didática",HUM,608 Educação,HUM174,2016,0,False,7947670427794332256
1,"Leite adulterado, como identificá-lo na sua casa?","Amanda Pavão Matana, Marcos Vinicius Pandolfo,...","Leila Augusta Friedrich, Amanda Lucia Debuss",Centro de Excelência em Educação,PR,PALOTINA,Nos últimos tempos vem-se relatando vários cas...,"Leite, Adulteração , Indicadores Naturais",EXA,107 Química,EXA259,2016,0,False,7476427122702185966
2,Epifania fronteiriça: possíveis diálogos entre...,"Juliana Arevalos Bordão, Gabriela Camargo Pacher","Fabrícia Carla Viviani, Eli Gomes Castanho","Instituto Federal de Educação, Ciência e Tecno...",MS,PONTA PORA,A presente pesquisa é fruto de um projeto inti...,"Ditadura militar brasileira (1964 - 1985), Dit...",HUM,605 História,HUM148,2016,1,True,12551047568152180559
3,Preconceitos camuflados nas falas dos humoristas,"Maria Laura do Nascimento, Fernanda Gomes Coel...",Marlise Maurente Machado,COLÉGIO DRUMMOND,SP,LORENA,Diante da atual polêmica acerca do papel e dos...,"LIMITE, PAPEL, HUMOR",HUM,601 Filosofia,HUM143,2016,1,True,3851247535722774686
4,Explorando as áreas das figuras geométricas pl...,"Barbara da Costa Amoras, Diovana de Sousa da S...",Iris Maciel Pantoja,EE RUTH DE ALMEIDA BEZERRA,AP,MACAPA,O processo educacional se constrói por meio de...,"Ensino de matemática, Figuras geométricas Plan...",EXA,101 Matemática,EXA238,2016,0,False,11716384191306140236
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1724,TAAPETE: tecnologia assistiva acessível para p...,Álvaro da Silva Couto Vasques,"Leandro Silva Teixeira, Gustavo de Araujo Sabry",IF Baiano - Campus Valença,BA,VALENCA,O mundo moderno vive em uma constante evolução...,"Tecnologia assistiva, Inclusão social, Limitaç...",EXA,104 Ciência da Computação,EXA233,2020,3,True,9587773614106999073
1725,O uso da pimenta dedo-de-moça no cultivo de ho...,"Ana Cláudia Santos Piñeiro, Amanda De Lorenzi ...","Ana Helena Matias Saturnino, Flávia Santos Twa...",Escola Estadual de Ensino Fundamental General ...,RS,OSORIO,A agricultura familiar é uma das principais fo...,"Alface, Pimenta Dedo-de-Moça, Extrato",AGR,401 Agronomia,AGR190,2020,1,True,13799712817327432275
1726,Macadubo: plantio sustentável de café consorci...,"THIAGO SOUZA DE OLIVEIRA, MELISSA LOPES SCHMID...",PAULO ROBERTO DA COSTA LEMOS,E.E. Ângelo Scarabucci,SP,FRANCA,O setor agropecuário brasileiro tem nível de p...,"Macaúba (Acrocomia aculeata), Adubação Orgânic...",AGR,401 Agronomia,AGR189,2020,0,False,15762545616606299643
1727,Produção de biomoléculas bacterianas por ferme...,"Maria Vitória de Miranda Rodrigues, Milena Car...","Danielle Hiromi Nakagawa, Juliana Guerra de Ol...",IFPR - Campus Jaguariaíva,PR,JAGUARIAIVA,Na última década houve um aumento na produção ...,"Biossurfactantes, Biodesemulsificantes, Resídu...",BIO,212 Microbiologia,BIO156,2020,0,False,11713075001306808506


Import informações das UFs

In [60]:
path = r'C:\Users\AndreCarneiro\Desktop\[USP] Acadêmico\Ciência dos Dados\3. Projeto\uf_pop.xlsx'
uf = pd.read_excel(path)
uf

Unnamed: 0,unidade_federativa,UF,pop,regiao
0,Rondônia,RO,1815278,Norte
1,Acre,AC,906876,Norte
2,Amazonas,AM,4269995,Norte
3,Roraima,RR,652713,Norte
4,Pará,PA,8777124,Norte
5,Amapá,AP,877613,Norte
6,Tocantins,TO,1607363,Norte
7,Maranhão,MA,7153262,Nordeste
8,Piauí,PI,3289290,Nordeste
9,Ceará,CE,9240580,Nordeste


# Análise de consistência dos dados

## Análise da tipologia

Dataframe de projetos

In [17]:
df_proj.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1729 entries, 0 to 1728
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   titulo          1729 non-null   object
 1   estudantes      1729 non-null   object
 2   orientadores    1729 non-null   object
 3   escola          1729 non-null   object
 4   UF              1729 non-null   object
 5   municipio       1729 non-null   object
 6   resumo          1729 non-null   object
 7   palavras-chave  1729 non-null   object
 8   categoria       1729 non-null   object
 9   subcategoria    1729 non-null   object
 10  codigo          1729 non-null   object
 11  ano             1729 non-null   int64 
 12  hash            1729 non-null   uint64
dtypes: int64(1), object(11), uint64(1)
memory usage: 175.7+ KB


Dataframe de prêmios

In [18]:
df_prem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1464 entries, 0 to 1463
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   premio                    1464 non-null   object
 1   empresa                   1464 non-null   object
 2   codigo projeto            1464 non-null   object
 3   tipo do premio            1464 non-null   object
 4   premio estudante 1        1464 non-null   int64 
 5   premio estudante 2        1464 non-null   int64 
 6   premio estudante 3        1464 non-null   int64 
 7   premio orientador         1464 non-null   int64 
 8   premio coorientador       1464 non-null   int64 
 9   premio escola             1464 non-null   int64 
 10  premio local de pesquisa  1464 non-null   int64 
 11  ano                       1464 non-null   int64 
 12  hash                      1464 non-null   uint64
dtypes: int64(8), object(4), uint64(1)
memory usage: 148.8+ KB


Tipologia está correta

## Análise de valores nulos

Dataframe de projetos

In [19]:
df_proj.isin([0]).sum()

titulo            0
estudantes        0
orientadores      0
escola            0
UF                0
municipio         0
resumo            0
palavras-chave    0
categoria         0
subcategoria      0
codigo            0
ano               0
hash              0
dtype: int64

Dataframe de prêmios

In [20]:
df_prem.isin([0]).sum()

premio                         0
empresa                        0
codigo projeto                 0
tipo do premio                 0
premio estudante 1          1444
premio estudante 2          1455
premio estudante 3          1460
premio orientador           1372
premio coorientador         1463
premio escola               1464
premio local de pesquisa    1464
ano                            0
hash                           0
dtype: int64

In [61]:
df_prem.isin([0]).mean()

premio                      0.000000
empresa                     0.000000
codigo projeto              0.000000
tipo do premio              0.000000
premio estudante 1          0.986339
premio estudante 2          0.993852
premio estudante 3          0.997268
premio orientador           0.937158
premio coorientador         0.999317
premio escola               1.000000
premio local de pesquisa    1.000000
ano                         0.000000
hash                        0.000000
dtype: float64

Os valores nulos são encontrados apenas nas colunas esperadas, de valores binários. Não existem premios para escola nem local de pesquisa

## Análise de valores ausentes

Dataframe de projetos

In [21]:
df_proj.isna().sum()

titulo            0
estudantes        0
orientadores      0
escola            0
UF                0
municipio         0
resumo            0
palavras-chave    0
categoria         0
subcategoria      0
codigo            0
ano               0
hash              0
dtype: int64

Dataframe de prêmios

In [22]:
df_prem.isna().sum()

premio                      0
empresa                     0
codigo projeto              0
tipo do premio              0
premio estudante 1          0
premio estudante 2          0
premio estudante 3          0
premio orientador           0
premio coorientador         0
premio escola               0
premio local de pesquisa    0
ano                         0
hash                        0
dtype: int64

Não existem valoes ausentes no dataframe

## Análise de dados duplicados 

Dataframe de premios

In [23]:
df_prem["hash"].value_counts()

17868850594435246779    9
15025528760736909711    8
14838598545391479097    8
4097150056744540478     7
14854023866383566528    7
                       ..
1608531580940096205     1
1544690225938979304     1
655641955251275518      1
7040363324458149825     1
12348136205284388507    1
Name: hash, Length: 715, dtype: int64

Projeto com maior quantidade de prêmios

In [24]:
df_prem[df_prem["hash"] == 17868850594435246779]

Unnamed: 0,premio,empresa,codigo projeto,tipo do premio,premio estudante 1,premio estudante 2,premio estudante 3,premio orientador,premio coorientador,premio escola,premio local de pesquisa,ano,hash
211,Society for Science & the Public Award for Com...,Society for Science & the Public,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
248,ASU Walton Sustainability Solution Initiatives,Arizona State University - Rob and Melani Walt...,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
259,Prêmio Centro Estadual de Educação Tecnológica...,Centro Paula Souza,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
273,Prêmio ABRIC de excelência em iniciação cientí...,Associação Brasileira de Incentivo à Ciência -...,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
275,Prêmio Revista ECO 21,Revista ECO 21,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
279,Prêmio Nave à Vela de Inovação,Nave à Vela,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
339,Prêmio Destaque Unidades da Federação - Pará,FEBRACE,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
411,1o. Lugar em Ciências Sociais Aplicadas,FEBRACE,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779
422,Prêmio FEROCIT,FEROCIT - Ferocit. Feira de Rondônia de Cientí...,SOC110,Projeto,0,0,0,0,0,0,0,2018,17868850594435246779


Os valores "duplicados" obtidos pela chave única são referentes à quantidade de premios recebidos, dado que a chave única é composta pelo ano e pelo código do projeto

Dataframe de projetos

In [25]:
df_proj["hash"].value_counts()

7947670427794332256     1
3921639381186713713     1
11974572982187223789    1
17273279527221109684    1
12943100038073925237    1
                       ..
12398822307115963625    1
6067624477070450362     1
6434010423980004145     1
8569278486800323163     1
18355898103651409243    1
Name: hash, Length: 1729, dtype: int64

Não existem valores duplicados pro dataframe de projetos

## Conclusão da consistência 

Os dados estão consistentes em termos de tipologia, ausência e valores nulos e valores duplicados, e já podem ser utilizados para análise exploratória

# Análise Exploratória dos Dados

## Resumo Estatístico

### Variáveis Categóricas

In [26]:
#describe method
df_proj.describe(include = object)

Unnamed: 0,titulo,estudantes,orientadores,escola,UF,municipio,resumo,palavras-chave,categoria,subcategoria,codigo
count,1729,1729,1729,1729,1729,1729,1729,1729,1729,1729,1729
unique,1723,1689,1509,891,27,385,1729,1724,7,67,915
top,Presença de fibras têxteis sintéticas em águas...,João Americo Macori Barboza,Ednilson Aparecido Quarenta,Fundação Escola Técnica Liberato Salzano Vieir...,SP,SAO PAULO,A alfabetização científica é um tema muito imp...,"Reúso, água, sistema",ENG,701 Eletrônica,ENG010
freq,2,4,10,28,462,166,1,2,443,170,6


**Conclusão:**
- Alguns projetos aparentam ter repetido ao longo dos anos (mesmo título), assim como estudantes
- Orientadores podem participar de mais de um projeto
- 891 escolas participaram, algumas com frequência maior
- São Paulo é a UF com maior participação, bem como o município de São Paulo
- Existem 7 categorias e 67 subcategorias

### Variáveis numéricas

In [27]:
#describe method
df_proj_prem[["ano","qtd_premios"]].describe(include = np.number)

Unnamed: 0,ano,qtd_premios
count,1729.0,1729.0
mean,2017.62059,0.846732
std,1.730565,1.329505
min,2015.0,0.0
25%,2016.0,0.0
50%,2018.0,0.0
75%,2019.0,1.0
max,2020.0,9.0


In [28]:
#describe method
df_proj_prem["qtd_premios"].value_counts(normalize = False)

0    1014
1     346
2     165
3      98
4      61
5      30
6       9
7       3
8       2
9       1
Name: qtd_premios, dtype: int64

**Conclusão**:
- Média de premiações é de 84.7%
- Cerca de 60% dos projetos não recebem premiações, enquanto 20% recebem 1 premio e 10% recebem 2 prêmios

Quantidada de prêmios da feira

In [30]:
df_proj_prem["qtd_premios"].sum()

1464

Quantidade de projetos premiados

In [31]:
df_proj_prem["tem_premio"].sum()

715

Gráfico de distribuição de prêmios

In [32]:
fig = px.histogram(df_proj_prem, 
                   x="qtd_premios", 
#                    title = "Distribuição de prêmios por projeto",
                   template = "plotly_white",
#                   value = "count"
                  )

fig.update_layout(
    bargap=0.2,
    yaxis_title="Contagem",
    xaxis_title = "Quantidade de prêmios")

fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                nticks = 15,
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))

# fig.update_traces(textsrc='inside')

# fig.update_xaxes(
#         tickangle = 90,
#         title_text = "Month",
#         title_font = {"size": 20},
#         title_standoff = 25)

fig.show()

## Análise da quantidade de projetos e premiações por ano e categoria

### Projetos e premiações por ano

#### Série Temporal da quantidade de projetos, premios e projetos premiados

Criação do df

In [33]:
#df auxiliar
df_proj_ano = df_proj_prem[["ano","qtd_premios","tem_premio"]].\
              groupby("ano").\
              agg({"ano": "count", 
                   "qtd_premios": sum, 
                   "tem_premio":[sum,"mean"]})
df_proj_ano

#reset multilevel column
df_proj_ano.columns = df_proj_ano.columns.droplevel()

#rename column
df_proj_ano.columns = ["qtd_projetos", "qtd_premios", "proj_premiados" ,"media_premios"]

#reset index
df_proj_ano.reset_index(inplace = True)

#print df
df_proj_ano.rename({"qtd_projetos": "Quantidade de Projetos",
                   "qtd_premios": "Quantidade de Prêmios",
                   "proj_premiados": "Projetos Premiados"}, axis = 1, inplace = True)
df_proj_ano

Unnamed: 0,ano,Quantidade de Projetos,Quantidade de Prêmios,Projetos Premiados,media_premios
0,2015,266,211,108,0.406015
1,2016,270,248,122,0.451852
2,2017,289,260,131,0.453287
3,2018,278,251,113,0.406475
4,2019,281,279,111,0.395018
5,2020,345,215,130,0.376812


Plot série temporal

In [78]:
fig = px.line(df_proj_ano[["Quantidade de Projetos", "Quantidade de Prêmios", "Projetos Premiados","ano"]],
               x='ano', 
               y=df_proj_ano[["Quantidade de Projetos", "Quantidade de Prêmios", "Projetos Premiados","ano"]].columns,
#               title='Série temporal do comportamento dos projetos',
#              text = "value",
               template = "plotly_white",
               labels= dict(value = "Quantidade Total", 
                           ano = "Ano", 
                           variable = "Variáveis"))



fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))


fig.update_layout(
    legend=dict(
#         x=0,
#         y=1,
#         traceorder="reversed",
        title_font_family="Times New Roman",
        font=dict(
            family="Times New Roman",
            size=18,
            color="black"
        ),
#         bgcolor="LightSteelBlue",
#         bordercolor="Black",
#         borderwidth=2
    )
)


fig.update_layout(legend=dict(
    orientation="h",
    yanchor="bottom",
    y=-0.3,
    xanchor="right",
    x=1
))
#traces
# fig.update_traces(textposition="top center")


fig.show()

**Conclusão:**
- A quantidade de projetos se manteve constante até 2019, quando teve um salto
- A quantidade de prêmios teve um aumento e diminuição, estabelecendo-se em período próximo ao do início da análise
- A quantidade de projetos premiados se manteve relativamente constante
- O aumento da quantidade de projetos e diminuição da quantidade de premios diminuiu a média de projetos premiados

### Projetos e premiações por ano e categoria

#### Criação dos dataframes

df de quantidade de projetos, premio e quantidade de projetos premiados

In [35]:
df_proj_prem_cat_ano = df_proj_prem[["ano","categoria","hash","tem_premio","qtd_premios"]].\
            groupby(["ano", "categoria"], as_index = False).\
            agg({"hash": "count",
                 "tem_premio": "sum",
                 "qtd_premios": "sum"}).\
            rename({"hash": "qtd_projetos"}, 
                   axis = 1)
df_proj_prem_cat_ano

Unnamed: 0,ano,categoria,qtd_projetos,tem_premio,qtd_premios
0,2015,AGR,30,12,27
1,2015,BIO,40,20,41
2,2015,ENG,72,27,56
3,2015,EXA,48,22,39
4,2015,HUM,31,13,24
5,2015,SAU,28,7,13
6,2015,SOC,17,7,11
7,2016,AGR,16,7,13
8,2016,BIO,42,19,33
9,2016,ENG,73,36,83


df de quantidade de projetos por categoria

In [36]:
#qtd_projetos
df_proj_prem_cat_ano1 = pd.pivot_table(data = df_proj_prem_cat_ano,
                                      columns = "categoria",
                                      values = "qtd_projetos",
                                      index = "ano")

df_proj_prem_cat_ano_norm1 = df_proj_prem_cat_ano1.div(df_proj_prem_cat_ano1.sum(axis=1),axis=0).\
                             reset_index().rename_axis(None, axis = 1)
df_proj_prem_cat_ano_norm1

Unnamed: 0,ano,AGR,BIO,ENG,EXA,HUM,SAU,SOC
0,2015,0.112782,0.150376,0.270677,0.180451,0.116541,0.105263,0.06391
1,2016,0.059259,0.155556,0.27037,0.192593,0.166667,0.107407,0.048148
2,2017,0.069204,0.15917,0.276817,0.204152,0.124567,0.079585,0.086505
3,2018,0.07554,0.158273,0.269784,0.172662,0.140288,0.097122,0.086331
4,2019,0.124555,0.153025,0.231317,0.177936,0.16726,0.085409,0.060498
5,2020,0.115942,0.150725,0.226087,0.168116,0.171014,0.101449,0.066667


df de quantidade de projetos premiados

In [37]:
#qtd_projetos
df_proj_prem_cat_ano2 = pd.pivot_table(data = df_proj_prem_cat_ano,
                                      columns = "categoria",
                                      values = "tem_premio",
                                      index = "ano")

df_proj_prem_cat_ano_norm2 = df_proj_prem_cat_ano2.div(df_proj_prem_cat_ano2.sum(axis=1),axis=0).\
                             reset_index().rename_axis(None, axis = 1)
df_proj_prem_cat_ano_norm2

Unnamed: 0,ano,AGR,BIO,ENG,EXA,HUM,SAU,SOC
0,2015,0.111111,0.185185,0.25,0.203704,0.12037,0.064815,0.064815
1,2016,0.057377,0.155738,0.295082,0.188525,0.147541,0.098361,0.057377
2,2017,0.083969,0.183206,0.251908,0.183206,0.114504,0.091603,0.091603
3,2018,0.070796,0.150442,0.300885,0.168142,0.159292,0.070796,0.079646
4,2019,0.108108,0.135135,0.342342,0.171171,0.099099,0.054054,0.09009
5,2020,0.130769,0.161538,0.230769,0.169231,0.146154,0.1,0.061538


df da quantidade de prêmios

In [38]:
#qtd_projetos
df_proj_prem_cat_ano3 = pd.pivot_table(data = df_proj_prem_cat_ano,
                                      columns = "categoria",
                                      values = "qtd_premios",
                                      index = "ano")

df_proj_prem_cat_ano_norm3 = df_proj_prem_cat_ano3.div(df_proj_prem_cat_ano3.sum(axis=1),axis=0).\
                             reset_index().rename_axis(None, axis = 1)
df_proj_prem_cat_ano_norm3

Unnamed: 0,ano,AGR,BIO,ENG,EXA,HUM,SAU,SOC
0,2015,0.127962,0.194313,0.265403,0.184834,0.113744,0.061611,0.052133
1,2016,0.052419,0.133065,0.334677,0.189516,0.141129,0.092742,0.056452
2,2017,0.080769,0.142308,0.326923,0.176923,0.092308,0.088462,0.092308
3,2018,0.063745,0.171315,0.290837,0.163347,0.12749,0.079681,0.103586
4,2019,0.100358,0.168459,0.308244,0.179211,0.09319,0.078853,0.071685
5,2020,0.111628,0.181395,0.232558,0.15814,0.12093,0.111628,0.083721


#### Quantidade de projetos por ano e por categoria

Análise absoluta

In [39]:
fig = px.line(df_proj_prem_cat_ano, 
              x='ano', 
              y="qtd_projetos",
              color = "categoria",
#               title='Quantidade de projetos por ano e por categoria',
#              text = "qtd_projetos",
             template = "plotly_white",
             labels= dict(categoria = "Categoria", 
                         qtd_projetos = "Quantidade de Projetos", 
                         ano = "Ano")
             )

#traces
fig.update_traces(textposition="top center")



fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))


fig.update_layout(
    legend=dict(
#         x=0,
#         y=1,
#         traceorder="reversed",
        title_font_family="Times New Roman",
        font=dict(
            family="Times New Roman",
            size=20,
            color="black"
        ),
#         bgcolor="LightSteelBlue",
#         bordercolor="Black",
#         borderwidth=2
    )
)

fig.show()

Análise relativa

In [40]:
fig = px.bar(df_proj_prem_cat_ano_norm1, 
             x="ano",
             y=['AGR', 'BIO', 'ENG', 'EXA', 'HUM', 'SAU', 'SOC'],
#              title="Proporção da quantidade de projetos por ano e por categoria",
#              cetegory_orders = {}
             text = "value",
             template = "plotly_white",
                            labels= dict(value = "Porcentagem", 
                           ano = "Ano", 
                           variable = "Variáveis"))
            

fig.update_traces(texttemplate='%{text:.2f}')

fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))


fig.update_layout(
    legend=dict(
#         x=0,
#         y=1,
#         traceorder="reversed",
        title_font_family="Times New Roman",
        font=dict(
            family="Times New Roman",
            size=20,
            color="black"
        ),
#         bgcolor="LightSteelBlue",
#         bordercolor="Black",
#         borderwidth=2
    )
)

fig.show()

- Maiores concentrações de projetos submetidos de engenharia, exatas, bio e humanas
- Houve aumento absoluto na quantidade de projetos de agro e de humanas, e aumento relativo no de humanas
- Engenharia diminuiu sua proporção, apesardo aumento da quantidade de projetos, o que pode indicar uma diversificação dos tipos de projetos submetidos

#### Quantidade de projetos premiados por ano e por categoria

Análise absoluta

In [41]:
fig = px.line(df_proj_prem_cat_ano, 
              x='ano', 
              y="tem_premio",
              color = "categoria",
              title='Quantidade de projetos premiados por ano e por categoria',
             text = "tem_premio")

#traces
fig.update_traces(textposition="top center")

fig.show()

Análise relativa

In [42]:
fig = px.bar(df_proj_prem_cat_ano_norm2, 
             x="ano",
             y=['AGR', 'BIO', 'ENG', 'EXA', 'HUM', 'SAU', 'SOC'],
             title="Proporção da quantidade de projetos premiados por ano e por categoria",
             text = "value"
            )

fig.update_traces(texttemplate='%{text:.2f}')

fig.show()

- Apesar das oscilações, a quantidade de projetos premiados por categoria não apresentou tendências claras de aumento ou de diminuição

#### Quantidade de premios por ano e por categoria

Análise absoluta

In [43]:
fig = px.line(df_proj_prem_cat_ano, 
              x='ano', 
              y="qtd_premios",
              color = "categoria",
              title='Quantidade de prêmios por ano e por categoria',
             text = "qtd_premios")

#traces
fig.update_traces(textposition="top center")

fig.show()

Análise relativa

In [44]:
fig = px.bar(df_proj_prem_cat_ano_norm3, 
             x="ano",
             y=['AGR', 'BIO', 'ENG', 'EXA', 'HUM', 'SAU', 'SOC'],
             title="Proporção da quantidade de prêmios por ano e por categoria",
             text = "value"
            )

fig.update_traces(texttemplate='%{text:.2f}')

fig.show()

- Como no último ano houve diminuição da quantidade de projetos premiados, ocorreu também uma queda proporcional
- Antes da diminuição, todas as categorias obtiveram aumento de quantidade de prêmios

## Exemplo de Análise por ano, categoria e subcategoria

Criação dos dataframes

In [45]:
#df auxiliar
df_proj_cat_sub = df_proj_prem[["ano","categoria", "subcategoria","qtd_premios","tem_premio"]].\
              groupby(["ano","categoria", "subcategoria"]).\
              agg({"categoria": "count",
                   "tem_premio":sum,
                   "qtd_premios": sum})

#reset multilevel column
# df_proj_cat_sub.columns = df_proj_cat_sub.columns.droplevel()

#rename column
df_proj_cat_sub.columns = ["qtd_projetos", "qtd_proj_premiados", "qtd_premios"]

#reset index
df_proj_cat_sub.reset_index(inplace = True)

#print df
df_proj_cat_sub

Unnamed: 0,ano,categoria,subcategoria,qtd_projetos,qtd_proj_premiados,qtd_premios
0,2015,AGR,401 Agronomia,10,3,4
1,2015,AGR,402 Recursos Florestais e Engenharia Florestal,1,0,0
2,2015,AGR,403 Engenharia Agrícola,6,4,12
3,2015,AGR,406 Recursos Pesqueiros e Engenharia de Pesca,1,0,0
4,2015,AGR,407 Ciência e Tecnologia de Alimentos,12,5,11
...,...,...,...,...,...,...
305,2020,SOC,505 Planejamento Urbano e Regional,5,4,11
306,2020,SOC,509 Comunicação,4,1,1
307,2020,SOC,510 Serviço Social,7,1,3
308,2020,SOC,511 Economia Domestica,3,1,2


Série temporal da quantidade de projetos

In [46]:
fig = px.line(df_proj_cat_sub[df_proj_cat_sub["categoria"] == "EXA"], 
              x='ano', 
              y="qtd_projetos",
              title='Série temporal da quantidade de projetos',
              color = "subcategoria",
              text = "qtd_projetos"
             )

#traces
fig.update_traces(textposition="top center")

fig.show()

Série temporal da quantidade de premios

In [47]:
fig = px.line(df_proj_cat_sub[df_proj_cat_sub["categoria"] == "EXA"], 
              x='ano', 
              y="qtd_premios",
              title='Série temporal da quantidade de premios',
              color = "subcategoria",
             text = "qtd_premios"
             )

#traces
fig.update_traces(textposition="top center")

fig.show()

Série temporal da quantidade de projetos premiados

In [48]:
fig = px.line(df_proj_cat_sub[df_proj_cat_sub["categoria"] == "EXA"], 
              x='ano', 
              y="qtd_proj_premiados",
              title='Série temporal da quantidade de projetos premiados',
              color = "subcategoria",
             text = "qtd_proj_premiados"
             )

#traces
fig.update_traces(textposition="top center")

fig.show()

Dataframe geral para todas as categorias e subcategorias

In [49]:
#df auxiliar
df_proj_cat_sub = df_proj_prem[["categoria", "subcategoria","qtd_premios","tem_premio"]].\
              groupby(["categoria", "subcategoria"]).\
              agg({"categoria": "count",
                   "tem_premio":[sum,"mean"],
                   "qtd_premios": [sum, "mean"]})

#reset multilevel column
df_proj_cat_sub.columns = df_proj_cat_sub.columns.droplevel()

#rename column
df_proj_cat_sub.columns = ["qtd_projetos", "qtd_proj_premiados", "media_proj_premiados", "qtd_premios", "media_premios_por_proj"]

#reset index
df_proj_cat_sub.reset_index(inplace = True)

#print df
df_proj_cat_sub

Unnamed: 0,categoria,subcategoria,qtd_projetos,qtd_proj_premiados,media_proj_premiados,qtd_premios,media_premios_por_proj
0,AGR,401 Agronomia,59,22,0.372881,29,0.491525
1,AGR,402 Recursos Florestais e Engenharia Florestal,12,7,0.583333,14,1.166667
2,AGR,403 Engenharia Agrícola,31,17,0.548387,40,1.290323
3,AGR,404 Zootecnia,6,0,0.0,0,0.0
4,AGR,405 Medicina Veterinária,4,1,0.25,3,0.75
5,AGR,406 Recursos Pesqueiros e Engenharia de Pesca,4,1,0.25,1,0.25
6,AGR,407 Ciência e Tecnologia de Alimentos,46,19,0.413043,42,0.913043
7,BIO,201 Biologia Geral,50,23,0.46,43,0.86
8,BIO,202 Genética,4,2,0.5,5,1.25
9,BIO,203 Botânica,26,12,0.461538,26,1.0


## Análise da quantidade de projetos e premiações por ano e UF

### Análise de projetos e premiações totais por UF

Criação do dataframe 

In [50]:
#df auxiliar
df_proj_uf = df_proj_prem[["UF","qtd_premios","tem_premio"]].\
              groupby("UF").\
              agg({"UF": "count",
                   "tem_premio":[sum,"mean"],
                   "qtd_premios": [sum, "mean"]})

#reset multilevel column
df_proj_uf.columns = df_proj_uf.columns.droplevel()

#rename column
df_proj_uf.columns = ["qtd_projetos", "qtd_proj_premiados", "media_proj_premiados", "qtd_premios", "media_premios_por_proj"]

#reset index
df_proj_uf.reset_index(inplace = True)

#print df
df_proj_uf

Unnamed: 0,UF,qtd_projetos,qtd_proj_premiados,media_proj_premiados,qtd_premios,media_premios_por_proj
0,AC,5,5,1.0,7,1.4
1,AL,32,12,0.375,18,0.5625
2,AM,24,12,0.5,26,1.083333
3,AP,22,11,0.5,21,0.954545
4,BA,104,33,0.317308,72,0.692308
5,CE,66,28,0.424242,76,1.151515
6,DF,14,6,0.428571,10,0.714286
7,ES,12,5,0.416667,8,0.666667
8,GO,17,6,0.352941,17,1.0
9,MA,33,16,0.484848,36,1.090909


Quantidade de projetos, projetos premiados e premiações, por UF

In [51]:
fig = px.line(df_proj_uf[["qtd_projetos", "qtd_premios", "qtd_proj_premiados","UF"]], 
              x='UF', 
              y=df_proj_uf[["qtd_projetos", "qtd_premios", "qtd_proj_premiados","UF"]].columns,
              title='Quantidade de projetos, projetos premiados e premiações, por UF',
#              text = "value"
                           template = "plotly_white"
             )

#traces
fig.update_traces(textposition="top center")

fig.show()

Média de projetos premiados e prêmios por projeto, por UF

In [52]:
fig = px.line(df_proj_uf[["media_proj_premiados", "media_premios_por_proj","UF"]], 
              x='UF', 
              y=df_proj_uf[["media_proj_premiados", "media_premios_por_proj","UF"]].columns,
              title='Média de projetos premiados e prêmios por projeto, por UF',
              template = "plotly_white",
             text = "value"
             )

#traces
fig.update_traces(textposition="top center")
fig.update_traces(texttemplate='%{text:.2f}')

fig.add_hline(y=1,
              line_dash="dot",
              line_width=1,
              annotation_text="100%", 
              annotation_position="top right")

fig.show()

Entender o comportamento de algumas UFs ao longo do tempo
- Quais?
    - Mais representativas: SP, RS MG, PR, MS
    - Maiores médias de prêmios por projeto: SE, RO, PI, MT, AC
    - Maiores médias de projetos premiados: SE, MT, AC

## Análise da proporção de projetos e da população, por UF

Criação do df

In [53]:
#dataframe de UF e proporção de projetos
df_uf_aux = df_proj_prem[["UF", "municipio"]].\
              groupby("UF").\
              agg("count")\
            .merge(uf[["UF", "pop"]], 
                   on = "UF", 
                   how = "left", 
                   copy = True)\
            .set_index("UF")\
            .rename({"municipio": "% Projetos",
                    "pop": "% População"}, axis = 1)\

df_uf = df_uf_aux.div(df_uf_aux.sum(axis = 0), axis = 1).reset_index().rename_axis(None, axis = 1)

df_uf["% Projetos"] = round(df_uf["% Projetos"]*100,2)
df_uf["% População"] = round(df_uf["% População"]*100,2)

df_uf

Unnamed: 0,UF,% Projetos,% População
0,AC,0.29,0.43
1,AL,1.85,1.58
2,AM,1.39,2.0
3,AP,1.27,0.41
4,BA,6.02,7.02
5,CE,3.82,4.33
6,DF,0.81,1.45
7,ES,0.69,1.93
8,GO,0.98,3.38
9,MA,1.91,3.35


Plot do gráfico de barras

In [54]:
fig = px.bar(df_uf, 
             x="UF", 
             y=["% Projetos","% População"],
             template = "plotly_white",
             barmode='group',
             title = "Porcentagem de Projetos e da População",
#             text = "value"
            )

fig.update_layout(
    yaxis_title="Porcentagem")

    
fig.show()

Plot do gráfico da difereça

In [80]:
df_uf ["Porc. Proj - Porc. Pop"] = df_uf["% Projetos"] - df_uf["% População"]
fig = px.bar(df_uf, x="UF", 
             y=["Porc. Proj - Porc. Pop"],
             template = "plotly_white",
             barmode='group',
#              title = "Diferença População - Projetos",
#             text = "value"
            labels = dict(variable= "Variável"))

fig.update_layout(
    yaxis_title="Porcentagem")
# fig.update_traces(texttemplate='%{text:.1f}')

fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))


fig.update_layout(
    legend=dict(
#         x=0,
#         y=1,
#         traceorder="reversed",
        title_font_family="Times New Roman",
        font=dict(
            family="Times New Roman",
            size=20,
            color="black"
        ),
#         bgcolor="LightSteelBlue",
#         bordercolor="Black",
#         borderwidth=2
    )
)

fig.update_layout(legend=dict(
    yanchor="top",
    y=0.99,
    xanchor="left",
    x=0.01
))

# fig.update_yaxes(range=[-6, 6])
    
fig.show()

## Análise de proporção de projetos e prêmios por Categoria

Criação dos dataframes

In [81]:
df_prop_cat = df_proj_prem[["categoria","hash", "qtd_premios"]].\
            groupby([ "categoria"]).\
            agg({"hash": "count",
                 "qtd_premios": "sum"}).\
            rename({"hash": "Quantidade de Projetos",
                   "qtd_premios": "Quantidade de Prêmios"}, 
                   axis = 1)

df_prop_cat_norm = df_prop_cat.div(df_prop_cat.sum(axis=0),axis=1).\
                             reset_index().rename_axis(None, axis = 1).\
                            rename({"categoria": "Categoria",
                                   "Quantidade de Projetos": "Proporção de Projetos",
                                   "Quantidade de Prêmios": "Proporção de Prêmios"}, axis = 1)

df_prop_cat_norm

Unnamed: 0,Categoria,Proporção de Projetos,Proporção de Prêmios
0,AGR,0.093696,0.088115
1,BIO,0.154425,0.163934
2,ENG,0.256217,0.295765
3,EXA,0.182186,0.175546
4,HUM,0.148641,0.114071
5,SAU,0.096009,0.085383
6,SOC,0.068826,0.077186


In [87]:
fig = px.line(df_prop_cat.reset_index().rename({"categoria": "Categoria"}, axis = 1), 
              x='Categoria', 
              y=["Quantidade de Projetos", "Quantidade de Prêmios"],
#               color = "Categoria",
#               title='Quantidade de projetos por ano e por categoria',
#              text = "qtd_projetos",
             template = "plotly_white",
              labels = dict(value = "Contagem", variable = "Variáveis")

             )

#traces
fig.update_traces(textposition="top center")



fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))

fig.update_layout(
    legend=dict(
#         x=0,
#         y=1,
#         traceorder="reversed",
        title_font_family="Times New Roman",
        font=dict(
            family="Times New Roman",
            size=20,
            color="black"
        ),
#         bgcolor="LightSteelBlue",
#         bordercolor="Black",
#         borderwidth=2
    )
)

fig.update_layout(legend=dict(
    yanchor="top",
    y=0.99,
    xanchor="left",
    x=0.8
))

fig.show()

Criação do gráfico de porcentagem

In [89]:
fig = px.line(df_prop_cat_norm, 
              x='Categoria', 
              y=["Proporção de Projetos", "Proporção de Prêmios"],
#               color = "Categoria",
#               title='Quantidade de projetos por ano e por categoria',
#              text = "qtd_projetos",
             template = "plotly_white",
                            labels = dict(value = "Proporção", variable = "Variáveis")

             )

#traces
fig.update_traces(textposition="top center")

fig.update_xaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))
fig.update_yaxes(title_font=dict(size=25, family='Time New Roman'),
                tickfont = dict(size = 20, family='Time New Roman'))

fig.update_layout(
    legend=dict(
#         x=0,
#         y=1,
#         traceorder="reversed",
        title_font_family="Times New Roman",
        font=dict(
            family="Times New Roman",
            size=20,
            color="black"
        ),
#         bgcolor="LightSteelBlue",
#         bordercolor="Black",
#         borderwidth=2
    )
)

fig.update_layout(legend=dict(
    yanchor="top",
    y=0.99,
    xanchor="left",
    x=0.8
))

fig.show()