In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

Indicadores de ciência e tecnologia (2019) 

A Organização para a Cooperação e Desenvolvimento Econômico (OCDE) é uma organização internacional de 36 países que aceitam os princípios da democracia representativa e da economia de mercado, que procura fornecer uma plataforma para comparar políticas económicas, solucionar problemas comuns e coordenar políticas domésticas e internacionais. 

A maioria dos membros da OCDE é composta por economias com um elevado PIB per capita Índice de Desenvolvimento Humano e são considerados países desenvolvidos. Os maiores PIB são acompanhados dentro da OCDE, além de alguns países aliados e em desenvolvimento, mas não em todos os indicadores.

Teve origem em 1948, para ajudar a gerir o Plano Marshall para a reconstrução da Europa após a Segunda Guerra Mundial. Posteriormente, a sua filiação foi estendida a estados não europeus.


Informações importantes:
- nos países desenvolvidos, há crescimento percentual dos investimentos em ciência e tecnologia
- o investimento em CT per capita médio nos países da OCDE é de cerca de 840 euros por cidadão por ano. Porém a amplitude é grande - de 130 (Letônia e Lituânia) a 2400 euros (Suíça). Isso representa, em média, 2% do PIB.

Fonte:
https://read.oecd-ilibrary.org/science-and-technology/main-science-and-technology-indicators/volume-2019/issue-1_g2g9fb0e-en#page14


Profissionais na área de pesquisa

Os pesquisadores dos países da OCDE representam uma população de aproximadamente 2 milhões de pessoas. São 8,3 pesquisadores para cada mil profissionais no mercado de trabalho. São 5,8 diretamente na indústria produtiva. O governo financia cerca de 30% das pesquisas e pesquisadores, e os demais 70% são financiados pelo setor produtivo.

As mulheres representam 35% de profissionais entre os pesquisadores, também com grande variação. Há uma taxa muito pequena no Japão, Suécia e República Checa e bem mais alta na Islândia, Letônia, Lituânia e Portugal.

In [1]:
# importando as bibliotecas
import pandas as pd
import seaborn as sns

In [1]:
# criando o dataframe
# determinando que o separador é ';'

df = pd.read_csv('/kaggle/input/Pesquisadores.csv', sep=';')

In [1]:
# verificar as 5 primeiras linhas para saber se a importação ocorreu corretamente
df.head()

In [1]:
# verificando se todas as linhas foram importadas
df.tail()

In [1]:
# verificando se os títulos das colunas estão corretos
df.columns

In [1]:
# fazer a contagem do número de registros
df.count()

In [1]:
# para fazer uma análise exploratória da base
df.describe()

In [1]:
# verificar o total de pesquisadores, se há algum país que tenha o mesmo número que outro pais
pd.value_counts(df['Total de Pesquisadores 2017'])

In [1]:
# localizar alguma informação específica: qual país tem a população de 8.795.070 habitantes?
df.loc[df['Populacao 2017']==8795070]

In [1]:
# localizar quais países tem População entre 10 e 20 milhões de habitantes
df.loc[(df['Populacao 2017']>= 10000000) & (df['Populacao 2017'] < 20000000)]

In [1]:
# se quiser ordenar a pesquisa por população, da maior para a menor
df.sort_values(by='Populacao 2017', ascending=False)

In [1]:
# se quiser ordenar a pesquisa por população, da menor para a maior
df.sort_values(by='Populacao 2017', ascending=True)

In [1]:
# criando uma nova coluna definindo o percentual de pesquisadores de cada população

df['Percentual de Pesquisadores'] = (df['Total de Pesquisadores 2017']/ df['Populacao 2017']*100)

In [1]:
# verificar se os cálculos ficou correto
df.head()

In [1]:
# localizar quais países tem percentual de pesquisadores maior que 0,5%
df.loc[(df['Percentual de Pesquisadores']>= 0.50)]

In [1]:
# ordenando os 5 países com maior percentual de pesquisadores

df.sort_values(by='Percentual de Pesquisadores', ascending=False)[0:5]

In [1]:
# identificando o menor índice percentual de pesquisadores

df['Percentual de Pesquisadores'].min()

In [1]:
# identificando o maior índice percentual de pesquisadores

df['Percentual de Pesquisadores'].max()

In [1]:
# criar uma categoria para saber se o percentual de pesquisadores é baixo ou alto
def categoria(s):
    if s >= 0.5:
       return 'alto'
    elif s < 0.5:
       return 'baixo'

In [1]:
# criar uma nova coluna dizendo se a quantidade percentual de pesquisadores em relação a população é alto ou baixo

df['cat_perc'] = df['Percentual de Pesquisadores'].apply(categoria)

In [1]:
# verificando os resultados
df.head()

In [1]:
# fazer a contagem do total de países pesquisados pela OCDE onde o percentual de pesquisadores é baixo em relação a 0,5% ou alto em relação ao mesmo valor

pd.value_counts(df['cat_perc'])

In [1]:
# verificando se tem algum dado faltando na base de dados
df.isnull().sum()

In [1]:
# fazendo os primeiros gráficos

df['Populacao 2017'].plot()

In [1]:
# Fazendo um gráfico do tipo Scatter, cruzando o número de pesquisadores em relação ao total de população do país, em cor vermelha
df.plot(x='Populacao 2017',y='Total de Pesquisadores 2017',kind='scatter', title='Populacao x Pesquisadores',color='r')

In [1]:
# Fazendo um gráfico do tipo Scatter, cruzando o número de pesquisadores em relação a categoria baixa ou alta, em cor amarela
df.plot(x='Percentual de Pesquisadores',y='Populacao 2017',kind='scatter', title='Percentual de Pesquisadores x Populacao',color='y')

In [1]:
# para fazer uma análise exploratória da base com as novas colunas
df.describe()

In [1]:
#verificando a simetria dos dados do dataset (mais próximo de zero, mais simétrico)
df.skew()

In [1]:
# fazendo um gráfico boxplot na coluna de percentual de pesquisadores

df.boxplot(column='Percentual de Pesquisadores')

In [1]:
# fazendo um gráfico boxplot na coluna de total de pesquisadores

df.boxplot(column='Total de Pesquisadores 2017')

In [1]:
# fazendo um boxplot cruzando as informações de populacao e total de pesquisadores

df.boxplot(column='Populacao 2017', by= 'Total de Pesquisadores 2017')

In [1]:
# existe correlação entre o Total de Pesquisadores e o Total de População? Se estiver próximo de zero não tem correlação

df.corr()

In [1]:
# plotando as correlações da análise




In [1]:
# plotando as correlações da análise

df[['Percentual de Pesquisadores','Populacao 2017']].corr().plot()

In [1]:
df[['Total de Pesquisadores 2017','Empregados da Ind. 2017']].corr().plot()