In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import pycountry

In [3]:
link_projeto = ("https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv")

In [4]:
colunas_traduzidas = {
    'work_year': 'ano',
    'experience_level': 'senioridade',
    'employment_type': 'contrato',
    'job_title': 'cargo',
    'salary': 'salario',
    'salary_currency': 'moeda',
    'salary_in_usd': 'usd',
    'employee_residence': 'residencia',
    'remote_ratio': 'remoto',
    'company_location': 'empresa',
    'company_size': 'porte_empresa'
}

senioridade = {
'SE': "Senior",
'MI': "Pleno",
'EN': "Junior",
'EX': "Executivo"
}

contrato = {
'FT': "Integral",
'PT': "Parcial",
'FL': "Freelancer",
'CT': "Contrato"
}

remoto = {
0: "Presencial",
100: "Remto",
50: "Hibrido"
}

empresa = {
'S': "Pequena",
'M': "Media",
'L': "Grande"
}



df = pd.read_csv(link_projeto)



df.rename(columns= colunas_traduzidas, inplace=True)


df['senioridade']= df['senioridade'].replace(senioridade)
df['contrato']= df['contrato'].replace(contrato)
df['remoto']= df['remoto'].replace(remoto)
df['porte_empresa']= df['porte_empresa'].replace(empresa)


dflimpo = df.dropna()
dflimpo = dflimpo.assign(ano = dflimpo['ano'].astype('int64'))

In [5]:
dflimpo.columns

Index(['ano', 'senioridade', 'contrato', 'cargo', 'salario', 'moeda', 'usd',
       'residencia', 'remoto', 'empresa', 'porte_empresa'],
      dtype='object')

In [6]:
dflimpo

Unnamed: 0,ano,senioridade,contrato,cargo,salario,moeda,usd,residencia,remoto,empresa,porte_empresa
0,2025,Senior,Integral,Solutions Engineer,214000,USD,214000,US,Remto,US,Media
1,2025,Senior,Integral,Solutions Engineer,136000,USD,136000,US,Remto,US,Media
2,2025,Pleno,Integral,Data Engineer,158800,USD,158800,AU,Presencial,AU,Media
3,2025,Pleno,Integral,Data Engineer,139200,USD,139200,AU,Presencial,AU,Media
4,2025,Junior,Integral,Data Engineer,90000,USD,90000,US,Presencial,US,Media
...,...,...,...,...,...,...,...,...,...,...,...
133344,2020,Senior,Integral,Data Scientist,412000,USD,412000,US,Remto,US,Grande
133345,2021,Pleno,Integral,Principal Data Scientist,151000,USD,151000,US,Remto,US,Grande
133346,2020,Junior,Integral,Data Scientist,105000,USD,105000,US,Remto,US,Pequena
133347,2020,Junior,Contrato,Business Data Analyst,100000,USD,100000,US,Remto,US,Grande


In [7]:
dfcientista = dflimpo[dflimpo['cargo'] == 'Data Scientist']
dfmedia = dfcientista.groupby('residencia')['usd'].mean().reset_index()
dfmedia

Unnamed: 0,residencia,usd
0,AD,50745.0
1,AR,42000.0
2,AT,50342.067797
3,AU,112190.0
4,BE,66790.75
5,BG,152500.0
6,BR,73720.909091
7,CA,140519.984762
8,CH,152256.666667
9,CL,69346.0


In [8]:
paises = dfmedia['residencia'].unique().tolist()
paises

['AD',
 'AR',
 'AT',
 'AU',
 'BE',
 'BG',
 'BR',
 'CA',
 'CH',
 'CL',
 'CY',
 'DE',
 'DO',
 'DZ',
 'EC',
 'EE',
 'EG',
 'ES',
 'FI',
 'FR',
 'GB',
 'GR',
 'HK',
 'HU',
 'IE',
 'IN',
 'IT',
 'JP',
 'KE',
 'KR',
 'LT',
 'LV',
 'MX',
 'NG',
 'NL',
 'NO',
 'NZ',
 'PH',
 'PK',
 'PL',
 'PT',
 'RO',
 'RS',
 'RU',
 'SE',
 'SG',
 'SK',
 'TH',
 'TR',
 'TW',
 'UA',
 'US',
 'UZ',
 'ZA']

In [9]:
import pycountry

# Sua lista de países (use a lista real que você obteve)
paises = dfmedia['residencia'].unique().tolist()
paises

# Dicionário para armazenar a conversão
iso3_dict = {}

for iso2_code in paises:
    try:
        # Busca o país pelo código ISO-A2
        pais = pycountry.countries.get(alpha_2=iso2_code)
        if pais:
            # Adiciona a conversão ao dicionário
            iso3_dict[iso2_code] = pais.alpha_3
    except KeyError:
        print(f"Aviso: Não foi possível encontrar o código ISO-3 para '{iso2_code}'.")
dfmedia['iso_alpha3'] = dfmedia['residencia'].map(iso3_dict)

print("Dicionário de conversão ISO-2 para ISO-3:")
dfmedia

Dicionário de conversão ISO-2 para ISO-3:


Unnamed: 0,residencia,usd,iso_alpha3
0,AD,50745.0,AND
1,AR,42000.0,ARG
2,AT,50342.067797,AUT
3,AU,112190.0,AUS
4,BE,66790.75,BEL
5,BG,152500.0,BGR
6,BR,73720.909091,BRA
7,CA,140519.984762,CAN
8,CH,152256.666667,CHE
9,CL,69346.0,CHL


In [12]:
df = px.data.gapminder()
fig = px.choropleth(
    dfmedia
    , locations="iso_alpha3"
    , color="usd"
    , scope="world"
    , title= "Média Salarial de Cientista de Dados por País"
)
fig.show()