In [None]:
#importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [None]:
#df = dataframe, a base de dados pega no site
df = pd.read_csv('https://raw.githubusercontent.com/guilhermeonrails/data-jobs/refs/heads/main/salaries.csv')

PARTE 1 ------------------------------------------

In [None]:
#usando .info() para obter informações sobre as colunas e o tipo de dados
df.info()

In [None]:
#.shape mostra a quantidade de linhas e colunas (linhas, colunas) do df
df.shape

In [None]:
#.columns vai mostrar o nome de todas as colunas do df
df.columns

In [None]:
#criei um dicionario para renomear as colunas
colunas_traduzidas={
    'work_year':'ano',
    'experience_level':'experiencia',
    'employment_type':'contrato',
    'job_title':'cargo',
    'salary':'salario',
    'salary_currency':'moeda',
    'salary_in_usd':'salario_em_usd',
    'employee_residence':'residencia',
    'remote_ratio':'tipo_trabalho',
    'company_location':'localizacao_empresa',
    'company_size':'tamanho_empresa'
}

In [None]:
#chamando a função e passando os parametros
#inplace=true quer dizer que é pra substituir
df.rename(columns=colunas_traduzidas, inplace=True)

In [None]:
#value_counts() vai mostrar a quantidade de cada valor diferente dentro de determinada coluna
df['experiencia'].value_counts()

In [None]:
#renomeando o nome dos valores dentro da coluna da tabela
renomear_experiencia={
    'SE':'Senior',
    'MI':'Pleno',
    'EN':'Junior',
    'EX':'Executivo'
}

df['experiencia'] = df['experiencia'].replace(renomear_experiencia)
df['experiencia'].value_counts()

In [None]:
df['contrato'].value_counts()

In [None]:
#renomeando o nome dos valores dentro da coluna da tabela
renomear_contrato={
    'FT':'Integral',
    'CT':'Contrato',
    'PT':'Parcial',
    'FL':'Freelance'
}

df['contrato'] = df['contrato'].replace(renomear_contrato)
df['contrato'].value_counts()

In [None]:
df['tipo_trabalho'].value_counts()

In [None]:
#renomeando o nome dos valores dentro da coluna da tabela
renomear_trabalho={
    0:'Presencial',
    50:'Híbrido',
    100:'Remoto'
}

df['tipo_trabalho'] = df['tipo_trabalho'].replace(renomear_trabalho)
df['tipo_trabalho'].value_counts()

In [None]:
df['tamanho_empresa'].value_counts()

In [None]:
#renomeando os valores
renomear_tamanho_empresa = {
	'S': 'Pequena',
	'M': 'Média',
	'L': 'Grande'
}

df['tamanho_empresa'] = df['tamanho_empresa'].replace(renomear_tamanho_empresa)
df['tamanho_empresa'].value_counts()

In [None]:
df['cargo'].value_counts()

In [None]:
df['residencia'].value_counts()

In [None]:
#head(n) colocar um número entre parenteses é pra mostrar quantas linhas que eu quero
df.head(10)

In [None]:
#describe faz uma descrição estatistica dos dados númericos
df.describe()

In [None]:
#describe(include='object') faz uma descriação das colunas do tipo objeto(texto/string)
df.describe(include='object')

PARTE 2 --------------------------------------

In [None]:
#pergunta quais valores dentro da tabela são nulos
df.isnull()

In [None]:
#vai somar todos os valores nulos de cada coluna e mostrar a quantidade
df.isnull().sum()

In [None]:
#mostra quais são os valores únicos de cada coluna
df['ano'].unique()

In [None]:
#criando um data frame de exemplo
df_temperatura= pd.DataFrame({
    #passo o nome de cada coluna e uma lista com os valores de cada linha da coluna
    'Dia':['Segunda', 'Terça','Quarta', 'Quinta', 'Sexta', 'Sábado', 'Domingo'],
    'Temperatura':[29.5, 28, np.nan, 32.3, np.nan, np.nan, 27] #np.nan cria um valor nulo pra tabela
})
#estou criando novas colunas para receber os valores da formula
#substituindo os valores nulos pelos valores que vem antes dele com a função ffill()
df_temperatura['Ffill']= df_temperatura['Temperatura'].ffill()
#substituindo os valores nulos pelos valores que vem depois dele com a função bfill()
df_temperatura['Bfill']= df_temperatura['Temperatura'].bfill()
df_temperatura.head(7)

In [None]:
#criando outro data frame de exemplo
df_salario = pd.DataFrame({
    'Nome': ['Anderson', 'Bruna', 'Carlos', 'Daniel', 'Eli'],
    'Salario': [5000, np.nan, 3000, np.nan, 45000],
    'Cidade':['Xapuri', 'Rio de Janeiro', np.nan, 'São Paulo', np.nan]
})
#substituindo os valores nulos pela média dos salarios
#fillna faz a substituição
#mean calcula a média e round arredonda para duas casas decimais
df_salario['salario_media']= df_salario['Salario'].fillna(df_salario['Salario'].mean().round(2))
#agora substituo pela mediana dos sálarios
df_salario['salario_mediana']= df_salario['Salario'].fillna(df_salario['Salario'].median())
#substituindo os valores nulos por um texto na coluna cidade
df_salario['cidade_preenchida']= df_salario['Cidade'].fillna('Não informado')

df_salario.head()

In [None]:
#aqui eu estou filtrando todos os valores nulos do df
df[df.isnull().any(axis=1)]

In [None]:
#criando um df limpo de valores nulos
df_limpo= df.dropna() #dropna tira os valores nulos do df
df_limpo.isnull().sum() #mostrando que nenhuma coluna tem valores nulos

In [None]:
#alterando o tipo de dado da tabela ano, de float64 para int64
df_limpo = df_limpo.assign(ano= df_limpo['ano'].astype('int64'))
df_limpo.info()

PARTE 3 -----------------------------------------------------

In [None]:
ordem= df_limpo.groupby('experiencia')['salario_em_usd'].mean().round(2).sort_values(ascending=True).index

In [None]:
plt.figure(figsize=(8,5))
sns.barplot(data=df_limpo, x='experiencia', y='salario_em_usd', order=ordem)
plt.title('Salário médio por experiência')
plt.xlabel('Experiência')
plt.ylabel('Salário médio anual (USD)')
plt.show()

In [None]:
plt.figure(figsize=(8,4))
sns.histplot(df_limpo['salario_em_usd'], bins=100, kde=True, color='green')
plt.title('Distribuição de salários')
plt.xlabel('Salários em dolar')
plt.ylabel('Frequência')
plt.show()

In [None]:
plt.figure(figsize=(18,3))
sns.boxplot(x=df_limpo['salario_em_usd'], color='red')
plt.title('Distribuição de salários')
plt.xlabel('Salários em dolar')
plt.show()

In [None]:
ordem_exp=['Junior', 'Pleno', 'Senior', 'Executivo']

plt.figure(figsize=(8,8))
sns.boxplot(x='experiencia', y='salario_em_usd', data=df_limpo, order=ordem_exp, palette='Set2', hue='experiencia')
plt.title('Distribuição de salários por experiência', color='blue')
plt.xlabel('Categorias de experiência', color='blue')
plt.ylabel('Salário em dolar', color='blue')
plt.show()

In [47]:
figura = px.bar(df_limpo.groupby('experiencia')['salario_em_usd'].mean().reset_index(),
             x='experiencia',
             y='salario_em_usd',
             category_orders={'experiencia': ordem_exp},
             labels={'salario_em_usd': 'Salário médio (USD)', 'experiencia': 'Experiência'},
             title='Salário médio por nível de experiência')

figura.show()

In [None]:
remoto_contagem= df_limpo['tipo_trabalho'].value_counts().reset_index()
remoto_contagem.columns= ['tipo', 'quantidade']

figura_pizza= px.pie(
    remoto_contagem,
    names='tipo',
    values='quantidade',
    title='Proporção dos tipos de trabalho'
)

figura_pizza.show()

In [None]:
remoto_contagem= df_limpo['tipo_trabalho'].value_counts().reset_index()
remoto_contagem.columns= ['tipo', 'quantidade']

figura_rosca= px.pie(
    remoto_contagem,
    names='tipo',
    values='quantidade',
    title='Proporção dos tipos de trabalho',
    hole=0.5
)

figura_rosca.update_traces(textinfo='percent+label')
figura_rosca.show()

In [79]:
df_cientista = df_limpo[df_limpo['cargo'] == 'Data Scientist']
df_cientista.head()

Unnamed: 0,ano,experiencia,contrato,cargo,salario,moeda,salario_em_usd,residencia,tipo_trabalho,localizacao_empresa,tamanho_empresa
6,2025,Senior,Integral,Data Scientist,185000,USD,185000,US,Presencial,US,Média
7,2025,Senior,Integral,Data Scientist,148000,USD,148000,US,Presencial,US,Média
8,2025,Pleno,Integral,Data Scientist,135000,USD,135000,CA,Presencial,CA,Média
9,2025,Pleno,Integral,Data Scientist,108000,USD,108000,CA,Presencial,CA,Média
65,2025,Senior,Integral,Data Scientist,258000,USD,258000,US,Presencial,US,Média


In [None]:
residencia_contagem = df_cientista['residencia'].value_counts()
df_cientista['residencia_agrupada'] = df_cientista['residencia'].apply(
    lambda x: x if residencia_contagem[x] > 10 else 'Outros')

df_cientista['residencia_agrupada'].value_counts()

In [None]:
paises_traducao = {
    'US': 'Estados Unidos',
    'CA': 'Canadá',
    'GB': 'Reino Unido',
    'NL': 'Holanda',
    'ES': 'Espanha',
    'DE': 'Alemanha',
    'FR': 'França',
    'AT': 'Áustria',
    'AU': 'Austrália',
    'LT': 'Lituânia',
    'IN': 'Índia',
    'IE': 'Irlanda',
    'EG': 'Egito',
    'SK': 'Eslováquia',
    'IT': 'Itália',
    'NZ': 'Nova Zelândia',
    'BR': 'Brasil'
}

df_cientista['residencia_agrupada'] = df_cientista['residencia_agrupada'].replace(paises_traducao)

In [87]:
ordem_residencia= df_cientista.groupby('residencia_agrupada')\
    ['salario_em_usd'].mean().round(2).sort_values(ascending=False).index

In [89]:
figura = px.bar(df_cientista.groupby('residencia_agrupada')['salario_em_usd'].mean().reset_index(),
             x='residencia_agrupada',
             y='salario_em_usd',
             category_orders={'residencia_agrupada': ordem_residencia},
             labels={'salario_em_usd': 'Salário médio em dólar americano', 'residencia_agrupada': 'País de residência'},
             title='Salário médio por local de residência de cientistas de dados')

figura.show()