# Salarios de DataScience: Análise de salários de trabalhos relacionados a área de dados. 

NOTA: Este conjunto de dados foi obtido no Kaggle (https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023)

Sobre o conjunto de dados: O conjunto de dados de salários de empregos de Ciência de Dados contém 11 colunas, cada uma delas:

**work_year:** O ano em que o salário foi pago.
experience_level: O nível de experiência no trabalho durante o ano.

**employment_type:** O tipo de emprego para o cargo.

**job_title:** O cargo ocupado durante o ano.

**salary:** O valor total do salário bruto pago.

**salary_currency:** A moeda do salário pago, conforme um código de moeda ISO 4217.
salary_in_usd: O salário em dólares americanos (USD).

**employee_residence:** País de residência principal do empregado durante o ano de trabalho, como um código de país ISO 3166.

**remote_ratio:** A quantidade geral de trabalho feito remotamente.

**company_location:** O país da sede do empregador ou filial contratante.

**company_size:** O número médio de pessoas que trabalharam para a empresa durante o ano.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('ds_salaries.csv')

In [None]:
df.head(5)

In [None]:
#Verificando o tamanho do dataset
df.shape

In [None]:
#Verificando informações do dataset
df.info()

In [None]:
df.describe()

In [None]:
#Verificando a correlação entre as colunas
df.corr()

# Com base nas correlações, podemos verificar que: 

**work_year** tem uma correlação positiva 
moderada com salary_in_usd, o que indica que quanto mais anos de trabalho, maior o salário em dolar. 


**salary_in_usd** tem uma correlação positiva fraca com remote_ratio, o que sugere que aqueles que trabalham remotamente tendem a ganhar mais em dólares do que aqueles que não trabalham remotamente.


# Realizando algumas alterações no DataSet

**Verifiquei os niveís de experiência estão em um formato de: SE = Senior, MI = Mid , EN = Entry e Ex = Executive**

In [None]:
xp_level = df['experience_level'].unique()
print(xp_level)

In [None]:
#Criando uma função para redefinir valores: 
#A função Redefinir_valores recebe três argumentos , o nome da coluna do Dataframe e em seguida o metodo replace que é aplicado
#a essa coluna, substituindo todas as ocorrencias do valor antigo (valor_antigo) pelo novo (novo_valor): 

def Redefinir_Valores(nome_coluna,valor_antigo,novo_valor):
  df[nome_coluna] = df[nome_coluna].replace(valor_antigo,novo_valor)

In [None]:
Redefinir_Valores('experience_level','SE','Senior Level')
Redefinir_Valores('experience_level','MI','Mid Level')
Redefinir_Valores('experience_level','EN','Entry Level')
Redefinir_Valores('experience_level','EX','Executive Level')

In [None]:
xp_level = df['experience_level'].unique()
print(xp_level)

In [None]:
 tipo_emprego= df['employment_type'].unique()
print(tipo_emprego)

In [None]:
Redefinir_Valores('employment_type','FT','Full Time')
Redefinir_Valores('employment_type','PT','Part Time')
Redefinir_Valores('employment_type','CT','Contract')
Redefinir_Valores('employment_type','FL','Freelancing')

In [None]:
tipo_emprego= df['employment_type'].unique()
print(tipo_emprego)

In [None]:
tamanho_empresa= df['company_size'].unique()
print(tamanho_empresa)

In [None]:
Redefinir_Valores('company_size','M','Medium')
Redefinir_Valores('company_size','L','Large')
Redefinir_Valores('company_size','S','Small')

In [None]:
tamanho_empresa= df['company_size'].unique()
print(tamanho_empresa)

In [None]:
remoto= df['remote_ratio'].unique()
print(remoto)

In [None]:
Redefinir_Valores('remote_ratio',0,'Onsite')
Redefinir_Valores('remote_ratio',100,'Remote')
Redefinir_Valores('remote_ratio',50,'Hybrid')
Redefinir_Valores('job_title','Machine Learning Engineer','ML Engineer')

In [None]:
remoto= df['remote_ratio'].unique()
print(remoto)

In [None]:
!pip install pycountry

#import pycountry

In [None]:
import pycountry as pc

In [None]:
#Convertendo as colunas company_location e employee_residence de códigos ISO para seus nomes de países correspondentes (por exemplo, US para Estados Unidos, CA para Canadá, IN para Índia etc.).
df['employee_residence'] = df['employee_residence'].apply(lambda x: pc.countries.get(alpha_2 = x).name)
df['company_location'] = df['company_location'].apply(lambda x: pc.countries.get(alpha_2 = x).name)

In [None]:
residencia= df['employee_residence'].unique()
print(residencia)

In [None]:
local= df['company_location'].unique()
print(local)

In [None]:
#Apagando as colunas salary e salary currency pois vamos utilizar apenas a coluna de salarios em doláres: 

df.drop(['salary','salary_currency'],axis = 1,inplace = True)

In [None]:
df.head(5)

In [None]:
df.info()

In [None]:
import matplotlib.pyplot as plt

In [None]:
ano= df['work_year'].unique()
print(ano)

In [None]:
# Agrupar os dados por ano e calcular a média dos salários
grouped = df.groupby('work_year')['salary_in_usd'].mean()

# Plotando o gráfico de barras
grouped.plot.bar(x='work_year', y='salary_in_usd', rot=0, color = 'navy')
plt.title('Média de Salários por Ano')
plt.xlabel('Ano')
plt.ylabel('Média de Salário (em USD)')
plt.show()

In [None]:
# Plotando o gráfico de barras - Média salarial por nível de experiência
grouped_2 = df.groupby('experience_level')['salary_in_usd'].mean()

# Ordenando em ordem decrescente
grouped_2 = grouped_2.sort_values(ascending=False)

grouped_2.plot.bar(x='experience_level', y='salary_in_usd', rot=0, color = 'navy')
plt.title('Média de Salários por Nível de Experiência')
plt.xlabel('Nível de Experiência')
plt.ylabel('Média de Salário (em USD)')
plt.show()

In [None]:
# Plotando o gráfico de barras - Média salarial por tipo de trabalho: 
grouped_3 = df.groupby('employment_type')['salary_in_usd'].mean()

# Ordenando em ordem decrescente
grouped_3 = grouped_3.sort_values(ascending=False)

grouped_3.plot.bar(x='employment_type', y='salary_in_usd', rot=0, color = 'navy')
plt.title('Média de Salários por Nível de Experiência')
plt.xlabel('Tipo de trabalho')
plt.ylabel('Média de Salário (em USD)')
plt.show()

In [None]:
# Agrupando dados por job_title e calculando a média dos salários
grouped_4 = df.groupby('job_title')['salary_in_usd'].mean().sort_values().head(10)

# Plotando o gráfico de barras horizontalmente
fig, ax = plt.subplots(figsize=(7, 5))
ax.barh(grouped_4.index, grouped_4.values, color='purple')
ax.set_title('Média de Salários por Job Title')
ax.set_xlabel('Média de Salário (em USD)')
ax.set_ylabel('Job Title')
plt.show()


In [None]:
#company_size

# Plotando o gráfico de barras - Média salarial por tipo de trabalho: 
grouped_5 = df.groupby('company_size')['salary_in_usd'].mean()

# Ordenando em ordem decrescente
grouped_5 = grouped_5.sort_values(ascending=False)

grouped_5.plot.bar(x='employment_type', y='salary_in_usd', rot=0, color = 'navy')
plt.title('Média de Salários por Nível de Experiência')
plt.xlabel('Tipo de Empresa')
plt.ylabel('Média de Salário (em USD)')
plt.show()


In [None]:
num_foreign_workers = len(df[df['employee_residence'] != df['company_location']])
#print(f"Existem {num_foreign_workers} pessoas trabalhando para empresas fora de sua residência.")

percent_foreign = (num_foreign_workers / len(df)) * 100
print(f"{percent_foreign:.2f}% das pessoas trabalham para empresas fora de seu país.")


In [None]:
num_non_foreign_workers = len(df[df['employee_residence'] == df['company_location']])
#print(f"Existem {num_foreign_workers} pessoas trabalhando para empresas fora de sua residência.")

percent_foreign = (num_non_foreign_workers / len(df)) * 100
print(f"{percent_foreign:.2f}% das pessoas trabalham para empresas em seu país.")

In [None]:
df.head(5)

In [None]:
#Exportar o arquivo:

df.to_csv('salarios_ds.csv', index=False)
