# 🔗 Cruzamento de Dados com Datasets Tratados

In [None]:

import pandas as pd

# Carregar os arquivos tratados
df_jobs = pd.read_csv('/mnt/data/ai_job_dataset_limpo.csv')
df_salaries = pd.read_csv('/mnt/data/salaries_limpo.csv')
df_market = pd.read_csv('/mnt/data/ai_job_market_insights_limpo.csv')


## 1. Padronização dos nomes de cargos

In [None]:

df_jobs['job_title_norm'] = df_jobs['job_title'].str.lower().str.strip()
df_salaries['job_title_norm'] = df_salaries['job_title'].str.lower().str.strip()
df_market['Job_Title_norm'] = df_market['Job_Title'].str.lower().str.strip()


## 2. Comparação de salários entre os datasets

In [None]:

# Média salarial por cargo
media_jobs = df_jobs.groupby('job_title_norm')['salary_usd'].mean().reset_index(name='media_salary_jobs')
media_salaries = df_salaries.groupby('job_title_norm')['salary_in_usd'].mean().reset_index(name='media_salary_salaries')

# Cruzamento
df_comparativo = pd.merge(media_jobs, media_salaries, on='job_title_norm', how='inner')

# Diferença percentual
df_comparativo['diferenca_percentual'] = (
    (df_comparativo['media_salary_jobs'] - df_comparativo['media_salary_salaries']) / df_comparativo['media_salary_salaries']
) * 100

# Exibir top diferenças
df_comparativo.sort_values(by='diferenca_percentual', ascending=False).head(10)


## 3. Relação entre Adoção de AI e Salários

In [None]:

df_market_salary = df_market[['Job_Title_norm', 'AI_Adoption_Level', 'Salary_USD', 'Risco_Automacao_Label']]

# Cruzar com salário médio real
df_merged_ai = pd.merge(df_market_salary, media_salaries, left_on='Job_Title_norm', right_on='job_title_norm', how='inner')

df_merged_ai[['Job_Title_norm', 'AI_Adoption_Level', 'Risco_Automacao_Label', 'Salary_USD', 'media_salary_salaries']].head(10)


## 4. Conclusões Parciais


- As médias salariais podem variar bastante entre fontes.
- Alguns cargos com maior adoção de AI apresentam salários mais elevados.
- O risco de automação pode influenciar as projeções e valores de salário em determinadas funções.
