# üìä Projeto Semantix
## Mercado Global de Trabalho em IA e Ci√™ncia de Dados (2020‚Äì2026)

### Introdu√ß√£o
O mercado de trabalho em Intelig√™ncia Artificial (IA) e Ci√™ncia de Dados tem sido um dos mais din√¢micos da √∫ltima d√©cada.  
Entre 2020 e 2026, observamos grandes oscila√ß√µes em n√∫mero de vagas, sal√°rios m√©dios, modalidades de trabalho remoto e habilidades t√©cnicas mais demandadas.  

**Objetivo deste projeto:**  
- Analisar a evolu√ß√£o do mercado global de IA e Ci√™ncia de Dados.  
- Comparar pa√≠ses l√≠deres (EUA, √çndia, Alemanha, Reino Unido, Canad√°, Austr√°lia).  
- Identificar tend√™ncias de sal√°rios, vagas e skills.  
- Construir modelos de previs√£o para vagas e sal√°rios.  
- Realizar um duelo entre modelos (Regress√£o Linear vs Random Forest).  
- Apresentar conclus√µes estrat√©gicas para profissionais e empresas.  

---


In [None]:
# 1. Importa√ß√£o de bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# Carregar dados
df = pd.read_csv("country_ai_trends.csv")
df.head()


## 2. An√°lise Explorat√≥ria (EDA)
Nesta etapa vamos explorar:
- Evolu√ß√£o de vagas por pa√≠s
- Sal√°rios m√©dios
- Percentual de trabalho remoto
- Skills mais demandadas


In [None]:
# Evolu√ß√£o de vagas por pa√≠s
plt.figure(figsize=(12,6))
sns.lineplot(data=df, x="year", y="total_ai_jobs", hue="country")
plt.title("Evolu√ß√£o de vagas em IA (2020‚Äì2026)")
plt.show()

# Sal√°rios m√©dios por pa√≠s
plt.figure(figsize=(12,6))
sns.lineplot(data=df, x="year", y="avg_salary_usd", hue="country")
plt.title("Evolu√ß√£o dos sal√°rios m√©dios em IA (2020‚Äì2026)")
plt.show()

# Percentual de trabalho remoto
plt.figure(figsize=(12,6))
sns.lineplot(data=df, x="year", y="remote_percentage", hue="country")
plt.title("Percentual de vagas remotas em IA (2020‚Äì2026)")
plt.show()


In [None]:
## 3. Skills mais demandadas
Vamos observar quais habilidades t√©cnicas foram mais valorizadas em cada pa√≠s ao longo dos anos.


In [None]:
# Skills por pa√≠s
skills = df.groupby(["country","top_skill"]).size().reset_index(name="count")

plt.figure(figsize=(12,6))
sns.barplot(data=skills, x="country", y="count", hue="top_skill")
plt.title("Skills mais demandadas por pa√≠s (2020‚Äì2026)")
plt.show()


## 4. Modelagem
Escolhemos duas vari√°veis alvo:
- **total_ai_jobs** ‚Üí prever n√∫mero de vagas
- **avg_salary_usd** ‚Üí prever sal√°rios m√©dios

Modelos utilizados:
- Regress√£o Linear (simples e interpret√°vel)
- Random Forest Regressor (mais robusto, captura n√£o-linearidades)


In [None]:
# Fun√ß√£o para treinar e comparar modelos
def comparar_modelos(df, country, target):
    data = df[df["country"]==country]
    X = data[["year"]]
    y = data[target]

    # Divis√£o treino/teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # Linear
    lin = LinearRegression().fit(X_train, y_train)
    lin_pred = lin.predict(X_test)
    lin_r2 = r2_score(y_test, lin_pred)
    lin_rmse = mean_squared_error(y_test, lin_pred, squared=False)

    # Random Forest
    rf = RandomForestRegressor(random_state=42).fit(X_train, y_train)
    rf_pred = rf.predict(X_test)
    rf_r2 = r2_score(y_test, rf_pred)
    rf_rmse = mean_squared_error(y_test, rf_pred, squared=False)

    print(f"\n{country} - {target}")
    print("Linear ‚Üí R¬≤:", round(lin_r2,2), "RMSE:", round(lin_rmse,2))
    print("Random Forest ‚Üí R¬≤:", round(rf_r2,2), "RMSE:", round(rf_rmse,2))

    # Previs√£o para 2026
    pred_lin = lin.predict([[2026]])[0]
    pred_rf = rf.predict([[2026]])[0]
    print("Previs√£o 2026 - Linear:", int(pred_lin), "| Random Forest:", int(pred_rf))

# Comparar para EUA e √çndia
comparar_modelos(df, "USA", "total_ai_jobs")
comparar_modelos(df, "USA", "avg_salary_usd")
comparar_modelos(df, "India", "total_ai_jobs")
comparar_modelos(df, "India", "avg_salary_usd")


## 5. Visualiza√ß√£o das previs√µes


In [None]:
# Visualiza√ß√£o para EUA - Vagas
usa = df[df["country"]=="USA"]
X = usa[["year"]]
y = usa["total_ai_jobs"]

lin = LinearRegression().fit(X,y)
rf = RandomForestRegressor(random_state=42).fit(X,y)

plt.figure(figsize=(10,6))
plt.scatter(usa["year"], usa["total_ai_jobs"], label="Vagas reais")
plt.plot(usa["year"], lin.predict(X), color="red", label="Linear")
plt.plot(usa["year"], rf.predict(X), color="blue", label="Random Forest")
plt.scatter(2026, lin.predict([[2026]]), color="red", marker="x", s=100, label="Prev Linear 2026")
plt.scatter(2026, rf.predict([[2026]]), color="blue", marker="o", s=100, label="Prev RF 2026")
plt.legend()
plt.title("Previs√£o de vagas em IA - USA")
plt.show()


# üìå Conclus√µes
- O mercado global de IA apresenta crescimento, mas com oscila√ß√µes significativas entre pa√≠ses.
- EUA e √çndia lideram em n√∫mero de vagas, enquanto Canad√° e Alemanha mostram sal√°rios m√©dios elevados.
- O trabalho remoto teve forte alta em 2020‚Äì2021 (pandemia), mas estabilizou em n√≠veis diferentes por pa√≠s.
- Skills variam bastante: Python nos EUA, PyTorch na √çndia, Azure na Alemanha, R no Canad√°.
- O duelo entre modelos mostrou que **Random Forest** tem melhor desempenho em capturar varia√ß√µes, mas a **Regress√£o Linear** √© mais simples e interpret√°vel.
- Previs√µes para 2026 indicam crescimento moderado de vagas e valoriza√ß√£o salarial, com destaque para EUA e √çndia.
- Profissionais devem acompanhar tend√™ncias globais e investir em habilidades emergentes como **Computer Vision, PyTorch e GCP**.
