<a href="https://colab.research.google.com/github/Marisagf/Projetos_de_Ciencias_de_Dados/blob/main/Previs%C3%A3o_de_Sal%C3%A1rios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Previsão de Salários

Neste projeto, utilizaremos um conjunto de dados disponível no Kaggle (link: Employee Salary Prediction) para desenvolver um modelo de predição de salários baseado em Regressão Linear.

O dataset contém 30 registros, cada um com duas variáveis: tempo de experiência (em anos) e salário correspondente. Nosso objetivo é construir um modelo que possa estimar o salário de um funcionário com base em seu tempo de experiência.

Para isso, seguiremos um processo estruturado, passando pelas seguintes etapas:
-  Análise exploratória dos dados para entender padrões e possíveis inconsistências.
-  Construção do modelo de regressão linear para capturar a relação entre experiência e salário.
-  Validação do modelo, avaliando métricas de desempenho para garantir sua eficácia.
-  Utilização do modelo para predições, permitindo estimativas de salário para novos funcionários.

Esse projeto oferece uma introdução prática à modelagem preditiva com Regressão Linear e ao uso de dados reais para tomada de decisões.

###  *Importando as bibliotecas*

In [1]:

import pandas as pd
import numpy as np

# para os gráficos/plotagem
import plotly   #para registro da versão
import plotly.express as px
import plotly.graph_objects as go

# para a criação do modelo
import sklearn  #para registro da versão
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# para evitar mensagens de alerta/warnings.
import warnings
warnings.filterwarnings("ignore")

# Carregar o módulo de funções para limpeza de dados
from limpeza_dados import *

### *Importando o Dataset*

In [2]:
df = pd.read_csv("/content/Salary_Data.csv")
print(df.head())

   YearsExperience   Salary
0              1.1  39343.0
1              1.3  46205.0
2              1.5  37731.0
3              2.0  43525.0
4              2.2  39891.0


In [3]:
# Dimensões do dataset
df.shape

(30, 2)

In [4]:
# Estatística descritiva
df.describe()

Unnamed: 0,YearsExperience,Salary
count,30.0,30.0
mean,5.313333,76003.0
std,2.837888,27414.429785
min,1.1,37731.0
25%,3.2,56720.75
50%,4.7,65237.0
75%,7.7,100544.75
max,10.5,122391.0


In [5]:
# verificando se existe algum valor nulo
calcular_porcentagem_valores_ausentes(df)

O conjunto de dados tem 0.0% de valores ausentes.


### *Visualizando o dataset*

In [6]:
figure = px.scatter(data_frame = df,
                    x="Salary",
                    y="YearsExperience",
                    size="YearsExperience",
                    trendline="ols")
figure.show()

### *Criando o Modelo de Regressão Linear*

Como este é um problema de análise de regressão, utilizaremos técnicas de Aprendizado de Máquina para treinar um modelo capaz de prever os salários com base no tempo de experiência.

Antes de construir o modelo, dividiremos os dados em conjuntos de treinamento e teste. Essa separação é essencial para avaliar o desempenho do modelo e garantir que ele generalize bem para novos dados.

A divisão será feita da seguinte forma:
- Conjunto de treinamento: Usado para ajustar o modelo e identificar padrões nos dados.
- Conjunto de teste: Utilizado para validar o modelo e medir sua capacidade de previsão em dados não vistos.

In [7]:

#Importando as funções necessárias do pacote Scikit-Learn
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [10]:
# Dividindo os dados de treino e teste
X = np.asanyarray(df[["YearsExperience"]])
X = sm.add_constant(X)
y = np.asanyarray(df[["Salary"]])
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=42)

In [11]:
# Análise do modelo
modelo = sm.OLS(ytrain, Xtrain).fit()

# Parâmetros do 'modelo_replicado'
modelo.summary()


0,1,2,3
Dep. Variable:,y,R-squared:,0.965
Model:,OLS,Adj. R-squared:,0.963
Method:,Least Squares,F-statistic:,598.4
Date:,"Mon, 24 Mar 2025",Prob (F-statistic):,1.91e-17
Time:,02:20:05,Log-Likelihood:,-239.44
No. Observations:,24,AIC:,482.9
Df Residuals:,22,BIC:,485.2
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.532e+04,2285.938,11.077,0.000,2.06e+04,3.01e+04
x1,9423.8153,385.233,24.463,0.000,8624.891,1.02e+04

0,1,2,3
Omnibus:,0.647,Durbin-Watson:,2.026
Prob(Omnibus):,0.724,Jarque-Bera (JB):,0.697
Skew:,0.323,Prob(JB):,0.706
Kurtosis:,2.472,Cond. No.,12.5


In [12]:
# Instanciando o modelo de regressão linear

model = LinearRegression()
model.fit(Xtrain, ytrain)

In [13]:
# Realizando o teste do modelo
predictions = model.predict(Xtest)

In [14]:
# Verificando a acurácia do modelo
model.score(Xtest, ytest)

0.90244617741805

O modelo apresentou uma acurácia de 90,24%, indicando um bom desempenho na previsão de salários com base no tempo de experiência

In [21]:
a = float(input("Experiência (em Anos): "))
features = np.array([[a]])
sal = model.predict(features)[0][0]
print(f"Prevendo Salário = {sal:.2f}")

Experiência (em Anos): 10


ValueError: X has 1 features, but LinearRegression is expecting 2 features as input.

Resultado: Para um indivíduo com 10 anos de experiência o salário anual estimado é de $ 119.559,74.

#### Realizando treinamento com amostra completa - produção

In [19]:
# Regressão com a base completa
X_full = np.asanyarray(df[["YearsExperience"]])
y_full = np.asanyarray(df[["Salary"]])

# Treinar o modelo com toda a base
final_model = LinearRegression()
final_model.fit(X_full, y_full)


In [20]:
# Previsão com o modelo final
a = float(input("Experiência (em anos): "))
features = np.array([[a]])
sal = final_model.predict(features)[0][0]
print(f"Salário previsto com base no modelo final: R$ {sal:.2f}")


Experiência (em anos): 10
Salário previsto com base no modelo final: R$ 120291.82
