📘 Introdução
Bem-vindo!
Este notebook apresenta uma regressão linear simples, com o objetivo de explorar e validar insights que foram compartilhados nas postagens do nosso Instagram.

A ideia é mostrar, com dados e código, como a análise preditiva pode embasar decisões ou conteúdos práticos — tudo isso de forma objetiva, clara e replicável.

Vamos nessa? 🚀



## Bibliotecas

In [59]:
# Importando as bibliotecas que iremos utilizar a principio
import numpy as np
import pandas as pd
import seaborn as sns
from pathlib import Path

## Dataset
- Abaixo iremos importar o dataset
- O link para download se encontra abaixo

Kaggle: <a> https://www.kaggle.com/datasets/abhishek14398/salary-dataset-simple-linear-regression </a>

## Importando dataset



In [None]:
#  Definindo caminho variável
# Aqui utilizaremos uma boa prática chamada de path variável. Essa função pega o caminho atual do seu arquivo. Aliado a isso podemos adicionar o nome do arquivo a ser baixado
path_atual = Path.cwd()
path_atual

WindowsPath('c:/Users/jeffe/OneDrive/Área de Trabalho/Documentos/IA_em_Pauta/Regressão linear')

In [63]:
# Importando o dataset
# Sempre vale ressaltar que é importante alterar as barras de '\' para '/'
df_salary = pd.read_csv(path_atual / 'Salary_dataset.csv' ,sep=',')

## Explicando o dataset

* Essa base de dados é muito utilizada para ensino de tecnicas de machine learning, como a regressão linear que iremos aplicar agora. 

* No dataset temos as seguintes colunas: <b>YearsExperience(Anos de experiencia)</b> e <b>Salary(Salario)</b>

# Tratamento de dados

In [None]:
# Aqui iremos realizar uma breve análise exploratória de dados para verificar como o dataset está
# Nesse caso as duas colunas são do tipo float, ou seja, número de ponto flutuante(tem virgula)7
# A função dtypes existe para verificarmos os tipos de dados das colunas
df_salary.dtypes

Unnamed: 0           int64
YearsExperience    float64
Salary             float64
dtype: object

In [None]:
# Verificando se há valores nulos
# Percebemos, portanto, que não há valores ausentes nesse dataframe.

df_salary.isna().sum()


Unnamed: 0         0
YearsExperience    0
Salary             0
dtype: int64

## Regressão linear

In [9]:
# Biblioteca para dividir a base de dados
from sklearn.model_selection import train_test_split

# Bibliotecas para calcular a performance do modelo
from sklearn.metrics import mean_absolute_error,mean_squared_error

# Biblioteca para treinar o modelo
from sklearn.linear_model import LinearRegression

In [41]:
df_salary.columns

Index(['Unnamed: 0', 'YearsExperience', 'Salary'], dtype='object')

In [42]:
# Definindo as variáveis

# Aqui temos a definição da variável independente
X = df_salary.drop(columns=['Salary','Unnamed: 0'])

# Aqui temos a definição da nossa variável target(alvo), ou seja, o que queremos prever
y = df_salary[['Salary']]

In [43]:
# Divindo os dados em treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [44]:
# Instanciando o modelo
lm = LinearRegression()

In [45]:
# Treinando o modelo com os dados de treino

lm.fit(X_train, y_train)

## Avaliação do modelo

In [None]:
# Métrica de MAE
# O resultado nos mostra que o modelo erra em media $4.443 nos dados de treino e $5.161 nos dados de teste
# Se tivessemos um dataset com maior número de informações, o resultado seria melhor
print(f'Métrica MAE na base de treino: {mean_absolute_error(y_train,lm.predict(X_train))}')
print(f'Métrica MAE na base de teste: {mean_absolute_error(y_test,lm.predict(X_test))}')


Métrica MAE na base de treino: 4443.338173029783
Métrica MAE na base de teste: 5161.328710400178


In [47]:
# Métricas de MSE

print(f'Métrica MSE na base de treino: {mean_squared_error(y_train,lm.predict(X_train))}')
print(f'Métrica MSE na base de teste: {mean_squared_error(y_test,lm.predict(X_test))}')


Métrica MSE na base de treino: 28922215.61238366
Métrica MSE na base de teste: 37784662.46621308


In [48]:
# RMSE

rmse_train = np.sqrt(mean_squared_error(y_train,lm.predict(X_train)))
rmse_test = np.sqrt(mean_squared_error(y_test,lm.predict(X_test)))

print(f'Métrica RMSE na base de treino: {rmse_train}')
print(f'Métrica RMSE na base de teste: {rmse_test}')

Métrica RMSE na base de treino: 5377.937858732068
Métrica RMSE na base de teste: 6146.9230079945755


In [49]:
# Juntando tudo em um DataFrame para conferência
y_pred = lm.predict(X_test)

In [50]:
# Aqui temos os valores reais
y_test

Unnamed: 0,Salary
27,112636.0
15,67939.0
23,113813.0
17,83089.0
8,64446.0
9,57190.0
28,122392.0
24,109432.0
12,56958.0


In [51]:
# E  aqui os valores que o modelo previu
# Perceba que os valores previstos são próximos dos valores reais.
y_pred

array([[115574.62288352],
       [ 71680.93878159],
       [102499.90847018],
       [ 75416.57147111],
       [ 55804.4998511 ],
       [ 60474.04071301],
       [122111.98009019],
       [107169.44933209],
       [ 63275.76523015]])

## Criando uma nova linha para previsão


In [None]:
# Criando uma nova pessoa com uma experiencia de 15 anos
nova_pessoa = {
    'YearsExperience': [15]
}

# Gerando um novo dataframe
new_data_df = pd.DataFrame(nova_pessoa)

# Definindo a variável que corresponde
new_data_df = new_data_df[['YearsExperience']]

# Treinando o modelo
predicted_salary = lm.predict(new_data_df)

print(f'O salário previsto é: {predicted_salary}')

O salário previsto é: [[165071.75601974]]


## Obrigado !

Obrigado por ter chegado até aqui, esse é apenas o primeiro código da página, teremos muitos outros.

Siga o <b>@ia_em_pauta nas redes</b>.