# Regressão Linear: Relação entre Experiência e Salário

Uma análise simples e direta sobre como os anos de experiência impactam o salário, com base em dados disponíveis. 
Este notebook implementa um modelo de regressão linear para prever salários a partir da experiência profissional.

## Introdução

O objetivo deste projeto é explorar a relação entre **anos de experiência** e **salário** usando um modelo de regressão linear. 

Apesar de ser um modelo básico, ele ainda é útil para capturar tendências gerais e entender como variáveis quantitativas se correlacionam — ou não.


In [3]:
# Carregando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

In [5]:
# Carregando os dados 
df = pd.read_csv('Salary_dataset.csv')

# Visualizando os dados 
df.head(10)
df.columns
df.shape

FileNotFoundError: [Errno 2] No such file or directory: 'Salary_dataset.csv'

Percebe-se a existência de uma coluna denominada `Unnamed: 0`, que foi gerada automaticamente como índice.

Em razão de essa coluna não possuir valor analítico, deve-se removê-la. 

In [None]:
# Removendo a coluna 'Unnamed: 0'
df = df.drop('Unnamed: 0', axis = 1)
df.head(10)

## Carregamento e preparação dos dados

O dataset foi carregado e as colunas desnecessárias foram removidas. 

A estrutura dos dados é simples: `YearsExperience` (anos de experiência) e `Salary` (salário em doláres por ano).


## Análise Exploratória

Nesta etapa, observa-se visualmente a relação entre os anos de experiência e o salário, além de verificar a correlação estatística entre as variáveis usando a matriz de correlação de Pearson.


In [None]:
# Observando a dispersão dos dados
plt.scatter(x = df['YearsExperience'], y = df['Salary'])
plt.title('')
plt.xlabel('Anos de Experiência')
plt.ylabel('Salário (em doláres por ano)')
plt.show()

O gráfico gerado demonstra uma forte tendência linear positiva, indicando que, à medida que os anos de experiência aumentam, os salários também crescem de forma proporcional — sugerindo uma correlação alta entre as duas variáveis.

In [None]:
# Matriz de correlação de Pearson
df.corr()

A matriz de correlação revela uma correlação de 0.978 entre YearsExperience e Salary, o que indica uma relação linear forte e positiva: à medida que a experiência aumenta, o salário tende a aumentar quase na mesma proporção. O valor próximo de 1 reforça o que foi observado visualmente no gráfico de dispersão.

### Observado assimetrias e outliers com boxplot

In [None]:
# Anos de experiência
plt.figure(figsize=(6, 6))
plt.boxplot(df['YearsExperience'], patch_artist=True, 
            boxprops=dict(facecolor='lightblue'),
            medianprops=dict(color='red', linewidth=2))
plt.ylabel("Anos de Experiência")
plt.yticks(range(1, 11, 1))
plt.show()

O boxplot acima mostra a distribuição dos anos de experiência dos indivíduos na amostra. A mediana está em torno de 5 anos, o que indica que metade dos profissionais possui até esse tempo de atuação. O primeiro quartil (Q1) está próximo de 3 anos, enquanto o terceiro quartil (Q3) está por volta de 8 anos, resultando em um intervalo interquartil (IQR) de aproximadamente 5 anos. Isso evidencia uma dispersão moderada no nível de experiência entre os profissionais.

In [None]:
# Salários
plt.figure(figsize=(6, 6))
plt.boxplot(df['Salary'], patch_artist=True, 
            boxprops=dict(facecolor='blue'),
            medianprops=dict(color='orange', linewidth=2))
plt.ylabel("Salários")
plt.xlabel("Distribuição de Salários")
plt.yticks(range(40000, 120001, 10000))
plt.show()

O boxplot apresentado exibe a distribuição dos salários em uma determinada amostra. Observa-se que a mediana salarial gira em torno de R$ 65.000, indicando que metade dos indivíduos recebe até esse valor. O primeiro quartil (Q1) está próximo de R$ 55.000, o que significa que 25% das pessoas ganham abaixo desse patamar, enquanto o terceiro quartil (Q3) está em torno de R$ 100.000, revelando que 75% ganham até esse limite. A amplitude interquartil (IQR), que mede a dispersão entre Q1 e Q3, é de aproximadamente R$ 45.000, indicando grande variabilidade nos salários dessa faixa intermediária. Os valores mínimo e máximo, estimados em cerca de R$ 38.000 e R$ 122.000, respectivamente, estão dentro dos limites do boxplot, sugerindo que não há outliers visíveis. 