# **Estudo de Modelos de Regressão**

Neste notebook, aplicaremos os seguintes modelos de regressão: Linear, Ridge, Lasso e Elastic Net, utilizando o conjunto de dados [Graduate Admissions](https://www.kaggle.com/datasets/mohansacharya/graduate-admissions).

## **Objetivo**

O objetivo deste estudo é prever a chance de admissão de um candidato em programas de pós-graduação com base em diversas características.

## **Importando Bibliotecas**

In [None]:
import pandas as pd
import warnings
from src.utils import *
from sklearn.model_selection import train_test_split

warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

## **Preparação dos Dados**

Nesta etapa, serão realizadas as seguintes ações:

1. **Exclusão de Features Irrelevantes**: Serão removidas as colunas que não contribuem para a previsão do preço das casas, como identificadores únicos ou informações redundantes.
2. **Definição das Variáveis Preditoras (Features)**: Selecionaremos as colunas que possuem relevância para o modelo, ou seja, aquelas que contêm informações úteis para prever o preço das casas.
3. **Definição da Variável Target**: A variável alvo será definida como a coluna que representa o preço de venda das casas, que é o objetivo principal da previsão.

Essas etapas são fundamentais para garantir que os modelos sejam treinados com dados limpos e relevantes, maximizando as performances.

In [2]:
# Carregando os dados
df = pd.read_csv('../../base/Admission_Predict.csv')
df.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [3]:
df.dtypes

Serial No.             int64
GRE Score              int64
TOEFL Score            int64
University Rating      int64
SOP                  float64
LOR                  float64
CGPA                 float64
Research               int64
Chance of Admit      float64
dtype: object

In [4]:
verifica_faltantes(df)

Serial No.           0.0
GRE Score            0.0
TOEFL Score          0.0
University Rating    0.0
SOP                  0.0
LOR                  0.0
CGPA                 0.0
Research             0.0
Chance of Admit      0.0
dtype: float64

In [5]:
# Removendo colunas desnecessárias
df.drop(columns=['Serial No.'], inplace=True)  

In [6]:
# separando em variáveis preditoras e resposta
X = df.drop(columns=['Chance of Admit '])
y = df['Chance of Admit ']

# dividindo em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## **Criação e Avaliação do Modelo**

Nesta etapa, serão criado os modelos de Regressão utilizando a função escrirta no `utils.py`.

In [7]:
modelos_lineares(X_train, y_train, X_test, y_test, melhor_modelo=False)

Resultados dos modelos:
Regressão Linear Simples: R² = 0.8212082591486992
Regressão Ridge: R² = 0.8204337208459436
Regressão Lasso: R² = 0.2122576911382904
Regressão ElasticNet: R² = 0.5135070787454863


In [8]:
modelos_lineares(X_train, y_train, X_test, y_test, melhor_modelo=True)

Melhor modelo: Regressão Linear Simples com R² = 0.8212082591486992
