# Introdução

Este conjunto de dados foi criado para prever admissões de pós-graduação. Contém informações sobre candidatos a programas de pós-graduação para prever a chance de admissão com base em diferentes variáveis.

### Fonte de Dados
Os parâmetros incluídos são:

- Pontuações GRE (1 a 340)
- Pontuações do TOEFL (1 a 120)
- Classificação da Universidade (1 a 5)
- Declaração de propósito e força da carta de recomendação (1 a 5)
- GPA de graduação (1 a 10)
- Experiência em pesquisa (0 = No ou 1 = Yes)
- Chance de admissão (variando de 0 a 1)


In [2]:
import pandas as pd

In [3]:
dataset = pd.read_csv('Admission_Predict.csv')

In [4]:
dataset.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [5]:
dataset.shape

(400, 9)

In [6]:
dataset.dtypes

Serial No.             int64
GRE Score              int64
TOEFL Score            int64
University Rating      int64
SOP                  float64
LOR                  float64
CGPA                 float64
Research               int64
Chance of Admit      float64
dtype: object

In [7]:
faltantes = dataset.isnull().sum()
print(faltantes)

Serial No.           0
GRE Score            0
TOEFL Score          0
University Rating    0
SOP                  0
LOR                  0
CGPA                 0
Research             0
Chance of Admit      0
dtype: int64


Observamos que o dataset não possui nenhum dado faltando, sendo assim podemos prosseguir com o modelo.

In [8]:
dataset.drop('Serial No.', axis=1, inplace=True)

A coluna "Serial No." é utilizada para numerar as linhas, portanto, podemos exclui-la do dataset.

In [9]:
# Separando as variáveis entre preditoras e variável target
y = dataset['Chance of Admit ']
x = dataset.drop('Chance of Admit ', axis = 1)

### Machine Learning

In [10]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.30, random_state=45)

In [12]:
def modelsregresao(a, b, c, d):
    from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

    x_treino = a
    y_treino = b
    x_teste = c
    y_teste = d
    
    # Instanciando os modelos
    reg = LinearRegression()
    ridge = Ridge()
    lasso = Lasso()
    elastic = ElasticNet()

    # Treinando os modelos
    reg.fit(x_treino, y_treino)
    ridge.fit(x_treino, y_treino)
    lasso.fit(x_treino, y_treino)
    elastic.fit(x_treino, y_treino)

    # Avaliando os modelos
    resul_reg = reg.score(x_teste, y_teste)
    resul_ridge = ridge.score(x_teste, y_teste)
    resul_lasso = lasso.score(x_teste, y_teste)
    resul_elastic = elastic.score(x_teste, y_teste)

    # Criando dicionário de resultados
    dic_regmodels = {
        "Linear": resul_reg,
        "Ridge": resul_ridge,
        "Lasso": resul_lasso,
        "Elastic": resul_elastic
    }

    # Encontrando o melhor modelo
    melhor_modelo = max(dic_regmodels, key=dic_regmodels.get)

    # Exibindo os resultados
    print(f"Regressão Linear: {resul_reg:.4f}")
    print(f"Regressão Ridge: {resul_ridge:.4f}")
    print(f"Regressão Lasso: {resul_lasso:.4f}")
    print(f"Regressão Elastic: {resul_elastic:.4f}")
    print(f"O melhor modelo foi: {melhor_modelo} com o valor {dic_regmodels[melhor_modelo]:.4f}")

In [13]:
# Chamando a função
modelsregresao(x_treino, y_treino, x_teste, y_teste)

Regressão Linear: 0.8093
Regressão Ridge: 0.8085
Regressão Lasso: 0.2856
Regressão Elastic: 0.5647
O melhor modelo foi: Linear com o valor 0.8093


### Conclusão

Concluímos após a comparação dos modelos de regressão (Linear, Ridge, Lasso e Elastic) que o melhor modelo foi Regressão Linear, com um score de 0.8093, seguido de perto pelo Ridge (0.8085).