Treinamento de modelos (e.g., Regressão Linear, Ridge, Lasso, Random Forest, XGBoost, SVM, etc.)
Ajuste de hiperparâmetros usando técnicas como Grid Search e Random Search
Comparação dos modelos com base em métricas de desempenho <br>


Para um dataset com um target quantitativo discreto (valores de 0 a 20) e que inclui features categóricas e numéricas, você pode usar diversos algoritmos de machine learning. A escolha do algoritmo pode depender do tamanho do dataset, da complexidade do problema e da necessidade de interpretação dos resultados. Aqui estão alguns algoritmos recomendados:

### 1. **Regressão Linear e Polinomial**

- **Regressão Linear**: Pode ser uma boa escolha para entender as relações lineares entre as features e o target. Pode ser estendida para **Regressão Polinomial** se houver relações não lineares.

### 2. **Árvores de Decisão e Ensemble Methods**

- **Árvores de Decisão**: Útil para modelar relações não lineares e interações entre features. Pode ser interpretável e fácil de visualizar.
- **Random Forest**: Um ensemble de árvores de decisão que melhora a precisão e reduz o risco de overfitting.
- **Gradient Boosting Machines (GBM)**: Métodos como **XGBoost**, **LightGBM**, e **CatBoost** são muito eficazes para problemas com dados mistos (numéricos e categóricos) e frequentemente proporcionam alta precisão.

### 3. **Algoritmos de Regressão Regularizados**

- **Regressão Ridge (L2 Regularization)** e **Regressão Lasso (L1 Regularization)**: Ajudam a prevenir overfitting ao regularizar o modelo. O Lasso também pode realizar seleção de features.

### 4. **Métodos Baseados em K-Vizinhos**

- **K-Nearest Neighbors (KNN)**: Simples e eficaz para dados com uma estrutura mais complexa, embora possa ser mais lento para grandes datasets.

### 5. **Modelos Baseados em Máquinas de Vetores de Suporte**

- **Support Vector Machines (SVM)**: Pode ser usado para regressão (SVR). Funciona bem com características não lineares quando se usa o kernel apropriado.

### 6. **Modelos de Redes Neurais**

- **Redes Neurais Artificiais (ANN)**: Podem capturar relações complexas entre features e target. Podem ser úteis se o dataset for grande e você precisar de modelos mais complexos.

### 7. **Modelos Estatísticos**

- **Modelos de Regressão Generalizada**: Se os dados tiverem uma distribuição específica (como Poisson ou Binomial), você pode considerar modelos de regressão generalizada adequados à distribuição do target.

### Processos de Preprocessamento

- **Codificação de Variáveis Categóricas**: Use técnicas como One-Hot Encoding ou Ordinal Encoding para converter variáveis categóricas em um formato utilizável pelos algoritmos.
- **Escalonamento**: Normalização ou padronização das features pode ser necessária para algoritmos sensíveis à escala, como KNN e SVM.
- **Tratamento de Valores Faltantes**: Imputação ou exclusão de dados faltantes para garantir a integridade do dataset.

### Avaliação do Modelo

- **Métricas de Avaliação**: Use métricas adequadas como **Mean Absolute Error (MAE)**, **Mean Squared Error (MSE)** ou **Root Mean Squared Error (RMSE)** para avaliar a performance dos modelos de regressão.

A escolha do algoritmo pode exigir experimentação e validação cruzada para encontrar o melhor modelo para o seu problema específico.                                                                                                                                                                                  

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

d1 = pd.read_csv("d1_trabalhado.csv", sep=",")

In [3]:
X = d1.drop(['G3'], axis=1)
y = d1['G3']

## 1. Regressão Linear e Polinomial.

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
regressor = LinearRegression()
regressor.fit(X_train, y_train)

In [6]:
y_pred = regressor.predict(X_test)

- Avaliando o modelo

In [7]:
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [8]:
print(f'Mean Squared Error: {mse}')
print(f'R^2 Score: {r2}')

Mean Squared Error: 5.68982665151169
R^2 Score: 0.7225157992991869


- Novamente