Além do KNN, existem várias outras técnicas e modelos que você pode utilizar para realizar tarefas de classificação, dependendo das características dos seus dados e dos objetivos do seu modelo. Aqui estão algumas opções populares:

### 1. **Árvore de Decisão (Decision Tree)**
   - **Vantagens:** Fácil de interpretar, não requer normalização das features, bom para capturar interações entre as features.
   - **Desvantagens:** Pode facilmente sofrer de overfitting se não for podada ou regularizada.
   - **Implementação:**
     ```python
     from sklearn.tree import DecisionTreeClassifier

     clf = DecisionTreeClassifier(random_state=42)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 2. **Random Forest**
   - **Vantagens:** Reduz o overfitting por meio de um conjunto de árvores de decisão, muito robusto e eficaz em muitos cenários.
   - **Desvantagens:** Menos interpretável do que uma única árvore de decisão.
   - **Implementação:**
     ```python
     from sklearn.ensemble import RandomForestClassifier

     clf = RandomForestClassifier(n_estimators=100, random_state=42)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 3. **Gradient Boosting Machines (GBM)**
   - **Vantagens:** Muito poderoso, pode fornecer excelente performance em uma ampla gama de problemas.
   - **Desvantagens:** Mais lento para treinar, especialmente em comparação com Random Forest.
   - **Implementação:**
     ```python
     from sklearn.ensemble import GradientBoostingClassifier

     clf = GradientBoostingClassifier(random_state=42)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 4. **Logistic Regression**
   - **Vantagens:** Simples, interpretável, funciona bem com dados lineares, fornece probabilidades de predição.
   - **Desvantagens:** Desempenho limitado em problemas não lineares.
   - **Implementação:**
     ```python
     from sklearn.linear_model import LogisticRegression

     clf = LogisticRegression(random_state=42, max_iter=1000)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 5. **Support Vector Machine (SVM)**
   - **Vantagens:** Eficaz em espaços de alta dimensionalidade, robusto a outliers, pode ser usado com diferentes kernels para capturar relações não lineares.
   - **Desvantagens:** Pode ser lento em conjuntos de dados muito grandes, sensível à escolha de parâmetros.
   - **Implementação:**
     ```python
     from sklearn.svm import SVC

     clf = SVC(kernel='rbf', random_state=42)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 6. **Naive Bayes**
   - **Vantagens:** Muito rápido e eficiente, bom para problemas de texto e dados categóricos, não requer muita amostra para funcionar bem.
   - **Desvantagens:** Assume independência entre as features, o que pode não ser realista em muitos casos.
   - **Implementação:**
     ```python
     from sklearn.naive_bayes import GaussianNB

     clf = GaussianNB()
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 7. **Neural Networks (MLP Classifier)**
   - **Vantagens:** Muito flexível e poderoso, capaz de modelar relações complexas, especialmente com muitas features.
   - **Desvantagens:** Requer mais dados e poder de processamento, tuning de hiperparâmetros pode ser desafiador.
   - **Implementação:**
     ```python
     from sklearn.neural_network import MLPClassifier

     clf = MLPClassifier(random_state=42, max_iter=1000)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### 8. **XGBoost**
   - **Vantagens:** Um dos melhores algoritmos de boosting, muito eficiente em termos de tempo de execução, excelente performance em muitos problemas.
   - **Desvantagens:** Requer tuning de hiperparâmetros para obter o melhor desempenho.
   - **Implementação:**
     ```python
     from xgboost import XGBClassifier

     clf = XGBClassifier(random_state=42)
     clf.fit(X_train, y_train)
     y_pred = clf.predict(X_val)
     ```

### Comparação e Seleção do Modelo:
- **Avaliação de Modelos:** Use técnicas como validação cruzada, análise de curva ROC-AUC, F1-score e outras métricas para comparar a performance dos diferentes modelos.
- **Ensembles:** Considere combinar vários desses modelos para criar um ensemble que possa melhorar a performance geral (ex: Voting Classifier).

### Conclusão:
A escolha do modelo ideal dependerá das características dos dados e do problema em questão. Pode valer a pena experimentar vários desses métodos, comparar suas performances, e selecionar o que oferece o melhor equilíbrio entre acurácia, interpretabilidade e eficiência.

In [30]:
import pandas as pd
import seaborn as sn
import numpy as np
import matplotlib.pyplot as plt

d1_trabalhadoC = pd.read_csv("d1_trabalhadoC.csv", sep=',')

In [31]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(d1_trabalhadoC)
d1_trabalhadoC = pd.DataFrame(scaler.transform(d1_trabalhadoC), columns = d1_trabalhadoC.columns)

In [318]:
target = 'failures'
features = ['failures', 'Medu', 'internet','absences']

print('Features:', features)
print('Target:', target)

Features: ['failures', 'Medu', 'internet', 'absences', 'studytime']
Target: G3_excelente


In [319]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(d1_trabalhadoC[features], d1_trabalhadoC[target],
                                                    test_size=0.2, random_state=42)

print(X_train.shape)
print(X_val.shape)
print(y_train.shape)
print(y_val.shape)

(316, 5)
(79, 5)
(316,)
(79,)


## KNN

In [326]:
# Importando nosso classificador
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=7)
clf.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=7)

In [327]:
y_pred = clf.predict(X_val)

  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [328]:
from sklearn.metrics import accuracy_score

acc = accuracy_score(y_val, y_pred)
print('Acurácia:', acc)

Acurácia: 0.7848101265822784


## Decision Tree

In [26]:
d1_trabalhadoC.columns

Index(['sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid',
       'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel',
       'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences',
       'Mjob_at_home', 'Mjob_health', 'Mjob_other', 'Mjob_services',
       'Mjob_teacher', 'Fjob_at_home', 'Fjob_health', 'Fjob_other',
       'Fjob_services', 'Fjob_teacher', 'reason_course', 'reason_home',
       'reason_other', 'reason_reputation', 'guardian_father',
       'guardian_mother', 'guardian_other', 'G1_insuficiente', 'G1_regular',
       'G1_excelente', 'G2_insuficiente', 'G2_regular', 'G2_excelente',
       'G3_insuficiente', 'G3_regular', 'G3_excelente'],
      dtype='object')

In [27]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn import tree

target = 'G3_excelente'
features = ['failures', 'Medu', 'absences', 'famsup', 'internet', 'studytime']

X = d1_trabalhadoC[features]
y = d1_trabalhadoC[target]

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

clf = tree.DecisionTreeClassifier(random_state=42)
clf = clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

In [29]:
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

print('Classification Report:')
print(classification_report(y_test, y_pred))

conf_matrix = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:')
print(conf_matrix)

Accuracy: 0.72
Classification Report:
              precision    recall  f1-score   support

           0       0.76      0.92      0.83        59
           1       0.38      0.15      0.21        20

    accuracy                           0.72        79
   macro avg       0.57      0.53      0.52        79
weighted avg       0.66      0.72      0.67        79

Confusion Matrix:
[[54  5]
 [17  3]]
