In [18]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import warnings
warnings.filterwarnings("ignore")

df = pd.read_csv("../drugs.csv")

##### Se convierten columnas cualitativas a numéricas:

In [19]:
cualitativas = df.select_dtypes(include=['object']).columns
label_encoder = LabelEncoder()
for col in cualitativas:
    df[col] = label_encoder.fit_transform(df[col])
print(df.head())

   Age  Sex  BP  Cholesterol  Na_to_K  Drug
0   23    0   0            0   25.355     4
1   47    1   1            0   13.093     2
2   47    1   1            0   10.114     2
3   28    0   2            0    7.798     3
4   61    0   1            0   18.043     4


## Random Forest

In [20]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Separar las características y la variable objetivo
X = df.drop('Drug', axis=1) 
y = df['Drug']  

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# Crear y entrenar el modelo Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=1)
model.fit(X_train, y_train)

#  Evaluar el modelo
y_pred = model.predict(X_test)

# Métricas de evaluación
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f'Matriz de Confusión: \n, {conf_matrix}')
print(f'Informe de Clasificación:\n, {class_report}')
print(f'Precisión del modelo: {accuracy:.2f}')

Matriz de Confusión: 
, [[ 4  0  0  0  0]
 [ 0  2  0  0  0]
 [ 0  0  3  1  0]
 [ 0  0  0 13  0]
 [ 0  0  0  0 17]]
Informe de Clasificación:
,               precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       1.00      1.00      1.00         2
           2       1.00      0.75      0.86         4
           3       0.93      1.00      0.96        13
           4       1.00      1.00      1.00        17

    accuracy                           0.97        40
   macro avg       0.99      0.95      0.96        40
weighted avg       0.98      0.97      0.97        40

Precisión del modelo: 0.97


## Gradient Boosting

In [21]:
from sklearn.ensemble import GradientBoostingClassifier

# Separar las características y la variable objetivo
X = df.drop('Drug', axis=1)  
y = df['Drug']  

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# Crear y entrenar el modelo Gradient Boosting
model = GradientBoostingClassifier(n_estimators=100, random_state=1)
model.fit(X_train, y_train)

# Evaluar el modelo
y_pred = model.predict(X_test)

# Métricas de evaluación
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print('Matriz de Confusión:\n', conf_matrix)
print(f'Informe de Clasificación: \n {class_report}')
print(f'Precisión del modelo: {accuracy:.2f}')

Matriz de Confusión:
 [[ 4  0  0  0  0]
 [ 0  2  0  0  0]
 [ 0  0  4  0  0]
 [ 0  0  0 13  0]
 [ 0  0  0  0 17]]
Informe de Clasificación: 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       1.00      1.00      1.00         2
           2       1.00      1.00      1.00         4
           3       1.00      1.00      1.00        13
           4       1.00      1.00      1.00        17

    accuracy                           1.00        40
   macro avg       1.00      1.00      1.00        40
weighted avg       1.00      1.00      1.00        40

Precisión del modelo: 1.00


## Ada Boost

In [22]:
from sklearn.ensemble import AdaBoostClassifier

# Separar las características y la variable objetivo
X = df.drop('Drug', axis=1) 
y = df['Drug'] 

#  Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# Crear y entrenar el modelo AdaBoost
model = AdaBoostClassifier(n_estimators=100, random_state=1)
model.fit(X_train, y_train)

# Evaluar el modelo
y_pred = model.predict(X_test)

# Métricas de evaluación
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print('Matriz de Confusión:\n', conf_matrix)
print(f'Informe de Clasificación: \n {class_report}')
print(f'Precisión del modelo: {accuracy:.2f}')

Matriz de Confusión:
 [[ 4  0  0  0  0]
 [ 2  0  0  0  0]
 [ 0  0  0  4  0]
 [ 0  0  0 13  0]
 [ 0  0  0  0 17]]
Informe de Clasificación: 
               precision    recall  f1-score   support

           0       0.67      1.00      0.80         4
           1       0.00      0.00      0.00         2
           2       0.00      0.00      0.00         4
           3       0.76      1.00      0.87        13
           4       1.00      1.00      1.00        17

    accuracy                           0.85        40
   macro avg       0.49      0.60      0.53        40
weighted avg       0.74      0.85      0.79        40

Precisión del modelo: 0.85


##### El modelo que mejores resultados obtuvo fue "Gradient Boost", seguido de "Random Forest" y por último "Ada Boost". La diferencia entre Gradient Goost y random forest no es demasiada, pero si mejor en la primera