# 1 ejercicio

En primer lugar, cargaríamos y preprocesaríamos los datos. Como no hay datos que falten, el paso de preprocesamiento sólo incluiría la normalización de las variables de características.

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Load the dataset
df = pd.read_csv('wineData.txt', delimiter=',', names=[
    "Class",
    "Alcohol",
    "Malic acid",
    "Ash",
    "Alcalinity of ash",
    "Magnesium",
    "Total phenols",
    "Flavanoids",
    "Nonflavanoid phenols",
    "Proanthocyanins",
    "Color intensity",
    "Hue",
    "OD280/OD315 of diluted wines",
    "Proline",
])

# Split into features and target
X = df.drop(columns=['Class'])
y = df['Class']

# Split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Standardize the features
scaler = StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)



Así implementaríamos un clasificador de árbol de decisión:

In [11]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Entrenar un clasificador de árbol de decisión
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# Predecir en el conjunto de pruebas
y_pred = clf.predict(X_test)

# Comprobar la precisión
print("Precisión del clasificador de árbol de decisión: ", accuracy_score(y_test, y_pred))


Accuracy of Decision Tree Classifier:  0.9629629629629629


Y así es como implementaríamos SVM:

In [13]:
from sklearn import svm

# Entrenar una SVM
clf = svm.SVC()
clf.fit(X_train, y_train)

# Predecir en el conjunto de pruebas
y_pred = clf.predict(X_test)

# Comprobar la precisión
print("Precisión de SVM: ", accuracy_score(y_test, y_pred))


Precisión de la máquina de vectores soporte:  0.9814814814814815


# 2 ejercicio

Vamos a comparar dos modelos como ejemplos: el Clasificador de Árbol de Decisión y SVM. 

Para la comparación, usaremos exactitud (accuracy), matriz de confusión, precisión, recall y F1-score.

In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Entrenar un Clasificador de Árbol de Decisión
clf_tree = DecisionTreeClassifier()
clf_tree.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred_tree = clf_tree.predict(X_test)

# Entrenar una SVM
clf_svm = svm.SVC()
clf_svm.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred_svm = clf_svm.predict(X_test)

# Revisar la exactitud
print("Exactitud del Clasificador de Árbol de Decisión: ", accuracy_score(y_test, y_pred_tree))
print("Exactitud de SVM: ", accuracy_score(y_test, y_pred_svm))

# Matriz de Confusión
print("Matriz de Confusión del Clasificador de Árbol de Decisión: ")
print(confusion_matrix(y_test, y_pred_tree))
print("Matriz de Confusión de SVM: ")
print(confusion_matrix(y_test, y_pred_svm))

# Precisión, Recall y F1-Score
print("Informe de Clasificación del Clasificador de Árbol de Decisión: ")
print(classification_report(y_test, y_pred_tree))
print("Informe de Clasificación de la Máquina de Vectores de Soporte: ")
print(classification_report(y_test, y_pred_svm))


Exactitud del Clasificador de Árbol de Decisión:  0.9629629629629629
Exactitud de la Máquina de Vectores de Soporte:  0.9814814814814815
Matriz de Confusión del Clasificador de Árbol de Decisión: 
[[18  1  0]
 [ 0 21  0]
 [ 1  0 13]]
Matriz de Confusión de la Máquina de Vectores de Soporte: 
[[19  0  0]
 [ 0 21  0]
 [ 0  1 13]]
Informe de Clasificación del Clasificador de Árbol de Decisión: 
              precision    recall  f1-score   support

           1       0.95      0.95      0.95        19
           2       0.95      1.00      0.98        21
           3       1.00      0.93      0.96        14

    accuracy                           0.96        54
   macro avg       0.97      0.96      0.96        54
weighted avg       0.96      0.96      0.96        54

Informe de Clasificación de la Máquina de Vectores de Soporte: 
              precision    recall  f1-score   support

           1       1.00      1.00      1.00        19
           2       0.95      1.00      0.98        

Exactitud (Accuracy):

Clasificador de Árbol de Decisión: 96.3%
Máquina de Vectores de Soporte: 98.1%
Ambos modelos tienen una alta exactitud, pero SVM tiene una exactitud ligeramente mayor.

Matriz de Confusión:

Clasificador de Árbol de Decisión: Ha clasificado erróneamente un vino de la clase 1 como clase 2 y un vino de la clase 3 como clase 1.
Máquina de Vectores de Soporte: Ha clasificado erróneamente un vino de la clase 3 como clase 2.
De nuevo, ambos modelos tienen un buen rendimiento, pero la Máquina de Vectores de Soporte ha cometido menos errores.

Informe de Clasificación:

Clasificador de Árbol de Decisión: Tiene una precisión y recall muy altas para todas las clases, con la clase 3 teniendo una recall del 93%.
SVM: Tiene una precisión del 100% para las clases 1 y 3 y del 95% para la clase 2. El recall es del 100% para las clases 1 y 2, y del 93% para la clase 3.
De nuevo, ambos modelos tienen una alta precisión y recall, pero SVM tiene una ligeramente mayor precisión en las clases 1 y 3 en comparación con el Clasificador de Árbol de Decisión.

En resumen, ambos modelos son muy buenos para clasificar los vinos en las tres clases basándose en las características químicas dadas. Sin embargo, SVM ha demostrado un rendimiento ligeramente mejor en esta tarea específica. Eso sí, hay que tener en cuenta que estos resultados pueden variar si cambiamos la semilla aleatoria o si utilizamos diferentes conjuntos de entrenamiento y prueba.

Precisión - nos indica qué proporción de positivos predichos es verdaderamente positiva.
Recall - nos indica qué proporción de positivos reales se clasifica correctamente.
F1-Score - la media armónica de la precisión y el recall.

# 3 ejercicio

Aqui vamos usar RandomizedSearchCV. RandomizedSearchCV es una técnica de ajuste de hiperparámetros en aprendizaje automático. Los hiperparámetros son las "configuraciones" de un algoritmo de aprendizaje automático que se deben definir antes de entrenar el modelo. Diferentes configuraciones pueden producir diferentes resultados, y el objetivo es encontrar la configuración que produzca los mejores resultados en tus datos.

In [16]:
from sklearn.model_selection import RandomizedSearchCV
import numpy as np
import warnings
warnings.filterwarnings('ignore', category=UserWarning)


# Parámetros para el Clasificador de Árbol de Decisión
params_tree = {'max_depth': [None] + list(np.arange(2, 20)),
               'min_samples_split': np.arange(2, 20),
               'min_samples_leaf': np.arange(1, 20)}

random_search_tree = RandomizedSearchCV(DecisionTreeClassifier(), params_tree, n_iter=100, cv=5)
random_search_tree.fit(X_train, y_train)

print("Mejores parámetros para el Clasificador de Árbol de Decisión: ", random_search_tree.best_params_)

# Parámetros para SVM
params_svm = {'C': np.logspace(-3, 2, 6),
              'gamma': np.logspace(-3, 2, 6),
              'kernel': ['linear', 'rbf']}

random_search_svm = RandomizedSearchCV(svm.SVC(), params_svm, n_iter=100, cv=5)
random_search_svm.fit(X_train, y_train)

print("Mejores parámetros para SVM: ", random_search_svm.best_params_)


Mejores parámetros para el Clasificador de Árbol de Decisión:  {'min_samples_split': 11, 'min_samples_leaf': 6, 'max_depth': 14}
Mejores parámetros para SVM:  {'kernel': 'linear', 'gamma': 0.001, 'C': 1.0}


Para el Clasificador de Árbol de Decisión:

'min_samples_split': 11, significa que el número mínimo de muestras requeridas para dividir un nodo interno es 11. En otras palabras, un nodo se dividirá si contiene al menos 11 muestras.
'min_samples_leaf': 6, significa que el número mínimo de muestras requeridas para ser un nodo hoja es 6. Un nodo dividido generará al menos un nodo hijo que contenga al menos 6 muestras.
'max_depth': 14, indica la profundidad máxima del árbol. Los árboles más profundos pueden modelar relaciones más complejas al agregar más divisiones en el árbol, pero también pueden causar sobreajuste.

Para SVM:

'kernel': 'linear', significa que se está utilizando una función de kernel lineal para transformar los datos. Las funciones de kernel se utilizan para transformar los datos a una dimensión superior donde se pueden separar con un hiperplano.
'gamma': 0.001, es el coeficiente para las funciones de kernel 'rbf', 'poly' y 'sigmoid'. Dado que estás utilizando un kernel 'linear', este parámetro no es relevante en este contexto.
'C': 1.0, es el parámetro de penalización del término de error. Un valor más pequeño de C crea un margen más amplio, lo que puede dar lugar a más errores de clasificación. Un valor más grande de C crea un margen más pequeño, que puede hacer que el modelo se ajuste demasiado a los datos de entrenamiento.

# 4 ejercicio

Para comparar el rendimiento de los modelos utilizando los enfoques de entrenamiento/prueba y validación cruzada, necesitaríamos ejecutar ambos procesos y luego comparar los resultados

In [19]:
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC


# Clasificador de Arbol de Decisión con los mejores parámetros
dtc = DecisionTreeClassifier(min_samples_split=11, min_samples_leaf=6, max_depth=14)
dtc.fit(X_train, y_train)

# SVM con los mejores parámetros
svm = SVC(kernel='linear', gamma=0.001, C=1.0)
svm.fit(X_train, y_train)

# Puntuaciones de validación cruzada
dtc_cv_scores = cross_val_score(dtc, X, y, cv=5)
svm_cv_scores = cross_val_score(svm, X, y, cv=5)

# Imprimir puntuaciones de validación cruzada promedio
print('Puntuación promedio de validación cruzada para Clasificador de Árbol de Decisión: ', dtc_cv_scores.mean())
print('Puntuación promedio de validación cruzada para SVM: ', svm_cv_scores.mean())

# Puntuaciones de entrenamiento/prueba
dtc_test_score = dtc.score(X_test, y_test)
svm_test_score = svm.score(X_test, y_test)

# Imprimir puntuaciones de entrenamiento/prueba
print('Puntuación de entrenamiento/prueba para Clasificador de Árbol de Decisión: ', dtc_test_score)
print('Puntuación de entrenamiento/prueba para SVM: ', svm_test_score)


Puntuación promedio de validación cruzada para Clasificador de Árbol de Decisión:  0.8771428571428572
Puntuación promedio de validación cruzada para SVM:  0.961111111111111
Puntuación de entrenamiento/prueba para Clasificador de Árbol de Decisión:  0.9444444444444444
Puntuación de entrenamiento/prueba para SVM:  0.9814814814814815


Puntuación promedio de validación cruzada para el Clasificador de Árbol de Decisión: Este valor (0.877) indica que, en promedio, el Clasificador de Árbol de Decisión es capaz de clasificar correctamente el 87.7% de los casos en diferentes particiones de los datos durante el proceso de validación cruzada. La validación cruzada es una técnica utilizada para evaluar la capacidad del modelo para generalizar a datos no vistos.

Puntuación promedio de validación cruzada para SVM: Este valor (0.961) indica que, en promedio, el modelo SVM es capaz de clasificar correctamente el 96.1% de los casos en diferentes particiones de los datos durante el proceso de validación cruzada. Esto sugiere que el modelo SVM tiene un rendimiento superior al Clasificador de Árbol de Decisión en términos de validación cruzada.

Puntuación de entrenamiento/prueba para el Clasificador de Árbol de Decisión: Este valor (0.944) indica que el Clasificador de Árbol de Decisión es capaz de clasificar correctamente el 94.4% de los casos en el conjunto de datos de prueba.

Puntuación de entrenamiento/prueba para SVM: Este valor (0.981) indica que el modelo SVM es capaz de clasificar correctamente el 98.1% de los casos en el conjunto de datos de prueba. Esto sugiere que el modelo SVM también tiene un rendimiento superior al Clasificador de Árbol de Decisión en el conjunto de prueba.

# 5 ejercicio

Con esta tecnica "Selección de características" podríamos aplicar algún método de selección de características para reducir la dimensionalidad y eliminar las características menos informativas. No todas las características son igualmente útiles para la predicción.

In [22]:
from sklearn.feature_selection import RFE

# Crear el RFE object y clasificar en base a la potencia de los predictores
selector = RFE(svm, n_features_to_select=10, step=1)
selector = selector.fit(X_train, y_train)

# Aplicar la selección de características al conjunto de entrenamiento y prueba
X_train_rfe = selector.transform(X_train)
X_test_rfe = selector.transform(X_test)

# Volver a entrenar el modelo con las características seleccionadas
svm.fit(X_train_rfe, y_train)

# Evaluar el modelo
print('Puntuación con características seleccionadas: ', svm.score(X_test_rfe, y_test))


Puntuación con características seleccionadas:  0.9814814814814815


La puntuación que se obtiene después de realizar la selección de características es una medida de la precisión del modelo en la clasificación de los datos de prueba. En este caso, la puntuación es de 0.981, lo que indica que el modelo fue capaz de predecir correctamente el 98.1% de las instancias en el conjunto de datos de prueba

El hecho de que esta puntuación sea igual a la puntuación obtenida antes de la selección de características sugiere que las características que eliminamos no eran esenciales para la predicción. Asi podemos reducir la complejidad del modelo (al usar menos características) sin sacrificar el rendimiento.