# Capítulo 5. Cuestionario

1. **¿Cuál de las siguientes declaraciones sobre el aprendizaje supervisado es incorrecta?**
    1. El aprendizaje supervisado consiste en realizar predicciones correctamente con datos dados a partir de datos de capacitación.
    2. La precisión es la relación entre lo que el modelo clasifica como verdadero y lo que realmente clasifica como verdadero. Puede denominarse tasa de respuesta.
    3. La tasa de recuperación es la relación entre lo que el modelo predice como verdadero y lo que es realmente verdadero.
    4. ~~La tasa de recuperación se calcula como $\frac{tp}{tp+fp}$ (donde *tp* es verdadero positivo y *fp* es falso positivo)~~


2. **¿Cuál es el método de estimación de los coeficientes de regresión en el análisis de regresión?**

    a) El metodo utilizado para la estimacion de coeficientes de regresion es el de **minimo cuadrados** el cual se establece por la formula

    $$
        SSE = \sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}
    $$

3. **¿Cuál de las siguientes declaraciones sobre el sobreajuste es incorrecta?**

    1. Una característica de un patrón encontrado en un conjunto de datos específico que sólo existe en ese conjunto de datos, o una característica de un patrón que no se generaliza y sólo existe en unos datos específicos se denomina sobreajuste.
    2. Los métodos de extracción utilizados para resolver el problema del sobreajuste incluyen el método holdout, el método de validación cruzada, el método bootstrap, etc.
    3. En el método holdout, la validación cruzada se realiza dividiendo los datos de capacitación para el aprendizaje y la construcción del modelo y los datos de verificación para la evaluación del cumplimiento, y los resultados de los datos de verificación se utilizan únicamente para la medición del cumplimiento sin afectar al modelo.
    4. ~~El método de validación cruzada es un método para volver a seleccionar los datos de capacitación repetidamente y basado en la extracción de restauración, y es adecuado cuando la cantidad total de datos no es grande.~~


4. **¿Cuál de las siguientes afirmaciones sobre el modelo de árbol de decisión es incorrecta?**
    1. Los árboles de decisión se utilizan para la predicción de la quiebra de empresas, la predicción del precio máximo de las acciones, la predicción de la tasa de cambio y la predicción de las perspectivas económicas.
    2. El algoritmo CHAID(Detección Automática de Interacción Chi-cuadrado) es un algoritmo que realiza la separación utilizando el chi-cuadrado o la prueba F. 
    3. ~~El algoritmo CART(Árboles de clasificación y regresión) es un algoritmo que realiza la separación utilizando el índice de Gini, y 100 representa un nodo perfectamente puro entre 0 y 100.~~
    4. El índice de entropía del algoritmo C4.5 puede obtenerse utilizando el estadístico de prueba de razón de verosimilitud en la distribución polinómica y restando la entropía del nodo hijo de la entropía del nodo padre. 


5. **Cuando he entrenado un clasificador SVM utilizando el núcleo RBF, parece que no se ajusta al conjunto de capacitación. ¿Deberíamos aumentar gamma o disminuir gamma? ¿Qué pasa con C?**

    a) Gamma deberia de aumentar, al igual que C esto permitiendo que gamma capte patrones en los datos y C reduce el subajuste permitiendo que el modelo se ajuste de mejor manera al conjunto de entrenamiento

6. **Utilice el algoritmo KNN para clasificar los datos del código siguiente y calcule la exactitud, la llamada y la
precisión. Establezca el valor de adyacencia en 5**

In [24]:
# Import all necessary libraries.
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics, preprocessing

In [25]:
# Cargar datos
data = load_breast_cancer()
X = data['data']
Y = 1 - data['target'] # 0 = 'benign' y 1 = malignant.

# Dividir el conjunto de datos en capacitación y pruebas.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.4, random_state=1234)

In [26]:
knn5 = KNeighborsClassifier(n_neighbors=5) # Crear un clasificador KNN con 5 vecinos.
knn5.fit(X_train, Y_train) # Ajustar el clasificador a los datos de entrenamiento.
Y_pred = knn5.predict(X_test) # Predecir las etiquetas de clase en el conjunto de prueba.

# Imprimir métricas de evaluación.
print("Exactitud: " + str(metrics.accuracy_score(Y_test, Y_pred)))
print("Recall: " + str(metrics.recall_score(Y_test, Y_pred)))
print("Precisión: " + str(metrics.precision_score(Y_test, Y_pred)))

Exactitud: 0.9254385964912281
Recall: 0.8571428571428571
Precisión: 0.935064935064935


In [27]:
scaler = preprocessing.StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [28]:
knn = KNeighborsClassifier()
param_grid = {
    'n_neighbors': [3, 5, 7, 9, 11],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

grid_search = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_scaled, Y_train)

best_knn = grid_search.best_estimator_

Y_pred = best_knn.predict(X_test_scaled)

accuracy = metrics.accuracy_score(Y_test, Y_pred)
precision = metrics.precision_score(Y_test, Y_pred)
recall = metrics.recall_score(Y_test, Y_pred)
f1 = metrics.f1_score(Y_test, Y_pred)

print(f"Mejores parametros encontrados {grid_search.best_params_}")
print(f"Exactitud: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1: {f1}")

Mejores parametros encontrados {'metric': 'euclidean', 'n_neighbors': 5, 'weights': 'uniform'}
Exactitud: 0.9342105263157895
Precision: 1.0
Recall: 0.8214285714285714
F1: 0.9019607843137255
