## Perceptrón Usando scikit-learn

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
# en esta ocasión importaremos el dataset desde la biblioteca scikit-learn:
# https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection
from sklearn import datasets
from sklearn import model_selection

iris = datasets.load_iris()

#Extraemos la primera y tercera columna del dataset como características de entrada
# columna 0 : longitud de sépalo, columna 2 : longitud de pétalo
X = iris.data[:, [2, 3]]
y = iris.target

print('Class labels:', np.unique(y))

# np.unique devuelve las únicas 3 etiquetas de clase en iris.target Iris-setosa, Iris-versicolor, Iris-virginica

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True, random_state=1,  stratify = y)

#Comprobamos el resultado de stratify = y
print('Número de etiquetas en y: ', np.bincount(y))
    
print('Número de etiquetas en y_train: ', np.bincount(y_train))

print('Número de etiquetas en y_test: ', np.bincount(y_test))

In [None]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
sc.fit(X_train)                     # Estima los parámetros de media y desvío
X_train_std = sc.transform(X_train) # Normaliza los datos usando las estimaciones
X_test_std = sc.transform(X_test)   # Se utilizan los mismos parámetros para
                                    # los datos de entrenamiento y de prueba

In [None]:
# Entrenamiento
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score

ppn = Perceptron(max_iter=25, eta0=0.1, random_state=1, shuffle=True)
ppn.fit(X_train_std, y_train)

# Usamos random_state = 1 para asegurar la reproducibilidad del shuffling inicial 
# del dataset en cada época al inicio del entrenamiento

In [None]:
# Atributos de la clase perceptron
print(f"clases: {ppn.classes_}")

print(f"vector de pesos: {ppn.coef_}")


In [None]:
# Predicción    
y_pred = ppn.predict(X_test_std)
mal_clasificadas = (y_test != y_pred).sum()
print(f'Muestras mal clasificadas: {mal_clasificadas}/{len(X_test_std)}')
error = (mal_clasificadas)/len(X_test_std)
print(f'Error de clasificación: {error:.2f}')

In [None]:
# Cálculo de la precisión
accuracy_pred = (1 - error)
print(f'Precisión: {accuracy_pred:.2f}')

In [None]:
# usando métricas de scikit-learn
from sklearn.metrics import accuracy_score
accuracy_pred = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy_pred:.2f}')

In [None]:
# Predicción y cálculo de la precisión
accuracy_pred = ppn.score(X_test_std, y_test) # combina la predicción con el cálculo de la precisión
print(f'Precisión de clasificación: {accuracy_pred:.2f}')

In [None]:
from utiles import plot_decision_regions

X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))
plt.figure(figsize=(10,7))
plot_decision_regions( X=X_combined_std, y=y_combined, clasificador=ppn, test_idx=range(105, 150))
plt.xlabel('longitud de pétalo [escalado]')
plt.ylabel('ancho de pétalo [escalado]')
plt.legend(loc='upper left')
plt.tight_layout()
plt.show()

# Actividad Semana6

Usando el dataset de Diabetes compare los 3 clasificadores vistos hasta ahora: KNN, SVM y PS. Pruebe distintas configuraciones para cada clasificador y seleccione la de mejor desempeño usando [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html). Haga una tabla comparativa con los resultados. Utilice como medida de desempeño la tasa de aciertos o Accuracy.