<a href="https://colab.research.google.com/github/irahanjose/Aprendizaje-de-M-quina-con-Python/blob/main/Parte0_Practica2_NoteBook1Opcional.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Clasificación (Ejercicio Opcional)**

En esta práctica clasificaremos flores 3 tipos de flores Iris 💐, en función de las medidas de su sépalo y pétalo. Para clasificar usaremos un clasificador basado en máquinas de vectores de soporte, que analizaremos más detenidamente en el curso Cómo resolver problemas con aprendizaje supervisado.

Hecho con 💗 por alan@machinelearningenespanol.com

**Iniciemos**

Primero, exploremos los datos. Originalmente, los datos los podemos extraer [aquí](https://archive.ics.uci.edu/ml/datasets/iris).

Yo los descargué y solo puse los nombres de las columnas en español. Están en un repositorio de [Github](https://raw.githubusercontent.com/AlanCIO/Disruptora_Lab0P2/master/iris.data). Ejecuta la siguiente celda para cargar y ver el dataset.

In [None]:
# Almacenemos los datos en un dataframe
import pandas as pd  # Pandas ofrece estructuras de datos y operaciones para manipular tablas numéricas.
url = 'https://raw.githubusercontent.com/AlanCIO/Disruptora_Lab0P2/master/iris.data'
df = pd.read_csv(url)
df

Este es un problema de clasificación multiclase. Tenemos 3 clases: Iris setosa, Iris virgínica e Iris versicolor.

Como recordarás, en sklearn los pasos para elegir un modelo y entrenarlos son:
1. importar el modelo de sklearn
2. crear el modelo
3. entrenar el modelo
4. **Hacer predicciones**

Agregamos uno, Hacer predicciones. Es decir intentar asignar una clase a un ejemplo nuevo.

In [None]:
import numpy as np                # Usaremos numpy para trabajar con arreglos. Pandas está basado en numpy
import matplotlib.pyplot as plt   # Usaremos pyplot para graficar y ver cómo se ven los datos
 
# Como la clasificación de flores Iris es el "Hola Mundo" del aprendizaje de máquina,
# sklearn tiene este dataset. Por simplicidad, usaremos el dataset de sklearn en lugar del dataframe que recuperamos
# de Github. No te preocupes que son exactamente los mismos datos.

from sklearn.datasets import load_iris
IrisDataset = load_iris() # Cargar los datos
X = IrisDataset.data      # X contiene los 4 atributos:longitud del sépalo,ancho del sépalo,longitud del pétalo,ancho del pétalo
y = IrisDataset.target    # y contiene las etiquetas. Como las etiquetas es el valor que se intenta aprender,
                          # también reciben el nombre de target o en español, objetivo.

#Elegir dos características:
# 0 => Longitud del sépalo
# 1 => Ancho del sépalo
# 2 => Longitud del pétalo
# 3 => Ancho del pétalo
caracteristica_1 = 0
caracteristica_2 = 1
X = X[:,[caracteristica_1,caracteristica_2]] # X ahora contiene solo los atributos 1 y 2 que seleccionaste

from sklearn.svm import SVC     #Importar el modelo
clf = SVC()                     # Crear el modelo
clf = clf.fit(X, y)             # Entrenar el modelo

# Ya que tenemos un modelo entrenado, podemos predecir.
# Grafiquemos el límite de decisión.

# Crear una malla de puntos. Después usar el modelo para predecir la
# etiqueta para cada punto de la malla. 
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) #Predicción
Z = Z.reshape(xx.shape)

# Graficar resultados
plt.contourf(xx, yy, Z)
plt.scatter(X[:, 0], X[:, 1], c=y, edgecolor='black')
plt.xlabel(IrisDataset.feature_names[caracteristica_1])
plt.ylabel(IrisDataset.feature_names[caracteristica_2])

# Evaluar el modelo: Árbol de decisión
from sklearn.metrics import accuracy_score  
y_pred = clf.predict(X)                             # Usar los ejemplos de prueba para predecir

print('Calificación: ', accuracy_score(y, y_pred))  # Comparar las predicciones con los valores
                                                    # reales de las etiquetas de prueba

**Responde** 🛑

¿Qué combinación de atributos usando qué clasificador te dió la mejor calificación?

Por ejemplo, ¿qué es mejor:

*   un árbol de decisión con ancho del sépalo y lóngitud del pétalo?
*   una máquina de vectores de soporte con la longitud del sépalo y el ancho del pétalo?





---
## **Regresión (Ejercicio Opcional)**

Para el problema usaremos un regresor basado en máquinas de vectores de soporte, que analizaremos más detenidamente en el curso Cómo resolver problemas con aprendizaje supervisado. Usaremos datos sintéticos (inventados)

Hecho con 💗 por alan@machinelearningenespanol.com


In [None]:
#Importar módulos necesarios. Ya lo hemos hecho en la celda de arriba, pero para acostumbrarnos....
import numpy as np
import matplotlib.pyplot as plt

# Crear datos sintéticos aleatorios
rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)      # X tiene un atributo
y = np.sin(X).ravel()                         # y contiene el valor real
y[::5] += 3 * (0.5 - rng.rand(16))            # Agregar ruido

# Entrenar el modelo
from sklearn.svm import SVR  # Importar
regr = SVR()                 # Crear
regr.fit(X, y)               # Entrenar o ajustar

# Predecir
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_test = regr.predict(X_test)

# Graficar los resultados
plt.scatter(X, y, s=20, edgecolor="black", label="Datos")
plt.plot(X_test, y_test, label="Regresor | Vectores de Soporte", linewidth=2)
plt.xlabel("Datos")
plt.ylabel("target")
plt.legend()