**Problema:** Clasificación de flores Iris


**Descripción del problema:** El conjunto de datos Iris es un conjunto de datos popular en la ciencia de datos y se utiliza para clasificar tres especies diferentes de flores Iris (Setosa, Versicolor y Virginica) en función de cuatro características: longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo. El objetivo es construir un modelo de clasificación en Python que pueda predecir la especie de flor Iris en función de estas características.

- **Josafat Argudas Gutiérrez**
- **Francisco Arias Sanabria**
- **Gerardo Salazar Vargas**

**Precisión (Precision):** La precisión es una métrica que mide la proporción de verdaderos positivos (TP) en relación con todos los positivos predichos. En otras palabras, cuántos de los casos clasificados como positivos fueron realmente positivos. La fórmula es la siguiente:

$$
 \text{Precisión} = \frac{TP}{TP + FP} \
$$
- TP (Verdaderos positivos): Número de casos positivos correctamente clasificados.
- FP (Falsos positivos): Número de casos negativos incorrectamente clasificados como positivos.

**Recuperación (Recall):** La recuperación, también conocida como sensibilidad o tasa verdadera positiva, mide la proporción de verdaderos positivos en relación con todos los casos reales positivos. En otras palabras, cuántos de los casos positivos reales fueron detectados correctamente. La fórmula es la siguiente:
$$
 \text{Recall} = \frac{TP}{TP + FN}
$$
- FN (Falsos negativos): Número de casos positivos reales incorrectamente clasificados como negativos.

**Puntuación F1 (F1-score):** La puntuación F1 es una métrica que combina la precisión y la recuperación en un solo número. Es útil cuando se desea encontrar un equilibrio entre ambas métricas. Se calcula mediante la siguiente fórmula:
$$
 \text{F1-score} = \frac{2 \cdot (\text{Precisión} \cdot \text{Recall})}{\text{Precisión} + \text{Recall}}
$$
La puntuación F1 es especialmente útil cuando los falsos negativos y falsos positivos tienen un impacto significativo en el problema.

**Soporte (Support):** El soporte es la cantidad real de casos de una clase particular en el conjunto de datos. Proporciona información sobre cuántos ejemplos pertenecen a cada clase y se utiliza para calcular las métricas anteriores. El soporte se encuentra en la última columna del informe de clasificación.

**Precisión global (Accuracy):** La precisión global mide la proporción de predicciones correctas en relación con todas las predicciones realizadas. Es una métrica que evalúa la precisión del modelo en general. La fórmula es la siguiente:
$$
 \text{Precisión global (Accuracy)} = \frac{TP + TN}{TP + TN + FP + FN}
$$
- TP (Verdaderos positivos): Número de casos positivos correctamente clasificados.
- TN (Verdaderos negativos): Número de casos negativos correctamente clasificados.
- FP (Falsos positivos): Número de casos negativos incorrectamente clasificados como positivos.
- FN (Falsos negativos): Número de casos positivos incorrectamente clasificados como negativos.

**Matriz de Confusión (Confusion Matrix):** La matriz de confusión es una tabla que muestra el rendimiento del modelo para diferentes clases. En una matriz de confusión, las filas representan las clases reales y las columnas representan las clases predichas. Las celdas de la matriz indican el número de ejemplos que fueron clasificados en cada categoría. La matriz de confusión se utiliza para calcular todas las métricas anteriores.

En resumen, estas métricas son fundamentales en la evaluación de modelos de clasificación y ayudan a entender cómo un modelo se comporta en términos de clasificación de diferentes clases. Cada métrica tiene su propio enfoque y se utiliza en diferentes contextos según las necesidades del problema.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

def clasificar_iris(url, test_size=0.2, n_neighbors=3):
    # Cargar el conjunto de datos Iris desde una URL
    column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
    iris_data = pd.read_csv(url, names=column_names)

    # Dividir los datos en características (X) y etiquetas (y)
    X = iris_data.iloc[:, :-1].values
    y = iris_data['species'].values

    # Dividir los datos en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42)

    # Normalizar las características para que tengan una escala común
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    # Crear un modelo de clasificación de vecinos más cercanos (K-NN)
    knn = KNeighborsClassifier(n_neighbors=n_neighbors)
    knn.fit(X_train, y_train)

    # Realizar predicciones en el conjunto de prueba
    y_pred = knn.predict(X_test)

    # Evaluar el rendimiento del modelo
    accuracy = accuracy_score(y_test, y_pred)
    confusion = confusion_matrix(y_test, y_pred)
    report = classification_report(y_test, y_pred)

    return accuracy, confusion, report

# Ejemplo de uso
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
accuracy, confusion, classification_report = clasificar_iris(url)
print(f"Precisión del modelo: {accuracy}")
print("Matriz de confusión:")
print(confusion)
print("Informe de clasificación:")
print(classification_report)

Precisión del modelo: 1.0
Matriz de confusión:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
Informe de clasificación:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30

