## Parte 1: Preparación de Datos

1. Importar las bibliotecas necesarias:
   - sklearn.linear_model (LogisticRegression)
   - sklearn.svm (SVC)
   - sklearn.neighbors (KNeighborsClassifier)
   - sklearn.tree (DecisionTreeClassifier)
   - sklearn.model_selection (train_test_split)
   - sklearn.metrics (accuracy_score)
   
2. Preparar los datos:
   - Cargar el dataset iris
   - Separar features (X) y target (y)
   - Realizar la división train-test (70-30)

In [45]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

from sklearn import datasets
from sklearn.model_selection import train_test_split


In [46]:
iris = datasets.load_iris()

# Separasion de los datos por categoria y clase
X = iris.data   # feautres
y = iris.target # target

print("Shape de X:", X.shape)  # Debería ser (150, 4)
print("Shape de y:", y.shape)  # Debería ser (150,)


Shape de X: (150, 4)
Shape de y: (150,)


In [47]:
# Realizar la división train-test (70-30)
xTrain,xTest,yTrain,yTest = train_test_split(X,y, train_size = 0.7,shuffle=True,random_state=1)

In [48]:
print(f"Entrenando con {xTrain.shape[0]} muestras y {yTrain.shape[0]} etiquetas")


Entrenando con 105 muestras y 105 etiquetas


## Parte 2: Entrenamiento de Modelos

Para cada uno de los siguientes modelos:
1. Regresión Logística
2. Support Vector Machine (SVM)
3. K-Nearest Neighbors (KNN)
4. Árbol de Decisión

Realizar:
- Instanciar el modelo
- Entrenar con los datos de training
- Realizar predicciones con los datos de test
- Calcular y mostrar la precisión

In [49]:

# instanciar los modelos
logRegr = LogisticRegression()
svm = SVC()
knn = KNeighborsClassifier(n_neighbors=5)
arbol = DecisionTreeClassifier()

# entrenar a cada uno de los modelos con el 70 % de los datos
logRegr.fit(xTrain,yTrain)
svm.fit(xTrain,yTrain)
knn.fit(xTrain,yTrain)
arbol.fit(xTrain,yTrain)

# hacer los tests (predicciones) de cada modelo
predLogRegr = logRegr.predict(xTest)
predSvm = svm.predict(xTest)
predKnn = knn.predict(xTest)
predArbol = arbol.predict(xTest)

# sacar la precision de cada modelo
precisionLogRegr = accuracy_score(yTest,predLogRegr)
precisionSvm = accuracy_score(yTest,predSvm)
precisionKnn = accuracy_score(yTest,predKnn)
precisionArbol = accuracy_score(yTest,predArbol)

print(f"Accuracy Regresión Logística: {precisionLogRegr:.2f}")
print(f"Accuracy SVM: {precisionSvm:.2f}")
print(f"Accuracy KNN: {precisionKnn:.2f}")
print(f"Accuracy Árbol de Decisión: {precisionArbol:.2f}")

Accuracy Regresión Logística: 0.98
Accuracy SVM: 0.98
Accuracy KNN: 0.98
Accuracy Árbol de Decisión: 0.96


## Parte 3: Análisis Comparativo

1. Crear una tabla comparativa que incluya:
   - Nombre del modelo
   - Precisión obtenida
   - Tiempo de entrenamiento (opcional)

2. Repetir el proceso con diferentes semillas aleatorias:
   - Realizar 5 iteraciones con diferentes divisiones train-test
   - Registrar los resultados de cada iteración
   - Calcular media y desviación estándar de las precisiones

In [50]:
import pandas as pd

In [51]:
res = {
    "Modelo": ["Regresión Logística", "SVM", "KNN", "Árbol de Decisión"],
    "Precisión": [precisionLogRegr, precisionSvm, precisionKnn, precisionArbol]
}
# Crear un DataFrame con pandas
df_resultados = pd.DataFrame(res)

# Mostrar la tabla
print(df_resultados)


                Modelo  Precisión
0  Regresión Logística   0.977778
1                  SVM   0.977778
2                  KNN   0.977778
3    Árbol de Decisión   0.955556


In [52]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Semillas aleatorias para las 5 iteraciones
random_states = [1, 42, 7, 99, 123]

# Almacenar resultados
resultados = []

for seed in random_states:
    # Dividir los datos con una nueva semilla
    xTrain, xTest, yTrain, yTest = train_test_split(X, y, train_size=0.7, shuffle=True, random_state=seed)
    
    # Inicializar los modelos
    logRegr = LogisticRegression()
    svm = SVC()
    knn = KNeighborsClassifier(n_neighbors=5)
    arbol = DecisionTreeClassifier()

    # Entrenar los modelos
    logRegr.fit(xTrain, yTrain)
    svm.fit(xTrain, yTrain)
    knn.fit(xTrain, yTrain)
    arbol.fit(xTrain, yTrain)

    # Hacer predicciones
    predLogRegr = logRegr.predict(xTest)
    predSvm = svm.predict(xTest)
    predKnn = knn.predict(xTest)
    predArbol = arbol.predict(xTest)

    # Evaluar precisión
    acc_log = accuracy_score(yTest, predLogRegr)
    acc_svm = accuracy_score(yTest, predSvm)
    acc_knn = accuracy_score(yTest, predKnn)
    acc_arbol = accuracy_score(yTest, predArbol)

    # Guardar resultados de esta iteración
    resultados.append([seed, acc_log, acc_svm, acc_knn, acc_arbol])

# Convertir resultados en DataFrame
df_resultados = pd.DataFrame(resultados, columns=["Random State", "LogReg", "SVM", "KNN", "Decision Tree"])

# Calcular media y desviación estándar de cada modelo
mean_results = df_resultados.iloc[:, 1:].mean()
std_results = df_resultados.iloc[:, 1:].std()

# Mostrar la tabla con los resultados
print("\nResultados por iteración:")
print(df_resultados)

print("\nMedia de accuracies:")
print(mean_results)

print("\nDesviación estándar de accuracies:")
print(std_results)



Resultados por iteración:
   Random State    LogReg       SVM       KNN  Decision Tree
0             1  0.977778  0.977778  0.977778       0.955556
1            42  1.000000  1.000000  1.000000       1.000000
2             7  0.911111  0.888889  0.911111       0.911111
3            99  0.955556  0.933333  0.955556       0.955556
4           123  0.933333  0.911111  0.977778       0.933333

Media de accuracies:
LogReg           0.955556
SVM              0.942222
KNN              0.964444
Decision Tree    0.951111
dtype: float64

Desviación estándar de accuracies:
LogReg           0.035136
SVM              0.046081
KNN              0.033702
Decision Tree    0.032961
dtype: float64


## Parte 4: Conclusiones

1. Analizar los resultados:
   - ¿Qué modelo obtiene mejor precisión media?
         La regresión, svm y knn
   - ¿Qué modelo es más estable (menor variación entre iteraciones)?
         El de Decision Tree ya que al hacer la desviacion estandar es el mas bajo
   - ¿Qué modelo sería el más recomendable y por qué?
         El del arbol

2. Consideraciones adicionales:
   - Complejidad computacional
   - Facilidad de interpretación
   - Potencial de mejora mediante ajuste de hiperparámetros