In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Cargar el conjunto de datos de Iris
iris = load_iris()
X, y = iris.data, iris.target

# División del conjunto de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicialización del modelo
model = RandomForestClassifier()

# Entrenamiento del modelo
model.fit(X_train, y_train)

# Evaluación del modelo
accuracy = model.score(X_test, y_test)
print("Exactitud del modelo:", accuracy)

# Ajuste de hiperparámetros con búsqueda de cuadrícula
param_grid = {'n_estimators': [100, 200, 300],
              'max_depth': [None, 10, 20]}
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Mejor configuración de hiperparámetros
best_params = grid_search.best_params_
print("Mejores hiperparámetros:", best_params)


Exactitud del modelo: 1.0
Mejores hiperparámetros: {'max_depth': None, 'n_estimators': 300}



Ejercicio 1: Selección del Algoritmo
a) Algoritmos de Clasificación en Scikit-Learn:


In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# Carga del conjunto de datos
data = load_iris()
X = data.data
y = data.target
# División del conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Inicialización y entrenamiento del modelo de Árbol de Decisión
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
# Predicción en el conjunto de prueba
y_pred = model.predict(X_test)
# Evaluación del rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Exactitud del modelo:", accuracy)


Exactitud del modelo: 1.0


Ejercicio 2: Preparación de Datos
a) Cargar un conjunto de datos en Python:


In [None]:
import pandas as pd
# Cargar el conjunto de datos desde un archivo CSV
data = pd.read_csv('iris_data.csv')

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


b) Exploración del conjunto de datos:


In [None]:
# Visualizar las primeras filas del conjunto de datos
print(data.head())
# Verificar la presencia de valores faltantes
print(data.isnull().sum())
# Explorar las estadísticas descriptivas del conjunto de datos
print(data.describe())

   5.1  3.5  1.4  0.2  Iris-setosa
0  4.9  3.0  1.4  0.2  Iris-setosa
1  4.7  3.2  1.3  0.2  Iris-setosa
2  4.6  3.1  1.5  0.2  Iris-setosa
3  5.0  3.6  1.4  0.2  Iris-setosa
4  5.4  3.9  1.7  0.4  Iris-setosa
5.1            0
3.5            0
1.4            0
0.2            0
Iris-setosa    0
dtype: int64
              5.1         3.5         1.4         0.2
count  149.000000  149.000000  149.000000  149.000000
mean     5.848322    3.051007    3.774497    1.205369
std      0.828594    0.433499    1.759651    0.761292
min      4.300000    2.000000    1.000000    0.100000
25%      5.100000    2.800000    1.600000    0.300000
50%      5.800000    3.000000    4.400000    1.300000
75%      6.400000    3.300000    5.100000    1.800000
max      7.900000    4.400000    6.900000    2.500000


c) Aplicar técnicas de preprocesamiento de datos:


In [None]:
data.columns
print(data['Iris-setosa'].value_counts())
print(data['Iris-setosa'].unique())
print(data.columns)


Iris-setosa
Iris-versicolor    50
Iris-virginica     50
Iris-setosa        49
Name: count, dtype: int64
['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']
Index(['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'], dtype='object')


In [None]:
# Manejo de valores faltantes
data.dropna(inplace=True)

# Codificación de variables categóricas
data_encoded = pd.get_dummies(data, columns=['Iris-setosa'])

# Escalado de características
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_encoded[['5.1', '3.5', '1.4', '0.2']])

d) Verificar la calidad de los datos preprocesados:


In [None]:
import pandas as pd

# Convertir el arreglo de numpy en un DataFrame de pandas
data_scaled_df = pd.DataFrame(data_scaled)

# Visualizar las primeras filas del conjunto de datos preprocesado
print(data_scaled_df.head())

# Verificar la presencia de valores faltantes después del preprocesamiento
print(data_scaled_df.isnull().sum())


          0         1         2         3
0 -1.148356 -0.118060 -1.353964 -1.325063
1 -1.390542  0.344859 -1.410986 -1.325063
2 -1.511636  0.113399 -1.296943 -1.325063
3 -1.027262  1.270695 -1.353964 -1.325063
4 -0.542889  1.965072 -1.182901 -1.061466
0    0
1    0
2    0
3    0
dtype: int64


Ejercicio 3: Entrenamiento y Ajuste del Modelo
a) Dividir el conjunto de datos preprocesado en conjuntos de entrenamiento y prueba:


In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Cargar el conjunto de datos de iris
iris = load_iris()

# Obtener las características (X) y las etiquetas objetivo (y)
X = iris.data  # Características
y = iris.target  # Etiquetas objetivo

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


b) Elegir un modelo de clasificación y entrenarlo:


In [None]:
from sklearn.svm import SVC
model = SVC()
model.fit(X_train, y_train)

c) Evaluar el rendimiento del modelo:


In [None]:
from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Exactitud del modelo:", accuracy)


Exactitud del modelo: 1.0


d) Ajustar los hiperparámetros del modelo:


In [None]:
from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf', 'poly']}
grid_search = GridSearchCV(estimator=SVC(), param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)
best_params = grid_search.best_params_
print("Mejores hiperparámetros:", best_params)


Mejores hiperparámetros: {'C': 1, 'kernel': 'linear'}
