# Clasificación con el Conjunto de Datos Iris:

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Iris
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.2,
                                                    random_state=42)

# Crear el clasificador de vecinos más cercanos
clf = KNeighborsClassifier(n_neighbors=3)

# Entrenar el clasificador
clf.fit(X_train, y_train)

# Predecir las etiquetas para los datos de prueba
y_pred = clf.predict(X_test)

# Calcular la precisión del clasificador
accuracy = accuracy_score(y_test, y_pred)
print('Precisión del clasificador:', accuracy)

Precisión del clasificador: 1.0


# Regresión con el Conjunto de Datos Boston Housing:


In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos California Housing
California = fetch_california_housing()
X_train, X_test, y_train, y_test = train_test_split(California.data,
                                                    California.target,
                                                    test_size=0.2,
                                                    random_state=42)

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

# Predecir los precios de las viviendas para los datos de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print('Error cuadrático medio:', mse)

Error cuadrático medio: 0.5558915986952422


# Validación del Modelo:


División de Conjuntos de Datos:


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Cargar el conjunto de datos Iris
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.2,
                                                    random_state=42)

print("Número de muestras en el conjunto de entrenamiento:", len(X_train))
print("Número de muestras en el conjunto de prueba:", len(X_test))

Número de muestras en el conjunto de entrenamiento: 120
Número de muestras en el conjunto de prueba: 30


Validación Cruzada:


In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# Crear un clasificador de regresión logística
clf = LogisticRegression()

# Realizar validación cruzada
scores = cross_val_score(clf, iris.data, iris.target, cv=5)

print("Precisión de validación cruzada:", scores)

Precisión de validación cruzada: [0.96666667 1.         0.93333333 0.96666667 1.        ]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Métricas de Evaluación del Modelo:


In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Cargar el conjunto de datos Iris
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.2,
                                                    random_state=42)

# Crear el clasificador de vecinos más cercanos
clf = KNeighborsClassifier(n_neighbors=3)
# Entrenar el clasificador
clf.fit(X_train, y_train)
# Predecir las etiquetas para los datos de prueba
y_pred = clf.predict(X_test)
# Calcular la precisión del clasificador
accuracy = accuracy_score(y_test, y_pred)
print('Precisión del clasificador:', accuracy)
# Predicciones del modelo
y_pred = clf.predict(X_test)
# Calcular métricas de evaluación del modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')
print("Precisión:", accuracy)
print("Precisión promedio ponderada:", precision)
print("Recall promedio ponderado:", recall)
print("F1-score promedio ponderado:", f1)

Precisión del clasificador: 1.0
Precisión: 1.0
Precisión promedio ponderada: 1.0
Recall promedio ponderado: 1.0
F1-score promedio ponderado: 1.0


#Preprocesamiento de Datos:


Escalar características (Feature Scaling):


In [None]:
from sklearn.preprocessing import StandardScaler
import numpy as np

# Datos de ejemplo
X = np.array([[1, 2], [3, 4], [5, 6]])

# Crear el objeto StandardScaler
scaler = StandardScaler()

# Ajustar el scaler a los datos y transformarlos
X_scaled = scaler.fit_transform(X)

print("Datos originales:\n", X)
print("Datos escalados:\n", X_scaled)

Datos originales:
 [[1 2]
 [3 4]
 [5 6]]
Datos escalados:
 [[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


Codificar variables categóricas (One-Hot Encoding):


In [None]:
from sklearn.preprocessing import OneHotEncoder

# Datos de ejemplo
X = [['Male'], ['Female'], ['Male'], ['Female']]

# Crear el objeto OneHotEncoder
encoder = OneHotEncoder()

# Ajustar el encoder a los datos y transformarlos
X_encoded = encoder.fit_transform(X).toarray()

print("Datos originales:\n", X)
print("Datos codificados:\n", X_encoded)

Datos originales:
 [['Male'], ['Female'], ['Male'], ['Female']]
Datos codificados:
 [[0. 1.]
 [1. 0.]
 [0. 1.]
 [1. 0.]]


Imputar valores faltantes (Imputation):

In [None]:
from sklearn.impute import SimpleImputer

# Datos de ejemplo con valores faltantes
X = [[1, 2], [np.nan, 3], [7, np.nan], [4, 5]]

# Crear el objeto SimpleImputer
imputer = SimpleImputer(strategy='mean')

# Ajustar el imputer a los datos y transformarlos
X_imputed = imputer.fit_transform(X)

print("Datos originales:\n", X)
print("Datos imputados:\n", X_imputed)

Datos originales:
 [[1, 2], [nan, 3], [7, nan], [4, 5]]
Datos imputados:
 [[1.         2.        ]
 [4.         3.        ]
 [7.         3.33333333]
 [4.         5.        ]]
