## **POO en Machine Learning**

La programación orientada a objetos (POO) en Python es una de las características clave que permite estructurar el código de manera modular y reutilizable, lo cual es especialmente útil en machine learning (ML). La POO ayuda a organizar el código en clases y objetos, lo que facilita la construcción de modelos complejos y el manejo de datos en ML.

La POO es fundamental en bibliotecas de ML como scikit-learn, TensorFlow y PyTorch, ya que facilita la creación de clases de modelos y clases para gestionar datos, preprocesamiento y evaluación. Aquí algunos ejemplos clave de cómo se usa:

1. Definición de Modelos como Clases:

- Los modelos de ML suelen definirse como clases, cada una con métodos como fit, predict, y evaluate. Por ejemplo, en scikit-learn, cada modelo (como LinearRegression, KNeighborsClassifier) es una clase que sigue esta estructura, lo que permite un flujo de trabajo consistente entre diferentes modelos.

2. Herencia para Extender Funcionalidades:

- Puedes crear una clase base para un modelo, y luego construir modelos personalizados que hereden esta clase, implementando métodos específicos. Esto es común en TensorFlow y PyTorch, donde puedes definir redes neuronales personalizadas derivadas de una clase básica de red.
3. Encapsulamiento en Preprocesamiento y Evaluación:

- Al usar clases para manejar el preprocesamiento (por ejemplo, StandardScaler de scikit-learn), encapsulamos la lógica de transformación de datos dentro de la clase, asegurando que la transformación y su inversa se apliquen consistentemente.
4. Pipelines para Modularidad:

- scikit-learn permite construir Pipelines, que encapsulan una serie de transformaciones y un modelo en una sola estructura. Cada paso del pipeline es un objeto de una clase, permitiendo un flujo modular y organizado.

Ejemplo Simple: Modelo con POO

In [2]:
import numpy as np

class SimpleLinearModel:
    def __init__(self):
        self.coefficient = None
        self.intercept = None

    def fit(self, X, y):
        # Método para ajustar el modelo
        X_mean = np.mean(X)
        y_mean = np.mean(y)
        self.coefficient = np.sum((X - X_mean) * (y - y_mean)) / np.sum((X - X_mean) ** 2)
        self.intercept = y_mean - self.coefficient * X_mean

    def predict(self, X):
        # Método para hacer predicciones
        return self.coefficient * X + self.intercept

# Uso del modelo
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])
model = SimpleLinearModel()
model.fit(X, y)
predictions = model.predict(X)
print(predictions)


[2.8 3.4 4.  4.6 5.2]


1. Creación de Modelos como Objetos

In [3]:
from sklearn.linear_model import LinearRegression

# Creamos un objeto del modelo
model = LinearRegression()

# Datos de ejemplo
X = [[1], [2], [3], [4]]
y = [2, 3, 3.5, 5]

# Entrenamiento del modelo
model.fit(X, y)

# Haciendo predicciones
predictions = model.predict([[5], [6]])
print("Predicciones:", predictions)


Predicciones: [5.75 6.7 ]


2. Uso de Transformadores para Preprocesamiento

In [4]:
from sklearn.preprocessing import StandardScaler

# Creamos un objeto del transformador
scaler = StandardScaler()

# Ajustamos el scaler y transformamos los datos
X_train = [[1, 2], [2, 3], [3, 4], [4, 5]]
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)

# Transformamos nuevos datos (usando los mismos parámetros de ajuste)
X_test = [[6, 7]]
X_test_scaled = scaler.transform(X_test)

print("Datos escalados:", X_train_scaled)
print("Datos de prueba escalados:", X_test_scaled)


Datos escalados: [[-1.34164079 -1.34164079]
 [-0.4472136  -0.4472136 ]
 [ 0.4472136   0.4472136 ]
 [ 1.34164079  1.34164079]]
Datos de prueba escalados: [[3.13049517 3.13049517]]


3. Pipelines para Encapsular Flujos de Trabajo

In [6]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

# Creamos un pipeline con escalado y un modelo de regresión
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('regression', LinearRegression())
])

# Entrenamos el pipeline como un todo
pipeline.fit(X_train, y)

# Hacemos predicciones usando el pipeline completo
predictions = pipeline.predict(X_test)

print("Predicciones usando Pipeline:", predictions)


Predicciones usando Pipeline: [6.7]


4. Herencia para Crear Modelos Personalizados

In [7]:
from sklearn.base import BaseEstimator, ClassifierMixin
import numpy as np

class CustomClassifier(BaseEstimator, ClassifierMixin):
    def __init__(self, threshold=0.5):
        self.threshold = threshold

    def fit(self, X, y):
        # Entrena el modelo con los datos (aquí solo guardamos la media)
        self.mean = np.mean(X, axis=0)
        return self

    def predict(self, X):
        # Clasifica según la distancia a la media
        return (np.linalg.norm(X - self.mean, axis=1) < self.threshold).astype(int)

# Datos de ejemplo
X = np.array([[0, 0], [1, 1], [2, 2], [3, 3]])
y = np.array([0, 0, 1, 1])

# Creamos y entrenamos el clasificador personalizado
custom_clf = CustomClassifier(threshold=2.5)
custom_clf.fit(X, y)

# Hacemos predicciones
predictions = custom_clf.predict(X)
print("Predicciones del clasificador personalizado:", predictions)


Predicciones del clasificador personalizado: [1 1 1 1]


5. Cross-Validation y Grid Search usando Objetos

In [9]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Creamos un clasificador SVM
svm = SVC()

# Definimos una cuadrícula de parámetros para buscar
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}

# Configuramos la búsqueda en cuadrícula
grid_search = GridSearchCV(svm, param_grid, cv=2)
grid_search.fit(X, y)

# Mejor conjunto de parámetros encontrados
print("Mejores parámetros:", grid_search.best_params_)
print("Mejor puntuación:", grid_search.best_score_)


Mejores parámetros: {'C': 0.1, 'kernel': 'linear'}
Mejor puntuación: 0.75
