# Pipeline para Despliegue de Modelos de Machine Learning


## 1. Recolección de Datos
Obtén los datos necesarios para tu modelo, ya sea desde bases de datos, archivos CSV o APIs.

## 2. Exploración y Análisis de Datos
Realiza un análisis descriptivo y visual para entender la estructura de los datos, detectar valores faltantes, outliers y relaciones entre variables.

## 3. Limpieza y Preprocesamiento de Datos
- **Manejo de Valores Faltantes**: Imputación o eliminación de valores faltantes.
- **Codificación de Variables Categóricas**: Utiliza técnicas como one-hot encoding si tienes variables categóricas.
- **Normalización o Estandarización**: Dependiendo del modelo, este paso puede ser opcional.

## 4. División de Datos
Divide los datos en conjuntos de entrenamiento y prueba.

```python
from sklearn.model_selection import train_test_split

X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
## 5. Selección y Creación del Modelo

Árboles de Decisión

```python
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X_train, y_train)
```
Prophet

```python
from fbprophet import Prophet

train = train.rename(columns={'date': 'ds', 'value': 'y'})
model = Prophet()
model.fit(train)
```
XGBoost
```python
import xgboost as xgb

model = xgb.XGBClassifier()  # o xgb.XGBRegressor() para regresión
model.fit(X_train, y_train)
```
## 6. Optimización de Hiperparámetros

Utiliza Grid Search o Random Search para encontrar los mejores hiperparámetros.

Ejemplo con XGBoost
```python
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)
best_model = grid_search.best_estimator_
```
## 7. Evaluación del Modelo

Evalúa el modelo utilizando el conjunto de prueba y métricas de evaluación apropiadas.

Ejemplo con XGBoost
```python
from sklearn.metrics import accuracy_score, classification_report

y_pred = best_model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
```

## 8. Despliegue del Modelo

Despliega el modelo en producción utilizando herramientas como Flask o FastAPI para crear una API que sirva las predicciones del modelo.
Ejemplo de Despliegue
```python
import pickle

with open('model.pkl', 'wb') as f:
    pickle.dump(best_model, f)

# Ejemplo usando Flask
from flask import Flask, request, jsonify

app = Flask(__name__)

@app.route('/predict', methods=['POST'])
def predict():
    data = request.get_json(force=True)
    prediction = best_model.predict([data['input']])
    return jsonify({'prediction': prediction[0]})

if __name__ == '__main__':
    app.run(port=5000, debug=True)
```

## 9. Monitoreo y Mantenimiento

Monitorea el rendimiento del modelo y realiza mantenimiento continuo.
Monitoreo

**Seguimiento de Rendimiento**: Monitorear métricas de rendimiento como precisión, recall, F1-score, MAE, RMSE, etc.
**Monitoreo de Datos**: Asegurar que los datos de entrada siguen siendo consistentes con los datos usados para entrenar el modelo.
**Alertas y Notificaciones**: Configurar alertas para notificar cuando el rendimiento del modelo cae por debajo de un umbral predeterminado.

Mantenimiento

**Retraining**: Reentrenar el modelo periódicamente con nuevos datos para asegurar que se mantenga actualizado.
**Versionado del Modelo**: Mantener versiones del modelo para poder revertir a versiones anteriores si surgen problemas con la nueva versión.
**Validación Continua**: Validar regularmente el modelo contra datos de prueba para garantizar que sigue cumpliendo con los requisitos de rendimiento.
**Documentación y Revisión**: Documentar todas las actualizaciones, cambios y reentrenamientos del modelo. Revisar periódicamente la documentación y los procesos para mejorar la eficiencia y la efectividad del pipeline de mantenimiento.


In [None]:
#example
import joblib
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics



iris = load_iris()
X = iris.data  # Features
y = iris.target # Target (species)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create a Random Forest Classifier with 100 estimators (trees)
clf = RandomForestClassifier(n_estimators=100, random_state=42)
# Train the model
clf.fit(X_train, y_train)

# Make predictions on the test set
y_pred = clf.predict(X_test)
# Calculate accuracy
accuracy = metrics.accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy:.2f}")



# Load the model from the file
#loaded_model = joblib.load('random_forest_model.joblib')

# Now you can use the loaded model to make predictions
#predictions = loaded_model.predict(X)

Model Accuracy: 1.00


In [None]:
filename = 'random_fores.joblib'
joblib.dump(clf, filename)

['random_fores.joblib']

In [None]:
loaded_model = joblib.load('random_fores.joblib')
predictions = loaded_model.predict(X)

In [None]:
print(predictions)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
