
## **Etapas del Desarrollo de un Modelo de Machine Learning**

**1. Definición del Problema**
Antes de empezar, es esencial definir claramente el problema que quieres resolver. ¿Es una clasificación, regresión, clustering, o alguna otra tarea?

**2. Recopilación de Datos**
Los datos son el núcleo de cualquier modelo de machine learning. Puedes obtener datos de diversas fuentes como bases de datos, archivos CSV, APIs, entre otros.

**3. Preprocesamiento de Datos**
Limpia y transforma tus datos:
- Trata valores faltantes.
- Convierte variables categóricas en numéricas.
- Normaliza o estandariza los datos si es necesario.

**4. División de Datos**
Divide tus datos en conjuntos de entrenamiento y prueba. Esto te permite entrenar tu modelo con un subconjunto de datos y probarlo con otro para evaluar su rendimiento.

**5. Elección del Modelo**
Dependiendo de tu problema, elige un modelo adecuado (regresión lineal, árboles de decisión, redes neuronales, etc.)

**6. Entrenamiento del Modelo**
Usa el conjunto de entrenamiento para entrenar tu modelo. Esto implica alimentar al modelo con tus datos y ajustar sus parámetros.

**7. Evaluación del Modelo**
Una vez entrenado, evalúa el modelo con el conjunto de prueba. Utiliza métricas adecuadas (precisión, recall, MSE, etc.) para determinar el rendimiento del modelo.

**8. Optimización**
Si el rendimiento no es satisfactorio, considera:
- Recopilar más datos.
- Cambiar o ajustar el modelo.
- Realizar ingeniería de características.

**9. Despliegue (opcional)**
Una vez satisfecho con el modelo, puedes desplegarlo en un servidor o en la nube para hacer predicciones en tiempo real.


## **Ejemplo: Predicción del Precio de Casas en California**

**1. Definición del Problema**
Nuestro objetivo es predecir el precio mediano de las casas en California basándonos en características como la ubicación, el tamaño, la edad del inmueble y más. Se trata de un problema de regresión.

**2. Recopilación de Datos**
Vamos a utilizar el dataset "California Housing" que ya viene incluido en Scikit-learn, una biblioteca de Python para machine learning.

**3. Preprocesamiento de Datos**
- Comprobamos valores faltantes y decidimos cómo manejarlos (eliminarlos o imputarlos).
- Convertimos variables categóricas (si las hay) en numéricas usando técnicas como el one-hot encoding.
- Estandarizamos las características para que tengan una escala similar.

**4. División de Datos**
Dividimos el dataset en un conjunto de entrenamiento (80% de los datos) y un conjunto de prueba (20% de los datos).

**5. Elección del Modelo**
Dado que es un problema de regresión, comenzamos con un modelo de regresión lineal como punto de partida.

**6. Entrenamiento del Modelo**
Entrenamos el modelo de regresión lineal usando el conjunto de entrenamiento.

**7. Evaluación del Modelo**
Evaluamos el modelo en el conjunto de prueba utilizando el error cuadrático medio (MSE) como métrica.

**8. Optimización**
Si el MSE es alto, consideramos:
- Añadir más características.
- Probar modelos más complejos como regresión polinómica o árboles de decisión.
- Revisar los datos para asegurarnos de que estén limpios y sean relevantes.

**9. Despliegue**
Una vez que estemos satisfechos con el rendimiento del modelo, podemos desplegarlo en un servidor o en una aplicación web para que otros usuarios puedan ingresar características de una casa y obtener una predicción del precio.

## Script de Implementación Básica

In [None]:
## Requerimientos de instalación
pip install numpy scikit-learn pandas

## **Problemas de clasificación**
Uno de los **problemas de clasificación** más comunes y conocidos es el conjunto de datos de Iris. El dataset de Iris contiene mediciones de 150 flores de iris de tres diferentes especies: Setosa, Versicolour y Virginica. Las características medidas incluyen la longitud y el ancho del sépalo y del pétalo de cada flor.

El objetivo es construir un modelo que pueda predecir la especie de una flor en función de estas cuatro características.

A continuación, ejemplo simple utilizando el conjunto de datos de Iris y un modelo de clasificación llamado árbol de decisión utilizando Python y la biblioteca Scikit-learn:

In [None]:
# Importar las bibliotecas necesarias
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Cargar el conjunto de datos de Iris
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo de árbol de decisión
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# Predecir con el conjunto de prueba
y_pred = clf.predict(X_test)

# Evaluar el rendimiento del modelo
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(classification_report(y_test, y_pred))


Accuracy: 0.9555555555555556
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        16
           1       0.91      0.91      0.91        11
           2       0.94      0.94      0.94        18

    accuracy                           0.96        45
   macro avg       0.95      0.95      0.95        45
weighted avg       0.96      0.96      0.96        45



# Predicción de precios en casas

In [None]:
# Importando bibliotecas necesarias
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

# 2. Recopilación de Datos
data = fetch_california_housing()
X, y = data.data, data.target

# 3. Preprocesamiento de Datos
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 4. División de Datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. y 6. Elección y Entrenamiento del Modelo
model = LinearRegression()
model.fit(X_train, y_train)

# 7. Evaluación del Modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Error Cuadrático Medio: {mse}")


Error Cuadrático Medio: 0.555891598695244


El **Error Cuadrático Medio** (ECM o MSE, por sus siglas en inglés "**Mean Squared Error**") es una métrica que *se utiliza para evaluar la precisión de un modelo de regresión*. Esencialmente, mide cuán cerca están las predicciones del modelo a los valores reales. Es una de las métricas más utilizadas para problemas de regresión.

La fórmula para calcular el MSE es:

\[
MSE = $\frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y}_{i})^{2}
$\]

Donde:
- $( n $\) es el número total de observaciones (o puntos de datos).
- $( y_{i} $\) es el valor real de la observación $( i $\).
- $( \hat{y}_{i} $\) es el valor predicho por el modelo para la observación $( i $\).

En términos simples, para cada punto de datos, se calcula la diferencia entre el valor real y el valor predicho, se eleva al cuadrado, y luego se toma el promedio de todas estas diferencias al cuadrado para obtener el MSE.

El **Error Cuadrático Medio**: 0.555891598695244", significa que, en promedio, el cuadrado de la diferencia entre los valores reales y las predicciones del modelo es de aproximadamente 0.556.

En general:
- Un **MSE de 0** indica que el modelo predice perfectamente sin errores (lo cual es raro y podría indicar un sobreajuste).
- Un **MSE mayor que 0** indica algún grado de error en las predicciones del modelo. Cuanto mayor sea el MSE, mayor será el error y viceversa. Es útil comparar el MSE de diferentes modelos para determinar cuál tiene un mejor rendimiento, pero también es importante tener en cuenta otras métricas y el contexto del problema.

In [None]:
pip install joblib




In [None]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Creación de datos dummy
data = {
    'review_text': ["Me encantó", "Fue una perdida de tiempo", "Fantastica", "Terrible y aburrida", "Encantadora y exitante", "poco interesante"],
    'is_positive': [1, 0, 1, 0, 1, 0]
}
df = pd.DataFrame(data)

# Pipeline: Pre-procesamiento y Modelo
model_pipeline = Pipeline([
    ('vectorizer', TfidfVectorizer()),
    ('classifier', MultinomialNB())
])

# División de datos y entrenamiento del modelo
X_train, X_test, y_train, y_test = train_test_split(df['review_text'], df['is_positive'], test_size=0.5, random_state=42)
model_pipeline.fit(X_train, y_train)

# Evaluación del modelo
predictions = model_pipeline.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
precision = precision_score(y_test, predictions)
recall = recall_score(y_test, predictions)
f1 = f1_score(y_test, predictions)

# Resultados
print(f"Accuracy: {accuracy:.2f}, Precision: {precision:.2f}, Recall: {recall:.2f}, F1: {f1:.2f}")

# Guardar el modelo
model_filename = 'movie_review_classifier.pkl'
joblib.dump(model_pipeline, model_filename)


Accuracy: 0.33, Precision: 0.33, Recall: 1.00, F1: 0.50


['movie_review_classifier.pkl']

In [None]:
import joblib

def load_model(model_path):
    """
    Carga un modelo de clasificación previamente entrenado.

    :param model_path: str, ruta al modelo guardado.
    :return: modelo cargado.
    """
    return joblib.load(model_path)

def predict_review(model, review_text):
    """
    Usa el modelo cargado para predecir si una revisión de película es positiva o no.

    :param model: modelo de clasificación cargado.
    :param review_text: str, texto de la revisión a predecir.
    :return: predicción (1: positiva, 0: negativa).
    """
    return model.predict([review_text])[0]

# Ruta al modelo guardado
model_path = 'movie_review_classifier.pkl'

# Cargar el modelo
model = load_model(model_path)

# Solicitar texto de revisión al usuario
review_text = input("Please enter the movie review: ")

# Predicción
is_positive = predict_review(model, review_text)

# Resultado
if is_positive:
    print("The review is predicted to be positive.")
else:
    print("The review is predicted to be negative.")


Please enter the movie review: Aburrida
The review is predicted to be positive.
