# Práctica Final: Clasificación con Scikit-learn y MLflow

En esta práctica, utilizarás un conjunto de datos de Scikit-learn (podeís usar el mismo que en el notebook de Intro MLFlow) para entrenar un modelo de clasificación.

Pasos a seguir: 

    Exploración de Datos: Analiza el conjunto de datos proporcionado para comprender su estructura y contenido.

    Preprocesamiento de Texto: Realiza tareas de preprocesamiento de texto, como tokenización y vectorización, para preparar los datos para el modelado.

    Entrenamiento del Modelo: Utiliza algoritmos de clasificación de Scikit-learn para entrenar un modelo con los datos preprocesados.

    Evaluación del Modelo: Evalúa el rendimiento del modelo utilizando métricas de evaluación estándar como precisión y recall.

    Registro de Métricas con MLflow: Utiliza MLflow para registrar métricas y hiperparámetros durante el entrenamiento, facilitando la gestión y comparación de experimentos.


Nota: Dado que no voy a poder tener acceso a vuestros logs de MLFlow añadirme las imagenes de la interfaz de MLFlow en el notebook

In [16]:
%pip install scikit-learn mlflow pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.3 -> 26.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [17]:
from sklearn.datasets import fetch_20newsgroups
from collections import Counter
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score
import mlflow
import mlflow.sklearn

In [18]:
# carga de datos
data = fetch_20newsgroups(subset="all", remove=("headers", "footers", "quotes"))

texts = data.data
labels = data.target
label_names = data.target_names

print("Total de documentos:", len(texts))
print("Total de clases:", len(label_names))
print("Ejemplo de clases:", label_names[:5])

lengths = [len(t) for t in texts]
print("Longitud media (chars):", sum(lengths) / len(lengths))

# distribuir la clases
counts = Counter(labels)
print("Top 5 clases más frecuentes:", counts.most_common(5))

print(texts[0][:250])

Total de documentos: 18846
Total de clases: 20
Ejemplo de clases: ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware']
Longitud media (chars): 1169.667515653189
Top 5 clases más frecuentes: [(np.int64(10), 999), (np.int64(15), 997), (np.int64(8), 996), (np.int64(9), 994), (np.int64(11), 991)]


I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' re


In [19]:

# Train y Test
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.2, random_state=42, stratify=labels )

print("Train tamaño:", len(X_train))
print("Test tamaño:", len(X_test))

# 2) Vectorizar
vectorizer = TfidfVectorizer( lowercase=True, stop_words="english", max_features=10000  )

X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

print("train:", X_train_tfidf.shape)
print("Test:", X_test_tfidf.shape)


Train tamaño: 15076
Test tamaño: 3770
train: (15076, 10000)
Test: (3770, 10000)


In [15]:
# local
#mlflow.set_tracking_uri("http://127.0.0.1:5000")
mlflow.set_experiment("text_classification_practica")

# Se define modelo
model = LogisticRegression(max_iter=1000, n_jobs=-1)

# Entrenamiento
with mlflow.start_run():
    
    mlflow.log_param("model_type", "LogisticRegression")
    mlflow.log_param("max_iter", 1000)
    mlflow.log_param("vectorizer", "TF-IDF")
    
    model.fit(X_train_tfidf, y_train)
    
    y_pred = model.predict(X_test_tfidf)
    
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average="weighted")
    recall = recall_score(y_test, y_pred, average="weighted")
    
    mlflow.log_metric("accuracy", accuracy)
    mlflow.log_metric("precision", precision)
    mlflow.log_metric("recall", recall)
    
    mlflow.sklearn.log_model(model, "model")
    
    print("Accuracy:", accuracy)
    print("Precision:", precision)
    print("Recall:", recall)

  flavor.save_model(path=local_path, mlflow_model=mlflow_model, **kwargs)


Accuracy: 0.73342175066313
Precision: 0.7418087028737151
Recall: 0.73342175066313


In [None]:
## Observaciones
## Se utilizo MlFLOW para entrenamiento y registro de experimentos, almacenamiento de parametros, metricoas y el entrenamiento del modelo. las ejecucioenes quedan registradas en el mlflow como run independientes, permitiendo comparar resultados y con la  reproducibilidad del modelo.

## Generar .py de funciones y main con al menos dos argumentos de entrada.

## Práctica parte FastAPI

### Para esta parte de la práctica teneis que generar un script con al menos 5 modulos app.get y dos de ellos tienen que ser pipelines de HF. 

### Parte de la practica se tendra que entregar en capturas de pantalla. Las capturas de pantalla a adjuntas son las siguientes. 

### 1. Captura de la pantalla docs con al menos 5 modulos. 
### 2. Captura de cada una de los modulos con la respuesta dentro de docs. 
### 3. Captura de cada uno de los modulos en la llamada https.
### 4. Todo el codigo usado durante el proceso. Notebooks y scripts.

### Opcional

### 5. Despliegue del script en GCP Cloud Run

In [None]:
# Se utilizo FastAPI para desplegar un servicio web que expone endpoints para clasificar texto utilizando modelos de HuggingFace, se comparten capturas de pantalla en el Word Adjunto.

In [None]:
# Quedo pendiente de subirlo a GCP