<a href="https://colab.research.google.com/github/xDevICCI/TallerDeepLearning/blob/main/Proyecto_Deep_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#💡 Proyecto: Exploración y Propuesta de Problema con Deep Learning

🎯 **Objetivo de esta primera etapa**:
Identificar una fuente de datos confiable y proponer un problema relevante que pueda ser resuelto utilizando técnicas de Deep Learning, justificando su importancia y viabilidad.

##🧩 Parte 1: Exploración de datasets y problemas

🔍 Paso 1: Investigar fuentes de datos abiertos
Explora al menos dos sitios de datasets reconocidos para Deep Learning:

https://www.kaggle.com/datasets

https://huggingface.co/datasets

https://data.gov/ (para datos públicos y gubernamentales)

https://archive.ics.uci.edu/ml/index.php (UCI Machine Learning Repository)

https://paperswithcode.com/datasets

**Instrucciones:**

Revisa al menos 10 datasets.

Anota sus características principales: tipo de datos, tamaño, dominio (imagen, texto, audio, series temporales, etc.), etiquetas, formato de archivos.

## 🎯 Paso 2: Elegir 2 datasets de interés
Para cada uno:



*   Resume en 1 párrafo el contenido del dataset.
*   Menciona posibles problemas del mundo real que podrías resolver con ese dataset usando modelos de Deep Learning.
*   Indica qué tipo de red usarías (ej: CNN, RNN, Transformer, Autoencoder, etc.) y por qué.
*   Menciona potenciales desafíos (datos faltantes, desbalance de clases, complejidad computacional, etc.)











# 🎯 Respuesta al Paso 2:

Análisis del Dataset de Manufactura Híbrida
# 📄 Resumen del contenido del dataset

El dataset registra operaciones de manufactura híbrida (combinando procesos aditivos y sustractivos), donde cada fila representa una tarea asociada a una máquina específica. Incluye campos como el tipo de operación (Grinding, Additive, etc.), tiempo estimado y real de procesamiento (Scheduled_Start, Actual_End), consumo energético, disponibilidad de máquina y estado final del trabajo (Completed, Delayed, Failed). Además, se incluye una etiqueta categórica de eficiencia (Moderate Efficiency, Low Efficiency). Estos datos permiten estudiar el rendimiento y fiabilidad de las operaciones en función de múltiples variables técnicas y temporales.

# 🛠️ Problemas del mundo real que podrías resolver
Con este dataset, se pueden desarrollar modelos predictivos para anticipar retrasos o fallas operativas, y además sugerir el mejor momento o máquina para asignar una tarea, ayudando a optimizar la planificación de producción. Por ejemplo, podrías predecir si un trabajo fallará, o si el tiempo real será mucho mayor al programado, lo que permite al sistema reprogramar tareas o elegir mejores combinaciones máquina-material.

# 🧠 Tipo de red neuronal recomendada
- LSTM o GRU si se desea modelar la secuencia temporal de trabajos por máquina.
- Redes densas (Feedforward) si se trata como un conjunto estático de datos tabulares.

# ⚠️ Potenciales desafíos
- Datos faltantes: algunas filas no tienen Actual_Start o Actual_End (como en el caso de trabajos fallidos).
- Desbalance de clases: pocos trabajos “Failed” o “Delayed” frente a muchos “Completed”.
- Variables categóricas que deben ser convertidas correctamente para el modelo (como Operation_Type, Machine_ID, Optimization_Category).
Sincronicidad entre trabajos: no es trivial modelar cómo una demora en un trabajo afecta a los siguientes.

## 🧠 Parte 2: Propuesta de proyecto
A partir de los datasets explorados, selecciona uno y responde:

¿Qué problema concreto resolverás? ¿Por qué es relevante?


¿Qué tipo de modelo de Deep Learning usarías inicialmente?

¿Qué métrica de evaluación utilizarás y por qué?

¿Quiénes serían los usuarios o beneficiarios del modelo?

¿Qué esperas lograr con tu modelo? (clasificar, predecir, segmentar, etc.)

¿Qué herramientas planeas usar? (PyTorch, TensorFlow, Keras, etc.)

🧠 Parte 2: Propuesta de Proyecto
# 🎯 Problema concreto a resolver

Predicción de fallas y retrasos en trabajos de manufactura. Se busca anticipar si una tarea programada va a fallar o presentar un retraso significativo. Esto es clave en entornos industriales donde los tiempos muertos y errores cuestan dinero, y permite a los supervisores ajustar el calendario o cambiar recursos con antelación.

# 🧠 Tipo de modelo de Deep Learning a utilizar
Se iniciará con una red neuronal profunda (MLP) para clasificación multiclase (Completed, Delayed, Failed), usando todas las variables disponibles (tiempo, tipo de operación, energía, disponibilidad, etc.). Si se detecta una fuerte dependencia temporal, se probarán modelos LSTM por máquina o en secuencia de trabajos para modelar la dinámica del scheduling.

# 📏 Métrica de evaluación
- F1-score macro para evaluar balanceadamente las tres clases (Completed, Delayed, Failed).
- Recall para la clase Failed si el objetivo es minimizar fallos sin anticipar.
- También se puede usar MCC (Matthews Correlation Coefficient) si hay mucho desbalance.

# 👥 Usuarios o beneficiarios del modelo
- Supervisores de planta: para reprogramar tareas y evitar cuellos de botella.
- Ingenieros de procesos: para mejorar la eficiencia energética y operativa.
- Sistemas de planificación automática (MES): para integrar el modelo en el flujo productivo.

# 🎯 Objetivo del modelo
- Clasificar tareas como “a tiempo”, “retrasadas” o “fallidas” antes de su ejecución.
- Sugerir acciones correctivas para mejorar el scheduling.
- Eventualmente, usar el modelo como motor de recomendación para planificación dinámica.

# 🛠️ Herramientas a utilizar
- TensorFlow/Keras o PyTorch para los modelos.
- Pandas, NumPy, Scikit-learn para preprocesamiento, imputación de datos y codificación.
- Matplotlib/Seaborn para análisis exploratorio.
- Posiblemente Optuna o GridSearchCV para tuning de hiperparámetros.


## 📤 Entrega (Semana 1–2):
Formato sugerido:

Un documento PDF o presentación (máx. 5 diapositivas) con:

Breve resumen de los datasets explorados

Problemas identificados

Justificación del dataset y problema seleccionado

Propuesta inicial de abordaje con DL

O también puede ser entregado como un notebook de Colab con celdas de texto + visualizaciones básicas de los datos si están disponibles.

## 🎓 Criterios de evaluación

| Criterio                                             | Puntaje |
| ---------------------------------------------------- | ------- |
| Claridad y profundidad en la exploración de datasets | 20%     |
| Relevancia y justificación del problema propuesto    | 25%     |
| Viabilidad técnica de la propuesta                   | 25%     |
| Originalidad y conexión con aplicaciones reales      | 15%     |
| Presentación y orden del entregable                  | 15%     |
