![image.png](attachment:image.png)
# Arquitectura general de Azure Machine Learning


https://learn.microsoft.com/es-es/azure/machine-learning/?view=azureml-api-2

![image.png](attachment:image.png)

## **Azure Machine Learning**

### **Visión general de Azure ML como servicio en la nube**
Azure Machine Learning es un servicio completamente gestionado que permite a los científicos de datos y desarrolladores construir, entrenar, implementar y monitorear modelos de machine learning de manera escalable. Es parte del ecosistema de Azure, lo que lo convierte en una herramienta ideal para integrar soluciones de inteligencia artificial en aplicaciones empresariales. Algunas características clave incluyen:
- **Escalabilidad:** Permite ejecutar experimentos en máquinas virtuales potentes.
- **Automatización:** Facilita la automatización de flujos de trabajo mediante pipelines.
- **Colaboración:** Ofrece herramientas para trabajar en equipo dentro de un área de trabajo compartida.

### **Ciclo de vida del proyecto**

![image.png](attachment:0152ff01-2bd0-43c4-b4b3-f0a682237a2b.png)


### **Ciclo de vida de un modelo ML**
![image.png](attachment:d0d8dad6-d066-4823-943c-945c497fb648.png)

### **Casos de uso comunes**
Azure ML se utiliza en una amplia variedad de escenarios, dependiendo de las necesidades del negocio:
- **Predicción:** Modelos que predicen valores futuros basados en datos históricos, como pronósticos de ventas o predicciones climáticas.
- **Clasificación:** Asignación de etiquetas a datos, como identificar correos electrónicos como spam o no spam.
- **Clustering:** Agrupación de datos similares, como segmentación de clientes para campañas de marketing.
- **Detección de anomalías:** Identificación de patrones inusuales en datos, como fraudes financieros.

## **Pipelines de Datos**

### **¿Qué son los pipelines de datos y por qué son importantes?**
Un pipeline de datos es una secuencia de pasos automatizados que transforman datos desde su estado crudo hasta un modelo listo para producción. Los pipelines son fundamentales porque permiten:
- **Automatización:** Reducir la intervención manual en procesos repetitivos.
- **Reproducibilidad:** Garantizar que los resultados sean consistentes al ejecutar el mismo flujo de trabajo.
- **Escalabilidad:** Aprovechar recursos de cómputo en la nube para manejar grandes volúmenes de datos.

### **Fases clave del ciclo de vida de un modelo analítico**
El desarrollo de un modelo de machine learning sigue un ciclo de vida estructurado:
1. **Ingesta de datos:** Recopilación de datos desde diversas fuentes, como bases de datos, APIs o archivos.
2. **Preprocesamiento y transformación:** Limpieza y preparación de datos para eliminar ruido y normalizar valores.
3. **Entrenamiento del modelo:** Uso de algoritmos de machine learning para aprender patrones en los datos.
4. **Evaluación y validación:** Medición del rendimiento del modelo utilizando métricas como precisión, recall o F1-score.
5. **Despliegue y monitoreo:** Implementación del modelo en producción y seguimiento continuo de su desempeño.

## **Interfaz de Azure ML Studio**

### **Exploración de la interfaz gráfica**
Azure ML Studio es una interfaz visual que facilita la gestión de áreas de trabajo, experimentos, pipelines y modelos. Proporciona herramientas intuitivas para:
- Crear y ejecutar experimentos.
- Monitorear el rendimiento de los modelos.
- Visualizar métricas y resultados.

### **Workspace Azure ML**
![image.png](attachment:156503e4-e5ed-477b-80aa-370d4398f59c.png)

### **Creación de un área de trabajo (Workspace)**
El área de trabajo es el recurso central que organiza todos los recursos de Azure ML. Para crear uno:
1. Accede al portal de Azure ([portal.azure.com](https://portal.azure.com)).
2. Busca "Machine Learning" en el Marketplace.
3. Configura los detalles del área de trabajo, como nombre, grupo de recursos y región.


### **Recorrido por componentes del Workspace**

#### 1. **Autor**
Herramientas para crear, entrenar y experimentar con modelos de machine learning.

- **Notebooks:** Entornos interactivos basados en Jupyter Notebook que permiten escribir código Python, ejecutar experimentos y visualizar datos directamente en el navegador.
- **AutoML (Automated Machine Learning):** Herramienta que automatiza el proceso de selección de modelos, ajuste de hiperparámetros y validación cruzada, facilitando la creación de modelos sin necesidad de experiencia avanzada.
- **Designer:** Interfaz visual arrastrar-y-soltar para construir pipelines de machine learning sin necesidad de escribir código, ideal para usuarios no técnicos o principiantes.
- **Prompt Flow:** Herramienta diseñada para crear, probar y operacionalizar flujos de trabajo basados en prompts, especialmente útil para aplicaciones de inteligencia artificial generativa como chatbots o modelos de lenguaje.

#### 2. **Assets**
Recursos clave utilizados en el ciclo de vida de desarrollo de modelos de machine learning.

- **Data:** Conjuntos de datos registrados en el Workspace, que pueden ser tabulares, archivos u otros formatos, y que se utilizan para entrenar y evaluar modelos.
- **Jobs:** Tareas o trabajos que se ejecutan en el Workspace, como entrenamiento de modelos, preprocesamiento de datos o ejecución de pipelines.
- **Components:** Bloques reutilizables que representan pasos específicos dentro de un pipeline, como limpieza de datos, entrenamiento o evaluación.
- **Pipelines:** Flujos de trabajo modulares que conectan múltiples pasos (components) para automatizar procesos como el entrenamiento, evaluación y despliegue de modelos.
- **Environments:** Configuraciones de entornos de software que definen las dependencias y bibliotecas necesarias para ejecutar scripts o entrenar modelos.
- **Models:** Modelos de machine learning entrenados y registrados en el Workspace, listos para ser evaluados, versionados o desplegados.
- **Endpoints:** Interfaces RESTful que exponen modelos desplegados para su consumo en aplicaciones externas, permitiendo realizar predicciones en tiempo real o por lotes.

#### 3. **Manage**
Herramientas para gestionar y monitorear los recursos y configuraciones del Workspace.

- **Compute:**Recursos computacionales utilizados para ejecutar trabajos, como máquinas virtuales, clústeres de GPU o Kubernetes.
- **Monitoring:**Herramientas para monitorear el rendimiento de modelos en producción, detectar problemas como deriva de datos (data drift) y configurar alertas automáticas.
- **Data Labeling:**Servicio para etiquetar datos manual o automáticamente, esencial para tareas supervisadas como clasificación o detección de objetos.
- **Linked Services:**Conexiones a servicios externos, como Azure Blob Storage, Azure SQL Database o APIs RESTful, que se integran con el Workspace.
- **Connections:**Configuraciones para conectar el Workspace con herramientas externas, como GitHub, Azure DevOps o bases de datos, facilitando la integración continua y el despliegue.

## **Configuración del entorno**

### **Configuración inicial de Azure ML**
Para configurar Azure ML, sigue estos pasos:
1. Instala el SDK de Azure ML en tu entorno local:
   ```bash
   pip install azureml-core
   ```
2. Autentica tu entorno con el archivo `config.json` generado desde Azure Portal. Este archivo contiene información sobre tu área de trabajo.

### **Conexión con Notebooks y entornos de desarrollo local/Python**
Azure ML permite trabajar en diferentes entornos:
- **Notebooks en Azure ML Studio:** Ideal para experimentación rápida.
- **Entornos locales:** Usa Python y el SDK para integrar Azure ML en tu flujo de trabajo existente.


> https://learn.microsoft.com/es-es/azure/machine-learning/how-to-configure-environment?view=azureml-api-2

## **Pipelines en Azure ML**

Un pipeline en Azure ML es una colección de pasos que definen el flujo de trabajo de un modelo. Cada paso puede ejecutarse en diferentes destinos de proceso, como máquinas virtuales o clústeres de GPU.

### **Pipeline en Azure ML**

![image.png](attachment:81d43074-c922-418b-8cc3-5a1087b20f28.png)

### **Componentes de un pipeline**
- **Módulos:** Bloques reutilizables que realizan tareas específicas, como limpieza de datos o entrenamiento de modelos.
- **Scripts:** Código personalizado para procesamiento o entrenamiento.
- **Datos:** Conjuntos de datos utilizados en cada paso.

### **Fases de un pipeline de datos**

![image.png](attachment:e76994b8-4202-44fb-9767-967169422623.png)

![image.png](attachment:image.png)
## **¿Preguntas?**
