# Segment Anything Model 2 (SAM 2) by Andrés Felipe Forero Mendez

## ¿Qué es SAM 2?

**Segment Anything Model 2 (SAM 2)** es un modelo avanzado de visión por computadora desarrollado por Meta AI, diseñado para realizar **segmentación de imágenes**. La **segmentación de imágenes** es un proceso clave que permite dividir una imagen en regiones distintas, donde cada región corresponde a un objeto o parte de un objeto específico.

<div style="text-align: center;">
    <img src="https://agencia-ia.com/wp-content/uploads/2023/04/Que-es-SAM-la-ia-para-segmentar-imagenes-de-facebook.jpg"  width="500" height="400"/>
    <p> <span style="font-weight: bold;">Imagen 1.</span> Ejemplo de como SAM 2 segmenta las imagenes. Fuente: <a href="https://agencia-ia.com/que-es-sam-la-revolucion-en-segmentacion-de-imagenes-mediante-ia/">URL</a></p>
</div>




### ¿Cómo Funciona?

El SAM 2 está basado en arquitecturas de **transformers** que son capaces de aprender relaciones complejas entre las diferentes partes de una imagen. Además, SAM 2 tiene una capacidad única de permitir la interacción del usuario, donde se puede seleccionar manualmente áreas de interés, proporcionando más control y precisión en la segmentación.

<h4>Arquitectura transformers:</h4> 
<p>La arquitectura de transformers es un tipo de modelo de inteligencia artificial diseñado para procesar secuencias de datos (como texto o imágenes) de manera más eficiente. Utiliza un mecanismo llamado atención, que le permite enfocarse en diferentes partes de la secuencia al mismo tiempo, en lugar de procesarla en orden como lo hacen otros modelos. (Redes Neuronales Recurrentes)

Los transformers son especialmente buenos para tareas de lenguaje, como traducción, generación de texto, y procesamiento de imágenes, ya que pueden capturar relaciones a largo plazo entre palabras o elementos en la secuencia. Además, son rápidos porque pueden trabajar con todos los elementos simultáneamente, en lugar de procesarlos uno por uno. Esto los hace muy potentes en aplicaciones como ChatGPT, BERT y otros grandes modelos de lenguaje.</p>

## Impacto en la industria

***Automatización y Robótica:*** Nos permite a los robots identificar y segmentar objetos en tiempo real, facilitando tareas de manipulación, ensamblaje, y navegación autónoma en entornos industriales. 

***Visión por Computadora:*** En sistemas de control de calidad, puede segmentar piezas defectuosas en líneas de producción, lo que ayuda a detectar problemas antes de que se conviertan en fallos costosos.

***Sistemas de Mantenimiento Predictivo:*** Las cámaras de monitoreo pueden segmentar componentes específicos de maquinaria en movimiento, permitiendo un análisis detallado y la detección de desgastes o anomalías, mejorando el mantenimiento preventivo.

***Agricultura de Precisión:*** En campos como la agricultura, que combinan tecnologías de IoT y robótica, nos puede segmentar cultivos, identificar áreas afectadas por plagas o analizar el estado de crecimiento, mejorando el rendimiento de la producción.

## Ventajas de SAM 2

1. **Segmentación Universal**: No necesita entrenamientos específicos para cada tipo de objeto.

2. **Capacidad de Interacción**: El usuario puede indicar áreas de interés, mejorando la precisión de la segmentación.

3. **Segmentación en Tiempo Real**: Procesa imágenes de forma eficiente, lo que lo hace útil en aplicaciones de alta demanda de tiempo, como la robótica o la monitorización de sistemas.

4. **Aplicabilidad Amplia**: Se puede usar en múltiples dominios, como imágenes médicas, satelitales, agrícolas, etc.

## Desventajas de SAM 2

1. **Requiere Gran Cantidad de Recursos Computacionales**: Al ser un modelo grande, demanda un alto uso de GPU para lograr eficiencia en tiempo real.

2. **Posible Falta de Precisión en Imágenes Desafiantes**: En algunos casos, como imágenes de muy baja resolución o con objetos muy pequeños, SAM 2 puede no ser tan preciso.

3. **Dependencia de Interacción del Usuario**: Aunque la interacción mejora la precisión, esto puede no ser ideal para todos los casos, especialmente donde la automatización completa es crítica.


## ¿En qué está realizado SAM 2?

SAM 2 está desarrollado principalmente en **Python**, utilizando el framework de aprendizaje profundo **PyTorch**. Las bibliotecas de apoyo incluyen **OpenCV** para procesamiento de imágenes y **NumPy** para manipulación de datos. 

### Componentes clave en el desarrollo de SAM 2:

***PyTorch:*** Framework de aprendizaje profundo que maneja las operaciones de entrenamiento del modelo, backpropagation y optimización.

***NumPy y OpenCV:*** Se usan estas bibliotecas para procesamiento y manipulación de imágenes antes de enviarlas al modelo.


## Usos de SAM 2 y Ejemplos

1. **Medicina**: Segmentación de órganos y tejidos en imágenes médicas.
2. **Agricultura de Precisión**: Monitoreo de cultivos y detección de plagas a través de imágenes obtenidas por drones.
3. **Robótica**: Identificación de objetos y caminos en entornos complejos para la navegación autónoma.
4. **Edición de Imágenes y Videos**: Facilita la manipulación de contenido visual al permitir segmentaciones precisas de objetos.

    ***Tesla*** utiliza robots equipados con sistemas de visión avanzados para identificar y ensamblar piezas en sus líneas de producción de automóviles, reduciendo errores humanos y aumentando la eficiencia.

    ***Siemens*** emplea visión por computadora en sus fábricas para realizar mantenimiento predictivo, reduciendo el tiempo de inactividad y optimizando la vida útil de sus equipos.

    ***John Deere*** ha desarrollado maquinaria agrícola que utiliza IA para segmentar y analizar campos de cultivo, permitiendo la siembra y recolección de manera eficiente, optimizando recursos.

    ***Tesla Autopilot***, utiliza una combinación de redes neuronales profundas (DNNs) y la arquitectura de transformers para procesar y analizar datos de su entorno en tiempo real.

**Redes Neuronales Convolucionales (CNNs):** Se utilizan principalmente para el procesamiento de imágenes de las cámaras instaladas en el vehículo. Estas redes analizan las imágenes y detectan objetos como vehículos, peatones, señales de tráfico, etc.

**Arquitectura de Transformers:** Se ha integrado para mejorar la interpretación de secuencias de datos y relaciones espaciales, lo que ayuda a comprender mejor la dinámica de la carretera y las interacciones entre los objetos detectados.



## Retos Técnicos: 

1. ***Precision en ambientes complejos***

2. ***Adaptabilidad***

## Consideraciones Éticas:

1. ***Desplazamiento Laboral***

2. ***Responsabilidad en decisiones automatizadas***


## Conclusión

El **Segment Anything Model 2** de Meta AI representa una evolución significativa en el campo de la visión por computadora. Su capacidad de segmentar objetos de cualquier tipo sin necesidad de entrenamientos específicos, junto con la posibilidad de interactuar con el usuario para mejorar la segmentación, lo convierte en una herramienta poderosa para una amplia gama de industrias.


La IA ***SAM2*** tiene el potencial de cambiar radicalmente la ingeniería mecatrónica. Puede hacer que los procesos sean más eficientes, anticipar fallos antes de que ocurran, y ayudar a diseñar sistemas más efectivos. Además, mejora la automatización y facilita la integración de dispositivos conectados. Al analizar grandes cantidades de datos, realizar simulaciones avanzadas y optimizar la interacción entre humanos y máquinas, SAM2 promete transformar cómo se diseñan, operan y mantienen los sistemas mecatrónicos, haciendo que sean más eficientes y adaptables en la industria.




A continuación, presentamos un ejemplo de código que utiliza SAM 2 y una prueba de cuanto poder de CPU se necesita para solicitar un codigo:



<h3>Librerias:</h3>

<p>pip install torch</p>
<p>pip install transformers</p>

In [1]:
from transformers import pipeline

# Cargar el pipeline de clasificación de texto con un modelo preentrenado
classifier = pipeline('sentiment-analysis')

# Texto para clasificar
text = "I love using transformers models in Python!"

# Realizar la clasificación
result = classifier(text)

# Mostrar el resultado
print(result)

  from .autonotebook import tqdm as notebook_tqdm
No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


[{'label': 'POSITIVE', 'score': 0.9869323372840881}]




<h1>Practica: </h1>


URL: https://colab.research.google.com/drive/1SGsVg491G7_B32lAKyouAr91MGKJ0ZKe?usp=sharing