# M√≥dulo 10: Atividade Final Pr√°tica## Objetivos de Aprendizagem- Aplicar todos os conceitos aprendidos em um projeto completo- Implementar uma solu√ß√£o de vis√£o computacional do zero- Integrar diferentes t√©cnicas e abordagens- Desenvolver habilidades pr√°ticas de implementa√ß√£o- Apresentar resultados e an√°lises t√©cnicas---## 10.1 Projeto Final: Sistema de An√°lise de Imagens Multimodal### Descri√ß√£o do Projeto**Objetivo:** Desenvolver um sistema completo de an√°lise de imagens que integre diferentes t√©cnicas de vis√£o computacional aprendidas ao longo do curso.![Descri√ß√£o Projeto Final](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo10/descricao_projeto_final.png)**Funcionalidades Principais:**1. **Classifica√ß√£o de Imagens** usando CNNs tradicionais2. **Detec√ß√£o de Objetos** com YOLO simplificado3. **Segmenta√ß√£o de Imagens** usando U-Net4. **OCR e Extra√ß√£o de Texto** com Tesseract/EasyOCR5. **An√°lise Multimodal** com Foundation Models (CLIP/GPT-4V)6. **Interface de Usu√°rio** para intera√ß√£o### Arquitetura do Sistema**Estrutura Modular:**![Arquitetura Sistema](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo10/arquitetura_sistema.png)**Componentes:**- **Input Module**: Entrada de imagens- **Preprocessing Module**: Pr√©-processamento- **Analysis Module**: An√°lise multimodal- **Output Module**: Resultados e visualiza√ß√£o### Tecnologias Utilizadas**Frameworks:**- **PyTorch**: Deep learning- **OpenCV**: Processamento de imagem- **Transformers**: Modelos pr√©-treinados- **Streamlit**: Interface web**Modelos:**- **ResNet**: Classifica√ß√£o- **YOLO**: Detec√ß√£o- **U-Net**: Segmenta√ß√£o- **CLIP**: An√°lise multimodal![Tecnologias Utilizadas](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo10/tecnologias_utilizadas.png)**Refer√™ncias:**- [Deep Residual Learning for Image Recognition - He et al.](https://arxiv.org/abs/1512.03385)- [You Only Look Once: Unified, Real-Time Object Detection - Redmon et al.](https://arxiv.org/abs/1506.02640)

## 10.2 Demonstra√ß√£o Pr√°tica: Sistema Completo

Vamos implementar e demonstrar o sistema completo:


In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.transforms as transforms
import cv2
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from typing import Dict, List, Tuple, Optional
import json
from datetime import datetime

class MultimodalImageAnalysisSystem:
    """Sistema completo de an√°lise de imagens multimodal"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.results = {}
        
        # Inicializar m√≥dulos
        self.classifier = self._build_classifier()
        self.detector = self._build_detector()
        self.segmenter = self._build_segmenter()
        self.ocr_engine = self._build_ocr_engine()
        self.multimodal_analyzer = self._build_multimodal_analyzer()
        
        # Transforma√ß√µes
        self.transform = transforms.Compose([
            transforms.ToPILImage(),
            transforms.Resize((224, 224)),
            transforms.ToTensor(),
            transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
        ])
    
    def _build_classifier(self):
        """Constr√≥i o classificador de imagens"""
        
        class SimpleCNN(nn.Module):
            def __init__(self, num_classes=10):
                super(SimpleCNN, self).__init__()
                
                self.features = nn.Sequential(
                    nn.Conv2d(3, 32, 3, padding=1),
                    nn.ReLU(),
                    nn.MaxPool2d(2),
                    nn.Conv2d(32, 64, 3, padding=1),
                    nn.ReLU(),
                    nn.MaxPool2d(2),
                    nn.Conv2d(64, 128, 3, padding=1),
                    nn.ReLU(),
                    nn.MaxPool2d(2),
                    nn.Conv2d(128, 256, 3, padding=1),
                    nn.ReLU(),
                    nn.AdaptiveAvgPool2d((1, 1))
                )
                
                self.classifier = nn.Sequential(
                    nn.Dropout(0.5),
                    nn.Linear(256, 128),
                    nn.ReLU(),
                    nn.Dropout(0.5),
                    nn.Linear(128, num_classes)
                )
                
            def forward(self, x):
                x = self.features(x)
                x = x.view(x.size(0), -1)
                x = self.classifier(x)
                return x
        
        return SimpleCNN(num_classes=10).to(self.device)
    
    def _build_detector(self):
        """Constr√≥i o detector de objetos"""
        
        class SimpleYOLO(nn.Module):
            def __init__(self, num_classes=5):
                super(SimpleYOLO, self).__init__()
                
                self.backbone = nn.Sequential(
                    nn.Conv2d(3, 32, 3, padding=1),
                    nn.ReLU(),
                    nn.MaxPool2d(2),
                    nn.Conv2d(32, 64, 3, padding=1),
                    nn.ReLU(),
                    nn.MaxPool2d(2),
                    nn.Conv2d(64, 128, 3, padding=1),
                    nn.ReLU(),
                    nn.MaxPool2d(2)
                )
                
                # Output: [batch, 5 + num_classes, H, W]
                # 5 = [x, y, w, h, confidence]
                self.detection_head = nn.Conv2d(128, 5 + num_classes, 1)
                
            def forward(self, x):
                features = self.backbone(x)
                detections = self.detection_head(features)
                return detections
        
        return SimpleYOLO(num_classes=5).to(self.device)
    
    def _build_segmenter(self):
        """Constr√≥i o segmentador de imagens"""
        
        class SimpleUNet(nn.Module):
            def __init__(self, num_classes=3):
                super(SimpleUNet, self).__init__()
                
                # Encoder
                self.enc1 = nn.Sequential(
                    nn.Conv2d(3, 64, 3, padding=1),
                    nn.ReLU(),
                    nn.Conv2d(64, 64, 3, padding=1),
                    nn.ReLU()
                )
                
                self.enc2 = nn.Sequential(
                    nn.MaxPool2d(2),
                    nn.Conv2d(64, 128, 3, padding=1),
                    nn.ReLU(),
                    nn.Conv2d(128, 128, 3, padding=1),
                    nn.ReLU()
                )
                
                # Decoder
                self.dec1 = nn.Sequential(
                    nn.ConvTranspose2d(128, 64, 2, stride=2),
                    nn.Conv2d(128, 64, 3, padding=1),
                    nn.ReLU(),
                    nn.Conv2d(64, 64, 3, padding=1),
                    nn.ReLU()
                )
                
                self.final = nn.Conv2d(64, num_classes, 1)
                
            def forward(self, x):
                # Encoder
                enc1 = self.enc1(x)
                enc2 = self.enc2(enc1)
                
                # Decoder
                dec1 = self.dec1(enc2)
                
                # Skip connection
                dec1 = torch.cat([dec1, enc1], dim=1)
                
                # Final output
                output = self.final(dec1)
                
                return output
        
        return SimpleUNet(num_classes=3).to(self.device)
    
    def _build_ocr_engine(self):
        """Constr√≥i o motor OCR"""
        
        class SimpleOCR:
            def __init__(self):
                self.text_regions = []
                
            def preprocess_image(self, image):
                """Pr√©-processa imagem para OCR"""
                # Converter para escala de cinza
                if len(image.shape) == 3:
                    gray = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
                else:
                    gray = image
                
                # Aplicar threshold
                _, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
                
                # Reduzir ru√≠do
                kernel = np.ones((3, 3), np.uint8)
                cleaned = cv2.morphologyEx(binary, cv2.MORPH_CLOSE, kernel)
                
                return cleaned
            
            def detect_text_regions(self, image):
                """Detecta regi√µes de texto"""
                # Usar contours para detectar regi√µes
                contours, _ = cv2.findContours(image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
                
                text_regions = []
                for contour in contours:
                    x, y, w, h = cv2.boundingRect(contour)
                    if w > 20 and h > 10:  # Filtrar regi√µes muito pequenas
                        text_regions.append((x, y, w, h))
                
                return text_regions
            
            def extract_text(self, image):
                """Extrai texto da imagem"""
                # Simular extra√ß√£o de texto
                # Em implementa√ß√£o real, usar Tesseract ou EasyOCR
                
                preprocessed = self.preprocess_image(image)
                text_regions = self.detect_text_regions(preprocessed)
                
                # Simular texto extra√≠do
                extracted_text = f"Texto detectado em {len(text_regions)} regi√µes"
                
                return extracted_text, text_regions
        
        return SimpleOCR()
    
    def _build_multimodal_analyzer(self):
        """Constr√≥i o analisador multimodal"""
        
        class MultimodalAnalyzer:
            def __init__(self):
                self.text_encoder = nn.Sequential(
                    nn.Linear(100, 128),
                    nn.ReLU(),
                    nn.Linear(128, 128)
                )
                
                self.image_encoder = nn.Sequential(
                    nn.Linear(224*224*3, 512),
                    nn.ReLU(),
                    nn.Linear(512, 128)
                )
                
            def analyze_multimodal(self, image, text):
                """Analisa conte√∫do multimodal"""
                # Simular an√°lise multimodal
                
                # An√°lise de imagem
                image_features = self.image_encoder(image.flatten())
                
                # An√°lise de texto
                text_features = self.text_encoder(torch.randn(100))
                
                # Similaridade
                similarity = F.cosine_similarity(image_features, text_features, dim=0)
                
                # An√°lise sem√¢ntica
                analysis = {
                    'similarity': similarity.item(),
                    'image_objects': ['objeto1', 'objeto2', 'objeto3'],
                    'text_entities': ['entidade1', 'entidade2'],
                    'semantic_match': similarity.item() > 0.5
                }
                
                return analysis
        
        return MultimodalAnalyzer().to(self.device)
    
    def create_sample_image(self, width=224, height=224):
        """Cria uma imagem de exemplo para demonstra√ß√£o"""
        
        # Criar imagem base
        image = np.zeros((height, width, 3), dtype=np.uint8)
        
        # Adicionar formas geom√©tricas
        # C√≠rculo vermelho
        cv2.circle(image, (80, 80), 30, (255, 0, 0), -1)
        
        # Ret√¢ngulo azul
        cv2.rectangle(image, (150, 50), (200, 100), (0, 255, 0), -1)
        
        # Tri√¢ngulo amarelo
        pts = np.array([[100, 150], [80, 200], [120, 200]], np.int32)
        cv2.fillPoly(image, [pts], (0, 0, 255))
        
        # Adicionar texto simulado
        cv2.putText(image, 'SAMPLE', (50, 220), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 255, 255), 1)
        
        return image
    
    def analyze_image(self, image):
        """Analisa uma imagem usando todos os m√≥dulos"""
        
        results = {
            'timestamp': datetime.now().isoformat(),
            'image_shape': image.shape,
            'analysis': {}
        }
        
        # 1. Classifica√ß√£o
        print("Executando classifica√ß√£o...")
        classification_result = self._classify_image(image)
        results['analysis']['classification'] = classification_result
        
        # 2. Detec√ß√£o de objetos
        print("Executando detec√ß√£o de objetos...")
        detection_result = self._detect_objects(image)
        results['analysis']['detection'] = detection_result
        
        # 3. Segmenta√ß√£o
        print("Executando segmenta√ß√£o...")
        segmentation_result = self._segment_image(image)
        results['analysis']['segmentation'] = segmentation_result
        
        # 4. OCR
        print("Executando OCR...")
        ocr_result = self._extract_text(image)
        results['analysis']['ocr'] = ocr_result
        
        # 5. An√°lise multimodal
        print("Executando an√°lise multimodal...")
        multimodal_result = self._analyze_multimodal(image, ocr_result['text'])
        results['analysis']['multimodal'] = multimodal_result
        
        self.results = results
        return results
    
    def _classify_image(self, image):
        """Classifica a imagem"""
        # Converter para tensor
        image_tensor = self.transform(image).unsqueeze(0).to(self.device)
        
        # Classificar
        self.classifier.eval()
        with torch.no_grad():
            outputs = self.classifier(image_tensor)
            probabilities = F.softmax(outputs, dim=1)
            predicted_class = torch.argmax(probabilities, dim=1).item()
            confidence = probabilities[0, predicted_class].item()
        
        return {
            'predicted_class': predicted_class,
            'confidence': confidence,
            'probabilities': probabilities[0].cpu().numpy().tolist()
        }
    
    def _detect_objects(self, image):
        """Detecta objetos na imagem"""
        # Converter para tensor
        image_tensor = self.transform(image).unsqueeze(0).to(self.device)
        
        # Detectar
        self.detector.eval()
        with torch.no_grad():
            detections = self.detector(image_tensor)
        
        # Simular detec√ß√µes
        objects = [
            {'class': 'circle', 'confidence': 0.95, 'bbox': [50, 50, 60, 60]},
            {'class': 'rectangle', 'confidence': 0.87, 'bbox': [140, 40, 60, 60]},
            {'class': 'triangle', 'confidence': 0.92, 'bbox': [80, 140, 40, 60]}
        ]
        
        return {
            'num_objects': len(objects),
            'objects': objects
        }
    
    def _segment_image(self, image):
        """Segmenta a imagem"""
        # Converter para tensor
        image_tensor = self.transform(image).unsqueeze(0).to(self.device)
        
        # Segmentar
        self.segmenter.eval()
        with torch.no_grad():
            segmentation = self.segmenter(image_tensor)
            segmentation = F.softmax(segmentation, dim=1)
            predicted_segments = torch.argmax(segmentation, dim=1)
        
        return {
            'num_segments': 3,
            'segmentation_map': predicted_segments[0].cpu().numpy().tolist()
        }
    
    def _extract_text(self, image):
        """Extrai texto da imagem"""
        text, regions = self.ocr_engine.extract_text(image)
        
        return {
            'text': text,
            'num_regions': len(regions),
            'regions': regions
        }
    
    def _analyze_multimodal(self, image, text):
        """Analisa conte√∫do multimodal"""
        # Converter imagem para tensor
        image_tensor = torch.FloatTensor(image).flatten().to(self.device)
        
        # An√°lise multimodal
        analysis = self.multimodal_analyzer.analyze_multimodal(image_tensor, text)
        
        return analysis
    
    def visualize_results(self, image, results):
        """Visualiza os resultados da an√°lise"""
        
        fig, axes = plt.subplots(2, 3, figsize=(18, 12))
        
        # Imagem original
        axes[0, 0].imshow(image)
        axes[0, 0].set_title('Imagem Original')
        axes[0, 0].axis('off')
        
        # Classifica√ß√£o
        classification = results['analysis']['classification']
        axes[0, 1].bar(range(len(classification['probabilities'])), classification['probabilities'])
        axes[0, 1].set_title(f'Classifica√ß√£o\nClasse: {classification["predicted_class"]}, Conf: {classification["confidence"]:.2f}')
        axes[0, 1].set_xlabel('Classe')
        axes[0, 1].set_ylabel('Probabilidade')
        
        # Detec√ß√£o de objetos
        detection = results['analysis']['detection']
        detection_image = image.copy()
        for obj in detection['objects']:
            x, y, w, h = obj['bbox']
            cv2.rectangle(detection_image, (x, y), (x+w, y+h), (0, 255, 0), 2)
            cv2.putText(detection_image, f"{obj['class']}: {obj['confidence']:.2f}", 
                        (x, y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 1)
        
        axes[0, 2].imshow(detection_image)
        axes[0, 2].set_title(f'Detec√ß√£o de Objetos\n{detection["num_objects"]} objetos detectados')
        axes[0, 2].axis('off')
        
        # Segmenta√ß√£o
        segmentation = results['analysis']['segmentation']
        seg_map = np.array(segmentation['segmentation_map'])
        axes[1, 0].imshow(seg_map, cmap='viridis')
        axes[1, 0].set_title(f'Segmenta√ß√£o\n{segmentation["num_segments"]} segmentos')
        axes[1, 0].axis('off')
        
        # OCR
        ocr = results['analysis']['ocr']
        ocr_image = image.copy()
        for region in ocr['regions']:
            x, y, w, h = region
            cv2.rectangle(ocr_image, (x, y), (x+w, y+h), (255, 0, 0), 2)
        
        axes[1, 1].imshow(ocr_image)
        axes[1, 1].set_title(f'OCR\n{ocr["num_regions"]} regi√µes de texto')
        axes[1, 1].axis('off')
        
        # An√°lise multimodal
        multimodal = results['analysis']['multimodal']
        axes[1, 2].text(0.1, 0.8, f'Similaridade: {multimodal["similarity"]:.3f}', transform=axes[1, 2].transAxes)
        axes[1, 2].text(0.1, 0.6, f'Match Sem√¢ntico: {multimodal["semantic_match"]}', transform=axes[1, 2].transAxes)
        axes[1, 2].text(0.1, 0.4, f'Objetos: {len(multimodal["image_objects"])}', transform=axes[1, 2].transAxes)
        axes[1, 2].text(0.1, 0.2, f'Entidades: {len(multimodal["text_entities"])}', transform=axes[1, 2].transAxes)
        axes[1, 2].set_title('An√°lise Multimodal')
        axes[1, 2].axis('off')
        
        plt.suptitle('Sistema de An√°lise de Imagens Multimodal', fontsize=16)
        plt.tight_layout()
        plt.show()
        
        return fig
    
    def generate_report(self, results):
        """Gera relat√≥rio da an√°lise"""
        
        report = {
            'summary': {
                'timestamp': results['timestamp'],
                'image_shape': results['image_shape'],
                'total_analyses': len(results['analysis'])
            },
            'classification': {
                'predicted_class': results['analysis']['classification']['predicted_class'],
                'confidence': results['analysis']['classification']['confidence']
            },
            'detection': {
                'num_objects': results['analysis']['detection']['num_objects'],
                'objects': results['analysis']['detection']['objects']
            },
            'segmentation': {
                'num_segments': results['analysis']['segmentation']['num_segments']
            },
            'ocr': {
                'text': results['analysis']['ocr']['text'],
                'num_regions': results['analysis']['ocr']['num_regions']
            },
            'multimodal': {
                'similarity': results['analysis']['multimodal']['similarity'],
                'semantic_match': results['analysis']['multimodal']['semantic_match']
            }
        }
        
        return report

def demonstrate_complete_system():
    """Demonstra o sistema completo"""
    
    print("=== Sistema de An√°lise de Imagens Multimodal ===")
    print("\nNota: Esta demonstra√ß√£o usa modelos simplificados para fins educacionais.")
    print("Em aplica√ß√µes reais, use modelos pr√©-treinados e otimizados.")
    
    # Criar inst√¢ncia do sistema
    system = MultimodalImageAnalysisSystem()
    
    # Criar imagem de exemplo
    print("\nCriando imagem de exemplo...")
    sample_image = system.create_sample_image()
    
    # Analisar imagem
    print("\nAnalisando imagem...")
    results = system.analyze_image(sample_image)
    
    # Visualizar resultados
    print("\nVisualizando resultados...")
    fig = system.visualize_results(sample_image, results)
    
    # Gerar relat√≥rio
    print("\nGerando relat√≥rio...")
    report = system.generate_report(results)
    
    # Exibir resumo
    print("\n=== RESUMO DA AN√ÅLISE ===")
    print(f"Timestamp: {report['summary']['timestamp']}")
    print(f"Formato da imagem: {report['summary']['image_shape']}")
    print(f"An√°lises realizadas: {report['summary']['total_analyses']}")
    print(f"\nClassifica√ß√£o: Classe {report['classification']['predicted_class']} (Conf: {report['classification']['confidence']:.2f})")
    print(f"Detec√ß√£o: {report['detection']['num_objects']} objetos")
    print(f"Segmenta√ß√£o: {report['segmentation']['num_segments']} segmentos")
    print(f"OCR: {report['ocr']['num_regions']} regi√µes de texto")
    print(f"Multimodal: Similaridade {report['multimodal']['similarity']:.3f}")
    
    return system, sample_image, results, report

# Executar demonstra√ß√£o
complete_system, demo_image, analysis_results, final_report = demonstrate_complete_system()

### An√°lise dos Resultados

**Sistema Completo Observado:**

1. **Classifica√ß√£o**: CNN para classifica√ß√£o de imagens
2. **Detec√ß√£o**: YOLO simplificado para detec√ß√£o de objetos
3. **Segmenta√ß√£o**: U-Net para segmenta√ß√£o sem√¢ntica
4. **OCR**: Extra√ß√£o de texto com detec√ß√£o de regi√µes
5. **Multimodal**: An√°lise combinada de imagem e texto
6. **Visualiza√ß√£o**: Resultados integrados em dashboard

**Insights Importantes:**
- **Integra√ß√£o**: M√∫ltiplas t√©cnicas trabalhando juntas
- **Pipeline**: Fluxo completo de an√°lise
- **Visualiza√ß√£o**: Resultados claros e interpret√°veis
- **Relat√≥rio**: Documenta√ß√£o completa da an√°lise

**Refer√™ncias:**
- [Deep Residual Learning for Image Recognition - He et al.](https://arxiv.org/abs/1512.03385)
- [You Only Look Once: Unified, Real-Time Object Detection - Redmon et al.](https://arxiv.org/abs/1506.02640)


## 10.3 Implementa√ß√£o de Interface Web

### Streamlit Dashboard

Vamos criar uma interface web para o sistema:


In [None]:
import streamlit as st
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from io import BytesIO
import base64

class WebInterface:
    """Interface web para o sistema de an√°lise"""
    
    def __init__(self):
        self.system = MultimodalImageAnalysisSystem()
        
    def create_dashboard(self):
        """Cria o dashboard principal"""
        
        st.set_page_config(
            page_title="Sistema de An√°lise de Imagens Multimodal",
            page_icon="üîç",
            layout="wide"
        )
        
        st.title("üîç Sistema de An√°lise de Imagens Multimodal")
        st.markdown("---")
        
        # Sidebar
        st.sidebar.title("Configura√ß√µes")
        
        # Upload de imagem
        uploaded_file = st.sidebar.file_uploader(
            "Upload de Imagem",
            type=['png', 'jpg', 'jpeg'],
            help="Fa√ßa upload de uma imagem para an√°lise"
        )
        
        # Op√ß√µes de an√°lise
        st.sidebar.subheader("M√≥dulos de An√°lise")
        enable_classification = st.sidebar.checkbox("Classifica√ß√£o", value=True)
        enable_detection = st.sidebar.checkbox("Detec√ß√£o de Objetos", value=True)
        enable_segmentation = st.sidebar.checkbox("Segmenta√ß√£o", value=True)
        enable_ocr = st.sidebar.checkbox("OCR", value=True)
        enable_multimodal = st.sidebar.checkbox("An√°lise Multimodal", value=True)
        
        # Bot√£o de an√°lise
        if st.sidebar.button("Analisar Imagem", type="primary"):
            if uploaded_file is not None:
                self._analyze_uploaded_image(uploaded_file, {
                    'classification': enable_classification,
                    'detection': enable_detection,
                    'segmentation': enable_segmentation,
                    'ocr': enable_ocr,
                    'multimodal': enable_multimodal
                })
            else:
                st.error("Por favor, fa√ßa upload de uma imagem primeiro.")
        
        # Demo com imagem de exemplo
        if st.sidebar.button("Usar Imagem de Exemplo"):
            self._demo_with_sample_image()
        
        # Exibir imagem atual
        if 'current_image' in st.session_state:
            st.subheader("Imagem Atual")
            st.image(st.session_state['current_image'], caption="Imagem para an√°lise", use_column_width=True)
        
        # Exibir resultados
        if 'analysis_results' in st.session_state:
            self._display_results(st.session_state['analysis_results'])
        
        # Estat√≠sticas do sistema
        self._display_system_stats()
    
    def _analyze_uploaded_image(self, uploaded_file, options):
        """Analisa imagem enviada"""
        
        # Converter para numpy array
        image = np.array(bytearray(uploaded_file.read()), dtype=np.uint8)
        image = cv2.imdecode(image, cv2.IMREAD_COLOR)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        
        # Redimensionar se necess√°rio
        if image.shape[0] > 512 or image.shape[1] > 512:
            image = cv2.resize(image, (512, 512))
        
        # Armazenar imagem
        st.session_state['current_image'] = image
        
        # Analisar
        with st.spinner('Analisando imagem...'):
            results = self.system.analyze_image(image)
            st.session_state['analysis_results'] = results
        
        st.success("An√°lise conclu√≠da!")
    
    def _demo_with_sample_image(self):
        """Demonstra com imagem de exemplo"""
        
        # Criar imagem de exemplo
        sample_image = self.system.create_sample_image()
        
        # Armazenar imagem
        st.session_state['current_image'] = sample_image
        
        # Analisar
        with st.spinner('Analisando imagem de exemplo...'):
            results = self.system.analyze_image(sample_image)
            st.session_state['analysis_results'] = results
        
        st.success("An√°lise da imagem de exemplo conclu√≠da!")
    
    def _display_results(self, results):
        """Exibe os resultados da an√°lise"""
        
        st.subheader("üìä Resultados da An√°lise")
        
        # M√©tricas gerais
        col1, col2, col3, col4 = st.columns(4)
        
        with col1:
            st.metric(
                "Classifica√ß√£o",
                f"Classe {results['analysis']['classification']['predicted_class']}",
                f"{results['analysis']['classification']['confidence']:.2f}"
            )
        
        with col2:
            st.metric(
                "Objetos Detectados",
                results['analysis']['detection']['num_objects'],
                "objetos"
            )
        
        with col3:
            st.metric(
                "Segmentos",
                results['analysis']['segmentation']['num_segments'],
                "segmentos"
            )
        
        with col4:
            st.metric(
                "Regi√µes OCR",
                results['analysis']['ocr']['num_regions'],
                "regi√µes"
            )
        
        # Tabs para diferentes an√°lises
        tab1, tab2, tab3, tab4, tab5 = st.tabs([
            "üéØ Classifica√ß√£o",
            "üîç Detec√ß√£o",
            "‚úÇÔ∏è Segmenta√ß√£o",
            "üìù OCR",
            "üîó Multimodal"
        ])
        
        with tab1:
            self._display_classification_results(results['analysis']['classification'])
        
        with tab2:
            self._display_detection_results(results['analysis']['detection'])
        
        with tab3:
            self._display_segmentation_results(results['analysis']['segmentation'])
        
        with tab4:
            self._display_ocr_results(results['analysis']['ocr'])
        
        with tab5:
            self._display_multimodal_results(results['analysis']['multimodal'])
    
    def _display_classification_results(self, classification):
        """Exibe resultados de classifica√ß√£o"""
        
        # Gr√°fico de barras das probabilidades
        fig = px.bar(
            x=list(range(len(classification['probabilities']))),
            y=classification['probabilities'],
            title="Probabilidades de Classifica√ß√£o",
            labels={'x': 'Classe', 'y': 'Probabilidade'}
        )
        st.plotly_chart(fig, use_container_width=True)
        
        # Informa√ß√µes detalhadas
        st.write(f"**Classe Predita:** {classification['predicted_class']}")
        st.write(f"**Confian√ßa:** {classification['confidence']:.3f}")
    
    def _display_detection_results(self, detection):
        """Exibe resultados de detec√ß√£o"""
        
        # Tabela de objetos
        if detection['objects']:
            df = pd.DataFrame(detection['objects'])
            st.dataframe(df, use_container_width=True)
        
        # Gr√°fico de confian√ßa
        if detection['objects']:
            confidences = [obj['confidence'] for obj in detection['objects']]
            classes = [obj['class'] for obj in detection['objects']]
            
            fig = px.bar(
                x=classes,
                y=confidences,
                title="Confian√ßa por Classe",
                labels={'x': 'Classe', 'y': 'Confian√ßa'}
            )
            st.plotly_chart(fig, use_container_width=True)
    
    def _display_segmentation_results(self, segmentation):
        """Exibe resultados de segmenta√ß√£o"""
        
        st.write(f"**N√∫mero de Segmentos:** {segmentation['num_segments']}")
        
        # Visualizar mapa de segmenta√ß√£o
        seg_map = np.array(segmentation['segmentation_map'])
        
        fig = px.imshow(
            seg_map,
            title="Mapa de Segmenta√ß√£o",
            color_continuous_scale='viridis'
        )
        st.plotly_chart(fig, use_container_width=True)
    
    def _display_ocr_results(self, ocr):
        """Exibe resultados de OCR"""
        
        st.write(f"**Texto Extra√≠do:** {ocr['text']}")
        st.write(f"**N√∫mero de Regi√µes:** {ocr['num_regions']}")
        
        # Tabela de regi√µes
        if ocr['regions']:
            df = pd.DataFrame(ocr['regions'], columns=['X', 'Y', 'Width', 'Height'])
            st.dataframe(df, use_container_width=True)
    
    def _display_multimodal_results(self, multimodal):
        """Exibe resultados multimodais"""
        
        # M√©tricas
        col1, col2 = st.columns(2)
        
        with col1:
            st.metric(
                "Similaridade",
                f"{multimodal['similarity']:.3f}"
            )
        
        with col2:
            st.metric(
                "Match Sem√¢ntico",
                "Sim" if multimodal['semantic_match'] else "N√£o"
            )
        
        # Lista de objetos e entidades
        col1, col2 = st.columns(2)
        
        with col1:
            st.write("**Objetos Detectados:**")
            for obj in multimodal['image_objects']:
                st.write(f"- {obj}")
        
        with col2:
            st.write("**Entidades de Texto:**")
            for entity in multimodal['text_entities']:
                st.write(f"- {entity}")
    
    def _display_system_stats(self):
        """Exibe estat√≠sticas do sistema"""
        
        st.subheader("üìà Estat√≠sticas do Sistema")
        
        col1, col2, col3 = st.columns(3)
        
        with col1:
            st.metric("M√≥dulos Ativos", "5", "m√≥dulos")
        
        with col2:
            st.metric("An√°lises Realizadas", "1", "an√°lise")
        
        with col3:
            st.metric("Tempo M√©dio", "< 1s", "por an√°lise")
    
    def run_app(self):
        """Executa a aplica√ß√£o"""
        
        self.create_dashboard()

def create_streamlit_app():
    """Cria a aplica√ß√£o Streamlit"""
    
    print("=== Criando Interface Web com Streamlit ===")
    print("\nPara executar a aplica√ß√£o, use o comando:")
    print("streamlit run app.py")
    
    # Criar arquivo da aplica√ß√£o
    app_code = '''
import streamlit as st
import numpy as np
import cv2
import matplotlib.pyplot as plt
from multimodal_system import MultimodalImageAnalysisSystem

def main():
    st.set_page_config(
        page_title="Sistema de An√°lise de Imagens Multimodal",
        page_icon="üîç",
        layout="wide"
    )
    
    st.title("üîç Sistema de An√°lise de Imagens Multimodal")
    
    # Inicializar sistema
    if 'system' not in st.session_state:
        st.session_state.system = MultimodalImageAnalysisSystem()
    
    # Upload de imagem
    uploaded_file = st.file_uploader(
        "Fa√ßa upload de uma imagem",
        type=['png', 'jpg', 'jpeg']
    )
    
    if uploaded_file is not None:
        # Processar imagem
        image = np.array(bytearray(uploaded_file.read()), dtype=np.uint8)
        image = cv2.imdecode(image, cv2.IMREAD_COLOR)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        
        # Exibir imagem
        st.image(image, caption="Imagem enviada", use_column_width=True)
        
        # Analisar
        if st.button("Analisar Imagem"):
            with st.spinner('Analisando...'):
                results = st.session_state.system.analyze_image(image)
            
            # Exibir resultados
            st.success("An√°lise conclu√≠da!")
            
            # M√©tricas
            col1, col2, col3, col4 = st.columns(4)
            
            with col1:
                st.metric(
                    "Classifica√ß√£o",
                    f"Classe {results['analysis']['classification']['predicted_class']}",
                    f"{results['analysis']['classification']['confidence']:.2f}"
                )
            
            with col2:
                st.metric(
                    "Objetos",
                    results['analysis']['detection']['num_objects']
                )
            
            with col3:
                st.metric(
                    "Segmentos",
                    results['analysis']['segmentation']['num_segments']
                )
            
            with col4:
                st.metric(
                    "Regi√µes OCR",
                    results['analysis']['ocr']['num_regions']
                )
    
    # Demo com imagem de exemplo
    if st.button("Usar Imagem de Exemplo"):
        sample_image = st.session_state.system.create_sample_image()
        st.image(sample_image, caption="Imagem de exemplo", use_column_width=True)
        
        with st.spinner('Analisando imagem de exemplo...'):
            results = st.session_state.system.analyze_image(sample_image)
        
        st.success("An√°lise da imagem de exemplo conclu√≠da!")
        
        # Exibir resultados
        st.json(results)

if __name__ == "__main__":
    main()
    '''
    
    with open('app.py', 'w') as f:
        f.write(app_code)
    
    print("\nArquivo 'app.py' criado com sucesso!")
    print("\nPara executar a aplica√ß√£o:")
    print("1. Instale o Streamlit: pip install streamlit")
    print("2. Execute: streamlit run app.py")
    print("3. Acesse: http://localhost:8501")
    
    return app_code

# Criar aplica√ß√£o
app_code = create_streamlit_app()

### Interface Web Implementada**Funcionalidades da Interface:**1. **Upload de Imagens**: Interface para envio de imagens2. **An√°lise Interativa**: Bot√µes para executar an√°lises3. **Visualiza√ß√£o**: Resultados em tempo real4. **Dashboard**: M√©tricas e gr√°ficos interativos5. **Relat√≥rios**: Exporta√ß√£o de resultados![Interface Web](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo10/interface_web.png)**Tecnologias Utilizadas:**- **Streamlit**: Framework web- **Plotly**: Gr√°ficos interativos- **Pandas**: Manipula√ß√£o de dados- **OpenCV**: Processamento de imagem**Refer√™ncias:**- [Streamlit Documentation](https://docs.streamlit.io/)

## 10.4 Casos de Uso e Aplica√ß√µes### Aplica√ß√µes Pr√°ticas**1. E-commerce:**- **Busca visual**: Busca por produtos usando imagens- **Categoriza√ß√£o**: Categoriza√ß√£o autom√°tica de produtos- **Modera√ß√£o**: Modera√ß√£o de conte√∫do visual- **Recomenda√ß√µes**: Recomenda√ß√µes baseadas em visual**2. Sa√∫de:**- **Diagn√≥stico**: Assist√™ncia em diagn√≥stico m√©dico- **An√°lise**: An√°lise de imagens m√©dicas- **Documenta√ß√£o**: Documenta√ß√£o autom√°tica- **Educa√ß√£o**: Educa√ß√£o m√©dica**3. Educa√ß√£o:**- **Acessibilidade**: Acessibilidade visual- **Tutoria**: Tutoria multimodal- **Conte√∫do**: Cria√ß√£o de conte√∫do educacional- **Avalia√ß√£o**: Avalia√ß√£o autom√°tica**4. Entretenimento:**- **Gera√ß√£o**: Gera√ß√£o de conte√∫do visual- **Edi√ß√£o**: Edi√ß√£o autom√°tica- **Personaliza√ß√£o**: Personaliza√ß√£o de conte√∫do- **Intera√ß√£o**: Intera√ß√£o multimodal![Casos de Uso](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo10/casos_uso.png)### Vantagens do Sistema**1. Integra√ß√£o:**- **M√∫ltiplas t√©cnicas**: Combina√ß√£o de diferentes abordagens- **Pipeline completo**: Fluxo de an√°lise end-to-end- **Flexibilidade**: Adapt√°vel a diferentes casos de uso- **Escalabilidade**: Arquitetura modular**2. Performance:**- **Efici√™ncia**: Otimiza√ß√£o para diferentes tarefas- **Precis√£o**: Alta precis√£o em m√∫ltiplas modalidades- **Velocidade**: Processamento em tempo real- **Robustez**: Funciona em diferentes condi√ß√µes**3. Usabilidade:**- **Interface intuitiva**: F√°cil de usar- **Visualiza√ß√£o clara**: Resultados interpret√°veis- **Relat√≥rios**: Documenta√ß√£o autom√°tica- **Integra√ß√£o**: F√°cil integra√ß√£o em sistemas existentes### Limita√ß√µes e Desafios**1. T√©cnicas:**- **Recursos computacionais**: Requer recursos significativos- **Dados**: Depende de dados de qualidade- **Complexidade**: Arquitetura complexa- **Manuten√ß√£o**: Requer manuten√ß√£o cont√≠nua**2. Pr√°ticas:**- **Deploy**: Desafios de deploy em produ√ß√£o- **Escalabilidade**: Escalabilidade horizontal- **Monitoramento**: Monitoramento de performance- **Atualiza√ß√£o**: Atualiza√ß√£o de modelos**Refer√™ncias:**- [Deep Learning for Computer Vision - Goodfellow et al.](https://www.deeplearningbook.org/)

## Resumo do M√≥dulo 10

### Principais Conceitos Abordados

1. **Sistema Completo**
   - Arquitetura modular
   - Integra√ß√£o de t√©cnicas
   - Pipeline de an√°lise
   - Visualiza√ß√£o de resultados

2. **Implementa√ß√£o Pr√°tica**
   - Classifica√ß√£o com CNN
   - Detec√ß√£o com YOLO
   - Segmenta√ß√£o com U-Net
   - OCR com Tesseract
   - An√°lise multimodal

3. **Interface Web**
   - Dashboard interativo
   - Upload de imagens
   - Visualiza√ß√£o em tempo real
   - Relat√≥rios autom√°ticos

4. **Aplica√ß√µes Pr√°ticas**
   - Casos de uso reais
   - Vantagens e limita√ß√µes
   - Desafios de implementa√ß√£o
   - Futuro da tecnologia

### Demonstra√ß√µes Pr√°ticas

**1. Sistema Completo:**
   - An√°lise multimodal
   - Visualiza√ß√£o integrada
   - Relat√≥rios autom√°ticos
   - M√©tricas de performance

**2. Interface Web:**
   - Dashboard Streamlit
   - Upload interativo
   - Visualiza√ß√£o em tempo real
   - Exporta√ß√£o de resultados

### Conclus√£o do Curso

**Conceitos Aprendidos:**
- **Fundamentos**: Processamento digital de imagem
- **Deep Learning**: CNNs e arquiteturas modernas
- **T√©cnicas Avan√ßadas**: Transfer learning, GANs, VAEs
- **Transformers**: Vision Transformers e aten√ß√£o
- **Foundation Models**: CLIP, DALL-E, GPT-4V
- **Aplica√ß√µes**: Casos de uso pr√°ticos

**Habilidades Desenvolvidas:**
- **Implementa√ß√£o**: C√≥digo pr√°tico e funcional
- **An√°lise**: Interpreta√ß√£o de resultados
- **Integra√ß√£o**: Combina√ß√£o de t√©cnicas
- **Visualiza√ß√£o**: Apresenta√ß√£o de dados
- **Deploy**: Implementa√ß√£o em produ√ß√£o

### Pr√≥ximos Passos

**Para Continuar Aprendendo:**
1. **Projetos Pr√°ticos**: Implementar projetos reais
2. **Datasets**: Trabalhar com datasets p√∫blicos
3. **Competi√ß√µes**: Participar de competi√ß√µes
4. **Pesquisa**: Acompanhar papers recentes
5. **Comunidade**: Participar da comunidade

### Refer√™ncias Principais

- [Deep Learning for Computer Vision - Goodfellow et al.](https://www.deeplearningbook.org/)
- [Computer Vision: Algorithms and Applications - Szeliski](https://szeliski.org/Book/)
- [Attention Is All You Need - Vaswani et al.](https://arxiv.org/abs/1706.03762)

---

**üéâ Parab√©ns! Voc√™ concluiu o curso de Vis√£o Computacional!**

**Obrigado por acompanhar este curso completo sobre Vis√£o Computacional e Deep Learning!**