# Aula 7: Governança e Ciclo de Feedbacks

## Objetivos de Aprendizagem
- Implementar governança de modelos de ML
- Criar sistemas de feedback e auditoria
- Documentar modelos adequadamente
- Implementar controle de acesso e compliance
- Rastrear linhagem de dados e modelos

## Exercício Prático
Implementar sistema de governança completo para modelos de ML.

In [None]:
import pandas as pd
import numpy as np
import mlflow
import json
from datetime import datetime
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import hashlib
import warnings
warnings.filterwarnings('ignore')

## 1. Model Card - Documentação de Modelo

### Tarefa 1: Crie um Model Card completo

In [None]:
class ModelCard:
    """Model Card para documentação de modelos ML"""
    
    def __init__(self):
        self.card = {
            'model_details': {},
            'intended_use': {},
            'factors': {},
            'metrics': {},
            'training_data': {},
            'ethical_considerations': {},
            'caveats_recommendations': {}
        }
    
    def add_model_details(self, name, version, type, owner, date):
        """Adicionar detalhes do modelo"""
        self.card['model_details'] = {
            'name': name,
            'version': version,
            'type': type,
            'owner': owner,
            'creation_date': date
        }
    
    def add_intended_use(self, purpose, users, out_of_scope):
        """Adicionar uso pretendido"""
        self.card['intended_use'] = {
            'primary_purpose': purpose,
            'intended_users': users,
            'out_of_scope': out_of_scope
        }
    
    def add_metrics(self, metrics_dict):
        """Adicionar métricas de performance"""
        self.card['metrics'] = metrics_dict
    
    def add_training_data(self, data_info):
        """Adicionar informações de dados de treino"""
        self.card['training_data'] = data_info
    
    def add_ethical_considerations(self, considerations):
        """Adicionar considerações éticas"""
        self.card['ethical_considerations'] = considerations
    
    def to_dict(self):
        return self.card
    
    def to_json(self, filepath):
        """Salvar como JSON"""
        with open(filepath, 'w') as f:
            json.dump(self.card, f, indent=2)
        print(f"Model Card salvo em: {filepath}")

# Criar Model Card
model_card = ModelCard()
model_card.add_model_details(
    name="Iris Classifier",
    version="1.0.0",
    type="Random Forest Classifier",
    owner="ML Team",
    date=datetime.now().isoformat()
)
model_card.add_intended_use(
    purpose="Classificar espécies de flores Iris",
    users=["Pesquisadores", "Botânicos"],
    out_of_scope=["Uso médico", "Aplicações críticas"]
)
print("Model Card criado")
print(json.dumps(model_card.to_dict(), indent=2))

## 2. Sistema de Auditoria

### Tarefa 2: Implemente rastreamento de auditoria

In [None]:
class ModelAuditLog:
    """Sistema de auditoria para modelos ML"""
    
    def __init__(self):
        self.audit_log = []
    
    def log_event(self, event_type, user, details):
        """Registrar evento"""
        event = {
            'timestamp': datetime.now().isoformat(),
            'event_type': event_type,
            'user': user,
            'details': details
        }
        self.audit_log.append(event)
        return event
    
    def get_events(self, event_type=None, user=None):
        """Buscar eventos"""
        events = self.audit_log
        if event_type:
            events = [e for e in events if e['event_type'] == event_type]
        if user:
            events = [e for e in events if e['user'] == user]
        return events
    
    def export_to_file(self, filepath):
        """Exportar log de auditoria"""
        with open(filepath, 'w') as f:
            json.dump(self.audit_log, f, indent=2)

# Criar sistema de auditoria
audit_log = ModelAuditLog()

# Registrar eventos
audit_log.log_event('MODEL_TRAINING', 'data_scientist_1', {'model': 'iris_classifier', 'accuracy': 0.95})
audit_log.log_event('MODEL_DEPLOYMENT', 'ml_engineer_1', {'model': 'iris_classifier', 'environment': 'staging'})
audit_log.log_event('MODEL_PREDICTION', 'api_service', {'model': 'iris_classifier', 'predictions': 100})

print("Eventos de auditoria registrados:")
for event in audit_log.audit_log:
    print(f"  [{event['timestamp']}] {event['event_type']} by {event['user']}")

## 3. Sistema de Feedback

### Tarefa 3: Implemente coleta de feedback

In [None]:
class FeedbackSystem:
    """Sistema de coleta e análise de feedback"""
    
    def __init__(self):
        self.feedback_data = []
    
    def collect_feedback(self, prediction_id, true_label, predicted_label, user_feedback):
        """Coletar feedback de predição"""
        feedback = {
            'timestamp': datetime.now().isoformat(),
            'prediction_id': prediction_id,
            'true_label': true_label,
            'predicted_label': predicted_label,
            'correct': true_label == predicted_label,
            'user_feedback': user_feedback
        }
        self.feedback_data.append(feedback)
        return feedback
    
    def get_accuracy_from_feedback(self):
        """Calcular accuracy baseado em feedback"""
        if not self.feedback_data:
            return 0.0
        correct = sum(1 for f in self.feedback_data if f['correct'])
        return correct / len(self.feedback_data)
    
    def get_feedback_summary(self):
        """Resumo de feedback"""
        df = pd.DataFrame(self.feedback_data)
        summary = {
            'total_feedback': len(self.feedback_data),
            'accuracy': self.get_accuracy_from_feedback(),
            'positive_feedback': sum(1 for f in self.feedback_data if f['user_feedback'] == 'positive'),
            'negative_feedback': sum(1 for f in self.feedback_data if f['user_feedback'] == 'negative')
        }
        return summary

# Criar sistema de feedback
feedback_system = FeedbackSystem()

# Simular coleta de feedback
feedback_system.collect_feedback('pred_001', 0, 0, 'positive')
feedback_system.collect_feedback('pred_002', 1, 1, 'positive')
feedback_system.collect_feedback('pred_003', 2, 1, 'negative')

summary = feedback_system.get_feedback_summary()
print("\nResumo de Feedback:")
print(json.dumps(summary, indent=2))

## 4. Data Lineage - Rastreamento de Linhagem

### Tarefa 4: Implemente rastreamento de linhagem

In [None]:
class DataLineageTracker:
    """Rastreador de linhagem de dados e modelos"""
    
    def __init__(self):
        self.lineage = {}
    
    def track_data_source(self, data_id, source_info):
        """Rastrear fonte de dados"""
        self.lineage[data_id] = {
            'type': 'data',
            'source': source_info,
            'timestamp': datetime.now().isoformat()
        }
    
    def track_transformation(self, output_id, input_ids, transformation):
        """Rastrear transformação"""
        self.lineage[output_id] = {
            'type': 'transformation',
            'inputs': input_ids,
            'transformation': transformation,
            'timestamp': datetime.now().isoformat()
        }
    
    def track_model(self, model_id, training_data_id, params):
        """Rastrear modelo treinado"""
        self.lineage[model_id] = {
            'type': 'model',
            'training_data': training_data_id,
            'parameters': params,
            'timestamp': datetime.now().isoformat()
        }
    
    def get_lineage(self, item_id):
        """Obter linhagem completa"""
        def _get_ancestors(id, visited=None):
            if visited is None:
                visited = set()
            if id in visited or id not in self.lineage:
                return {}
            visited.add(id)
            
            lineage = {id: self.lineage[id]}
            item = self.lineage[id]
            
            if 'inputs' in item:
                for input_id in item['inputs']:
                    lineage.update(_get_ancestors(input_id, visited))
            if 'training_data' in item:
                lineage.update(_get_ancestors(item['training_data'], visited))
            
            return lineage
        
        return _get_ancestors(item_id)

# Criar rastreador
lineage_tracker = DataLineageTracker()

# Rastrear pipeline
lineage_tracker.track_data_source('raw_data_001', {'source': 'iris_dataset', 'version': '1.0'})
lineage_tracker.track_transformation('processed_data_001', ['raw_data_001'], 'StandardScaler')
lineage_tracker.track_model('model_001', 'processed_data_001', {'n_estimators': 100})

print("Linhagem do modelo:")
print(json.dumps(lineage_tracker.get_lineage('model_001'), indent=2))

## 5. Compliance e Controle de Acesso

### Tarefa 5: Implemente controles de compliance

In [None]:
class ComplianceChecker:
    """Verificador de compliance para modelos"""
    
    def __init__(self):
        self.checks = {}
    
    def check_data_privacy(self, data_info):
        """Verificar privacidade de dados"""
        checks = {
            'has_pii': 'pii_columns' not in data_info or len(data_info.get('pii_columns', [])) == 0,
            'data_anonymized': data_info.get('anonymized', False),
            'gdpr_compliant': data_info.get('gdpr_compliant', False)
        }
        return checks
    
    def check_model_bias(self, metrics_by_group):
        """Verificar viés em grupos"""
        accuracies = [m['accuracy'] for m in metrics_by_group.values()]
        max_diff = max(accuracies) - min(accuracies)
        
        return {
            'bias_check': max_diff < 0.1,  # diferença menor que 10%
            'max_accuracy_diff': max_diff
        }
    
    def check_documentation(self, model_card):
        """Verificar documentação completa"""
        required_fields = ['model_details', 'intended_use', 'metrics', 'ethical_considerations']
        checks = {f'has_{field}': field in model_card for field in required_fields}
        return checks
    
    def run_compliance_check(self, data_info, model_card):
        """Executar verificação completa"""
        results = {}
        results['data_privacy'] = self.check_data_privacy(data_info)
        results['documentation'] = self.check_documentation(model_card)
        
        all_passed = all(
            all(checks.values()) if isinstance(checks, dict) else checks
            for checks in results.values()
        )
        
        return {'passed': all_passed, 'details': results}

# Verificar compliance
compliance = ComplianceChecker()
data_info = {'anonymized': True, 'gdpr_compliant': True}
result = compliance.run_compliance_check(data_info, model_card.to_dict())

print("\nResultado de Compliance:")
print(json.dumps(result, indent=2))

## 6. Exercícios Adicionais

### Desafios:
1. Implemente sistema de aprovação multi-nível para deployment
2. Crie dashboard de governança com métricas consolidadas
3. Implemente versionamento de políticas de governança
4. Crie sistema de alertas para violações de compliance
5. Implemente rastreamento de custo por modelo

### Questões:
1. Como garantir que modelos sejam explicáveis?
2. Quais são os principais riscos éticos em ML?
3. Como implementar right to explanation?
4. Como balancear inovação e governança?