Skip to content

aumi-group/MIND

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

MIND

A camada de presença entre você e a máquina.

MIND é um agente de desktop open source que o que você vê, sabe onde você está apontando o cursor, ouve o que você diz e aprende como você trabalha. Voz, cursor, tela e padrões de uso entram juntos como um único contexto rico para o agente.

Quando você diz "resume isso aqui", o "isso aqui" é resolvido pelo que está sob o cursor + o que está na tela. Cursor + tela + voz = um contexto só.

License: AGPL v3 Status: alpha Platform: Windows Stack: Tauri + Rust

Por que existe: assistentes comerciais (Copilot, Alexa, Siri) mandam tudo pra nuvem deles, esquecem o contexto a cada turn, e não veem sua tela. MIND vira o oposto disso: roda local, persiste contexto e enxerga o que você está fazendo.


Os 5 pilares

Pilar O que faz Tecnologia (Windows) Status
�� Ouvido Voz → texto (e intenção) captura de áudio + VAD + STT em streaming ✅ v0
��️ Visão Captura + entendimento de tela screenshot + modelo com visão �� v1
��️ Foco Cursor como contexto: elemento sob o cursor, janela ativa, árvore de UI UI Automation + posição do mouse �� v1
�� Memória Padrões de uso, hábitos, contexto persistente log de eventos + memória do agente �� v3
Mãos O agente age: clica, digita, abre, automatiza controle de mouse/teclado + tool-use �� v2

Roadmap

  • v0 — "O Ouvido" (em andamento) Hotkey push-to-talk → captura de microfone → VAD (detecta fala) → STT em streaming → transcrição aparece num overlay, com baixa latência.
  • v0.5 — Intenção/comandos Classificar o que foi dito → mapear para intenção/ação. Wake word opcional.
  • v1 — "O Olhar"
    • visão (screenshot) + cursor/UI Automation. "O que é isso?" resolve pelo cursor.
  • v2 — "As Mãos" Ações no PC (abrir, clicar, digitar) com salvaguardas e confirmação humana.
  • v3 — "A Memória" Padrões de uso persistentes; MIND aprende hábitos e antecipa contexto.

Stack

  • Tauri (núcleo em Rust + UI web). App nativo leve, overlay elegante.
  • STT local: whisper.cpp (whisper-rs) — privado, offline, sem chave de API.
  • VAD: detecção de atividade de voz adaptativa (calibra ao ruído do ambiente do usuário).
  • TTS: Piper (offline).
  • Plataforma alvo inicial: Windows. macOS/Linux na sequência.

Como rodar localmente (alpha)

Status: alpha. Funciona em Windows com toolchain Rust GNU. Espere quebrar — mande issue.

Pré-requisitos

  • Rust via rustup, toolchain GNU (stable-x86_64-pc-windows-gnu)
  • Node + pnpm
  • WebView2 (vem com Windows 11; em 10, instale aqui)
  • MinGW-w64 (WinLibs) para dlltool.exe que o Rust GNU não traz:
    winget install BrechtSanders.WinLibs.POSIX.MSVCRT --scope user
    

Build

git clone https://github.com/aumi-group/MIND.git
cd MIND/app
pnpm install
pnpm tauri dev

Veja PLANO.md e PLANO-MAO-NAVEGADOR.md para detalhes de arquitetura e decisões tomadas.

Diferencial: contexto unificado

A maior parte de "AI Assistant" hoje vê uma coisa: ou texto que você digita, ou imagem que você cola. MIND vê tudo ao mesmo tempo:

Você diz:           "resume isso aqui pra mim"
MIND vê voz:        texto transcrito
MIND vê cursor:     elemento UI sob o cursor (tipo, propriedades, posição)
MIND vê tela:       screenshot da janela ativa
MIND consulta memória: já viu esse aplicativo? padrão de uso?

O modelo recebe tudo isso como um único contexto e responde com referência exata ao que você apontou. Sem ping-pong de "o quê?".

Filosofia

  • Roda local por padrão. STT, TTS, modelos pequenos — tudo no seu hardware. Cloud só onde você escolhe explicitamente.
  • Open source AGPL. Você usa, modifica, fork. Quem rodar como serviço comercial precisa liberar as modificações também — disciplina, não vale-tudo.
  • Spec antes de código. Convenções e decisões versionadas em markdown. Veja PLANO.md.
  • Gate humano em ações irreversíveis. Quando MIND chegar nas "Mãos" (v2), nada de apagar/transferir/publicar sem confirmação explícita.

Contribuir

Bem-vindo. Antes de PR:

  1. PLANO.md — entende a visão e os pilares
  2. Abre um issue descrevendo o que vai fazer (alinhamento antes de código)
  3. Segue a disciplina: spec → teste → revisão
  4. PR pequeno, descrição honesta

Veja CONTRIBUTING.md.

Quem está por trás

MIND é desenvolvido pela AUMI Group — consultoria AI Native do Brasil. É um experimento aberto da nossa filosofia de operação com agentes em produção.

Discussão sobre AI Native, Agent OS, Brain corporativo e o que separa demo de operação real está em aumi.group/blog.

Licença

GNU AGPL v3 — código livre pra usar, modificar e distribuir. Quem rodar como serviço acessível por rede precisa publicar as modificações sob a mesma licença. AGPL não é "free-for-all" — é open source com reciprocidade.


Status: alpha. Ouvido (v0) funciona; estamos plugando whisper.cpp. Plataforma: Windows. macOS/Linux na sequência. Contato: contato@aumi.group · aumi.group

About

A camada de presença entre você e a máquina. Agente desktop open source que vê tela, lê cursor, ouve voz e aprende padrões. Tauri + Rust, AGPL.

Topics

Resources

License

Contributing

Security policy

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors