Ruby Assistant es un asistente de voz desarrollado en Python como proyecto de práctica.
Permite ejecutar programas mediante comandos de voz y responder preguntas utilizando Gemini 2.5 Flash (GenAI).
Ruby puede:
- 🎤 Escuchar comandos por voz
- 🤖 Clasificar si el mensaje es una pregunta o una orden
- 🗣️ Responder preguntas mediante voz (Text-to-Speech)
- 💻 Convertir órdenes en comandos válidos de Windows 10/11
- 🔐 Bloquear comandos peligrosos automáticamente
- ✅ Reconocimiento de voz con
speech_recognition - ✅ Clasificación inteligente con Gemini 2.5 Flash
- ✅ Conversión segura de órdenes a comandos Windows
- ✅ Protección contra acciones destructivas
- ✅ Respuesta hablada usando
pyttsx3 - ✅ Configuración de rutas personalizadas mediante
paths.json
- El asistente escucha continuamente.
- Si detecta la palabra clave "Rubí", envía el texto a Gemini.
- Gemini clasifica el mensaje como:
question→ Ruby responde con voz.instruction→ Ruby lo convierte en un comando Windows seguro.
- Si la orden es peligrosa, responde con:
y muestra una notificación.
Impossible
📦 Ruby-Assistant
┃
┣ 📂 src
┃ ┣ 📂 config
┃ ┃ ┗ paths.json # Rutas personalizadas
┃ ┣ 📂 utils
┃ ┃ ┣ command.py # Lógica principal de voz
┃ ┃ ┣ genai_client.py # Conexión con Gemini
┃ ┃ ┣ notify.py # Notificaciones
┃ ┣ main.py # Punto de entrada
┃
┣ 📜 .env
┣ 📜 .env.example
┣ 📜 requirements.txt
┣ 📜 README.md
┗ 📜 LICENSE
Ruby está diseñada para:
- ❌ No ejecutar comandos peligrosos
- ❌ No modificar archivos del sistema
- ❌ No acceder a carpetas críticas como:
- System32
- Windows
- Program Files
- Drivers
- Registro de Windows
Si detecta una acción riesgosa, responde únicamente:
Impossible
Crea un archivo .env:
GEMINI_API_KEY=git clone https://github.com/tuusuario/ruby-assistant.git
cd ruby-assistantpip install -r requirements.txtpython src/main.py🎤 "Rubí, ¿qué es inteligencia artificial?"
➡ Ruby responde con voz.
🎤 "Rubí, crea una carpeta llamada proyectos"
➡ Ruby genera el comando Windows correspondiente.
🎤 "Open chrome"
➡ Abre Google Chrome si está en el PATH.
- 🐍 Python
- 🎤 speech_recognition
- 🤖 Google Gemini 2.5 Flash (GenAI)
- 🗣️ pyttsx3 (Text-to-Speech)
- 📢 Sistema de notificaciones
- 💻 Windows 10 / 11
Este proyecto fue creado como práctica para integrar:
- Inteligencia Artificial
- Reconocimiento de voz
- Automatización de sistema
- Seguridad en generación de comandos
MIT License