# 🎭 Ditto Talking Head - Complete Setup for Google Colab

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/linhcentrio/ditto-talkinghead/blob/colab/ditto_talkinghead_latest.ipynb)

**Tạo video AI với khuôn mặt nói từ văn bản - Đơn giản chỉ với 2 bước!**

---

## ✨ Tính năng chính:
- 🎭 **AI Talking Head**: Tạo video khuôn mặt nói từ ảnh + âm thanh
- 🎬 **Video MC**: Ghép MC với video nền chuyên nghiệp
- 🎙️ **Text-to-Speech**: 3 dịch vụ TTS cao cấp (GPT-4o-mini, OpenAI, Edge)
- 🌐 **Public Access**: Truy cập từ bất kỳ thiết bị nào qua internet
- ⚡ **GPU Optimized**: Tự động tối ưu cho GPU Colab
- 📱 **Mobile Friendly**: Giao diện thân thiện trên mọi thiết bị

## ⏱️ Thời gian setup: **3-5 phút**

---

## 📋 Yêu cầu hệ thống

✅ **Google Colab** (Free hoặc Pro)  
✅ **GPU Runtime** (T4 trở lên khuyến nghị)  
✅ **Kết nối internet ổn định**  

---

## 🔑 Cấu hình API Keys (Tùy chọn)

### 📝 Hướng dẫn lấy API Keys:

**🔸 OpenAI API Key** (Cho TTS chất lượng cao):
1. Truy cập: https://platform.openai.com/api-keys
2. Đăng nhập và tạo API key mới
3. Copy và dán vào ô bên dưới

**🔸 Pexels API Key** (Cho hình ảnh nền tự động):
1. Truy cập: https://www.pexels.com/api/
2. Đăng ký tài khoản miễn phí
3. Copy API key và dán vào ô bên dưới

**⚠️ Lưu ý**: Nếu không có API keys, bạn vẫn có thể sử dụng Edge TTS miễn phí!

---

In [None]:
#@title 🔑 Nhập API Keys (Tùy chọn) { run: "auto" }

#@markdown ### 🔧 Cấu hình API Keys:
#@markdown ---

openai_api_key = "" #@param {type:"string", placeholder:"Nhập OpenAI API Key (tùy chọn)..."}
pexels_api_key = "" #@param {type:"string", placeholder:"Nhập Pexels API Key (tùy chọn)..."}

#@markdown ---
#@markdown **💡 Bỏ trống nếu muốn sử dụng dịch vụ miễn phí**

import os

# Thiết lập API keys vào môi trường
def setup_api_keys():
    """Thiết lập API keys vào biến môi trường"""
    
    print("🔧 Cấu hình API Keys...")
    
    # OpenAI API Key
    if openai_api_key.strip():
        os.environ['OPENAI_API_KEY'] = openai_api_key.strip()
        print("✅ OpenAI API Key đã được cấu hình")
    else:
        print("ℹ️ OpenAI API Key không được cung cấp (sẽ dùng Edge TTS miễn phí)")
    
    # Pexels API Key
    if pexels_api_key.strip():
        os.environ['PEXELS_API_KEY'] = pexels_api_key.strip()
        print("✅ Pexels API Key đã được cấu hình")
    else:
        print("ℹ️ Pexels API Key không được cung cấp (tùy chọn)")
    
    print('\n' + '━' * 50)
    print('🎉 Cấu hình API Keys hoàn tất!')
    print('🚀 Bây giờ bạn có thể chạy bước setup bên dưới!')
    print('━' * 50)

# Chạy thiết lập
setup_api_keys()

## 🔧 BƯỚC 1: Thiết lập môi trường

**Chạy cell này một lần để cài đặt tất cả dependencies và models**

⏱️ **Thời gian ước tính**: 3-5 phút  
🔄 **Chỉ cần chạy một lần** cho mỗi phiên làm việc

---

In [None]:
# 🔧 BƯỚC 1: Thiết lập môi trường (Chạy cell này một lần)

print("🎭 Bắt đầu thiết lập môi trường Ditto Talking Head...")
print("⏳ Vui lòng đợi 3-5 phút để hoàn tất...\n")

# Tải và chạy script setup
!wget -q https://raw.githubusercontent.com/linhcentrio/ditto-talkinghead/colab/run_colab.py -O run_colab.py
!python run_colab.py

print("\n🎉 Thiết lập hoàn tất!")
print("🚀 Bây giờ bạn có thể chạy BƯỚC 2 để khởi động ứng dụng!")

## 🚀 BƯỚC 2: Khởi động ứng dụng

**Chạy cell này để khởi động giao diện web và nhận link truy cập công khai**

🌐 **Public URL**: Bạn sẽ nhận được link để truy cập từ bất kỳ thiết bị nào  
📱 **Mobile Friendly**: Hoạt động tốt trên điện thoại và tablet  
🔄 **Real-time**: Theo dõi tiến trình xử lý trực tiếp

---

In [None]:
# 🚀 BƯỚC 2: Khởi động ứng dụng

print("🎭 Khởi động Ditto Talking Head...")
print("⏳ Đang tạo tunnel và khởi động server...\n")

# Tải và chạy script khởi động
!wget -q https://raw.githubusercontent.com/linhcentrio/ditto-talkinghead/colab/start_app.py -O start_app.py
!python start_app.py

## 📖 Hướng dẫn sử dụng

### 🎬 Tạo Video MC (MC + Background):

1. **📁 Tải lên files**:
   - **MC**: Ảnh hoặc video của người dẫn chương trình
   - **Background**: Video nền để ghép với MC
   - **Audio**: File âm thanh hoặc nhập văn bản để tạo TTS

2. **⚙️ Điều chỉnh cài đặt**:
   - **Vị trí MC**: Góc trên/dưới, trái/phải, hoặc chính giữa
   - **Kích thước**: Tự động hoặc tùy chỉnh
   - **Chất lượng**: Low/Medium/High

3. **🚀 Tạo video**: Nhấn nút và chờ kết quả

### 🎭 Video Khuôn Mặt AI (Pure AI):

1. **📸 Tải ảnh MC**: Ảnh khuôn mặt rõ nét
2. **🎵 Audio/Text**: Âm thanh hoặc văn bản để tạo giọng nói
3. **🤖 Chọn mô hình**: Standard hoặc Optimized
4. **🗣️ Tùy chỉnh khẩu hình**: Điều chỉnh chuyển động môi

### 🎙️ Text-to-Speech:

- **GPT-4o-mini-TTS**: 10 giọng nói với tùy chỉnh giọng điệu
- **OpenAI TTS**: 6 giọng nói chất lượng cao
- **Edge TTS**: Miễn phí, hỗ trợ tiếng Việt

---

## 💡 Mẹo tối ưu

### 📸 Chuẩn bị file MC:
- ✅ Khuôn mặt rõ ràng, nhìn thẳng camera
- ✅ Nền đồng màu hoặc loại bỏ nền
- ✅ Ánh sáng đều, không bị tối hoặc quá sáng
- ✅ Độ phân giải tối thiểu 512x512 pixels

### 🎞️ Video nền chất lượng:
- ✅ Định dạng MP4, tỷ lệ 16:9
- ✅ Độ phân giải HD (1280x720) trở lên
- ✅ Thời lượng phù hợp với audio
- ✅ Nội dung phù hợp với chủ đề

### 🎵 Audio tốt nhất:
- ✅ File WAV hoặc MP3 chất lượng cao
- ✅ Không có tiếng ồn nền
- ✅ Giọng nói rõ ràng, phát âm chuẩn
- ✅ Tốc độ nói vừa phải (không quá nhanh/chậm)

### ⚡ Tối ưu hiệu suất:
- 🎮 Sử dụng GPU T4 hoặc cao hơn
- 💾 Đóng các tab không cần thiết
- 🔄 Sử dụng chất lượng Medium cho cân bằng
- ⏰ Tránh làm việc trong giờ cao điểm

---

## ✨ Tính năng nâng cao

### 🗣️ Điều khiển khẩu hình AI:
- **Mức độ chuyển động môi**: Điều chỉnh độ mạnh của chuyển động môi
- **Thành phần biểu cảm**: Chọn các phần của khuôn mặt để animate
- **Tỷ lệ biểu cảm**: Điều chỉnh cường độ biểu cảm khuôn mặt
- **Offset biểu cảm**: Thay đổi hình dáng môi mặc định

### 🎛️ Tùy chỉnh video:
- **5 vị trí MC**: Góc trên/dưới, trái/phải, chính giữa
- **Auto-scale**: Tự động tính toán kích thước phù hợp
- **3 mức chất lượng**: Low/Medium/High
- **GPU optimization**: Tự động chọn model phù hợp

### 🔄 Workflow linh hoạt:
- **Selective processing**: Bật/tắt từng bước xử lý
- **Real-time progress**: Theo dõi tiến trình chi tiết
- **Batch processing**: Xử lý nhiều video cùng lúc
- **History management**: Quản lý lịch sử video đã tạo

---

## 🔧 Xử lý sự cố

### ❌ Vấn đề thường gặp:

**🐌 Xử lý chậm hoặc timeout:**
- Giảm chất lượng xuống "Low" hoặc "Medium"
- Sử dụng files input nhỏ hơn (< 50MB)
- Kiểm tra GPU memory và restart runtime nếu cần
- Thử vào thời điểm ít người dùng

**❌ Lỗi khi tạo video:**
- Kiểm tra định dạng file đúng (MP4, JPG, PNG, WAV, MP3)
- Đảm bảo files không bị hỏng hoặc corrupted
- Thử restart runtime và chạy lại setup
- Kiểm tra kết nối internet ổn định

**❌ Lỗi Text-to-Speech:**
- Kiểm tra API keys nếu sử dụng OpenAI TTS
- Thử chuyển sang Edge TTS (miễn phí)
- Kiểm tra văn bản không chứa ký tự đặc biệt
- Đảm bảo kết nối internet ổn định

**🔄 App bị đơ hoặc không phản hồi:**
- Nhấn nút "Hủy xử lý" nếu có
- Restart cell BƯỚC 2
- Nếu vẫn lỗi, restart toàn bộ runtime
- Kiểm tra logs để debug chi tiết

### 🆘 Khôi phục nhanh:

1. **Restart Runtime**: `Runtime > Restart Runtime`
2. **Chạy lại API Keys**: Cell cấu hình API
3. **Setup lại**: Cell BƯỚC 1
4. **Khởi động lại**: Cell BƯỚC 2

---

## ❓ FAQ - Câu hỏi thường gặp

**Q: Tôi có cần trả phí để sử dụng không?**  
A: Không! Bạn có thể sử dụng hoàn toàn miễn phí với Edge TTS và Google Colab free. OpenAI API là tùy chọn.

**Q: Tại sao video tạo ra không có âm thanh?**  
A: Kiểm tra file audio input, thử tăng volume, hoặc tạo lại TTS từ văn bản.

**Q: Làm sao để video có chất lượng tốt nhất?**  
A: Sử dụng GPU T4+, chọn chất lượng High, file input HD, và khuôn mặt MC rõ nét.

**Q: Tôi có thể tạo video bao lâu?**  
A: Tùy thuộc vào độ dài audio. Khuyến nghị < 5 phút cho hiệu suất tốt nhất.

**Q: URL công khai có an toàn không?**  
A: URL là tạm thời và sẽ thay đổi khi restart. Chỉ người có link mới truy cập được.

**Q: Tôi có thể sử dụng trên điện thoại không?**  
A: Có! Giao diện được tối ưu cho mobile. Chỉ cần truy cập link từ điện thoại.

**Q: Làm sao để tải video về máy?**  
A: Sau khi tạo xong, nhấn nút "💾 Tải xuống video" trong giao diện.

---

## 🆘 Hỗ trợ & Liên hệ

**📧 Báo lỗi**: [GitHub Issues](https://github.com/linhcentrio/ditto-talkinghead/issues)  
**📚 Documentation**: [Wiki](https://github.com/linhcentrio/ditto-talkinghead/wiki)  
**💬 Community**: [Discussions](https://github.com/linhcentrio/ditto-talkinghead/discussions)  

### 🤝 Đóng góp:
- ⭐ Star repo nếu hữu ích
- 🐛 Báo cáo bugs
- 💡 Đề xuất tính năng mới
- 📝 Cải thiện documentation

---

## 📄 License & Credits

**License**: MIT License  
**Credits**: Based on DualTalking, SadTalker, and various open-source projects  
**Maintainer**: [@linhcentrio](https://github.com/linhcentrio)  

---

<div align="center">

**🎭 Ditto Talking Head - AI Video Generation Made Simple**

*Tạo video AI chất lượng cao chỉ với vài click chuột*

[![GitHub stars](https://img.shields.io/github/stars/linhcentrio/ditto-talkinghead?style=social)](https://github.com/linhcentrio/ditto-talkinghead)
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/linhcentrio/ditto-talkinghead/blob/colab/ditto_talkinghead_latest.ipynb)

</div>