# 1. How Run 

1. Cài database local Milvus bằng Docker - https://milvus.io/docs/install_milvus_docker.md
```bash
docker-compose up --build
docker run -p 3000:3000 -e MILVUS_URL=localhost:19530 zilliz/attu:v2.4
```
2. Ctrl Shift P -> cài .venv
- Cài requirements.txt
```markdown
HÃY CHO TÔI BIẾT
1. các lỗi gì đã xảy ra
2. Tại sao xảy ra
3. Bạn đã fix  như nào ???
```

4. `.env`
```bash
OPENAI_API_KEY=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

LANGCHAIN_TRACING_V2=true
LANGCHAIN_ENDPOINT="https://api.smith.langchain.com"
LANGCHAIN_API_KEY="your-langchain-api-key-here"
LANGCHAIN_PROJECT="project-name"
```

3. Chạy ứng dụng: 

- Crawl data về local trước khi bắt đầu chạy ứng dụng. Mở Terminal/Command Prompt, di chuyển vào thư mục src và chạy:
```python
cd src
python crawl.py
```

- Chạy ứng dụng:
```python
streamlit run main.py
```





## 1.2 lỗi cài thư viện

Tôi sẽ phân tích chi tiết các vấn đề:

### 1. Các lỗi đã xảy ra:
- **Lỗi 1**: Conflict giữa `pydantic` và `chromadb`
- **Lỗi 2**: Không thể build wheel cho `chroma-hnswlib` vì thiếu Microsoft Visual C++ Build Tools

### 2. Nguyên nhân:
- **Lỗi 1**: `chromadb` phiên bản cũ yêu cầu `pydantic<2.0` trong khi file requirements.txt yêu cầu `pydantic>=2.0.0`
- **Lỗi 2**: `chromadb` cần phải được biên dịch từ source code trên Windows, điều này yêu cầu C++ compiler

### 3. Cách fix:
Tôi đã đề xuất thay đổi sang sử dụng FAISS thay vì Chroma vì:
1. FAISS có sẵn pre-built wheels cho Windows
2. Không cần C++ compiler
3. Hiệu năng tốt và được sử dụng rộng rãi

Các thay đổi cụ thể trong requirements.txt:
```requirements.txt
# Thay đổi trong phần LangChain & AI
- langchain-chroma>=0.0.1
+ langchain-faiss>=0.0.1

# Thay đổi trong phần Vector Database & Search
- chromadb>=0.4.0
+ faiss-cpu>=1.7.4
```

Đây là giải pháp đơn giản nhất vì:
1. Tránh phải cài đặt Visual Studio Build Tools
2. Không cần xử lý conflicts về dependencies
3. FAISS là một lựa chọn tốt cho vector store, được sử dụng rộng rãi trong production

Nếu bạn vẫn muốn sử dụng Chroma, bạn sẽ cần:
1. Cài đặt Microsoft Visual C++ Build Tools
2. Đảm bảo version compatibility giữa pydantic và chromadb
3. Rebuild lại virtual environment

## 1.3: Tìm hiểu về crawl data



Tôi thấy bạn đang cố chạy file `crawl_data.py` nhưng file thực tế là `crawl.py`. Đây là cách để chạy đúng quy trình:

1. **Đầu tiên, chạy crawl.py để lấy dữ liệu**:
```bash
python crawl.py
```

File này sẽ:
- Crawl dữ liệu từ `https://www.stack-ai.com/docs`
- Lưu vào `data/stack.json`
- Tham khảo hàm `main()` trong `crawl.py`:

```81:92:src/crawl.py
def main():
    """
    Hàm chính điều khiển luồng chương trình:
    1. Crawl dữ liệu từ trang web stack-ai
    2. Lưu dữ liệu đã crawl vào file JSON
    3. In kết quả crawl để kiểm tra
    """
    # Crawl dữ liệu từ trang docs của stack-ai
    data = crawl_web('https://www.stack-ai.com/docs')
    # Lưu dữ liệu vào thư mục data_v2
    save_data_locally(data, 'stack.json', 'data')
    print('data: ', data)  # In dữ liệu đã crawl
```


2. **Sau khi có dữ liệu, chạy seed_data.py để đưa vào Milvus**:
```bash
python seed_data.py
```

File này sẽ:
- Đọc dữ liệu từ `data/stack.json`
- Tạo embeddings và lưu vào Milvus
- Tham khảo hàm `main()` trong `seed_data.py`:

```150:167:src/seed_data.py
def main():
    """
    Hàm chính để kiểm thử các chức năng của module
    Thực hiện:
        1. Test seed_milvus với dữ liệu từ file local 'stack.json'
        2. (Đã comment) Test seed_milvus_live với dữ liệu từ trang web stack-ai
    Chú ý:
        - Đảm bảo Milvus server đang chạy tại localhost:19530
        - Các biến môi trường cần thiết (như OPENAI_API_KEY) đã được cấu hình
    """
    # Test seed_milvus với dữ liệu local
    seed_milvus('http://localhost:19530', 'data_test', 'stack.json', 'data', use_ollama=False)
    # Test seed_milvus_live với URL trực tiếp
    # seed_milvus_live('https://www.stack-ai.com/docs', 'http://localhost:19530', 'data_test_live', 'stack-ai', use_ollama=False)
# Chạy main() nếu file được thực thi trực tiếp
if __name__ == "__main__":
    main()
```


3. **Cuối cùng mới chạy ứng dụng Streamlit**:
```bash
streamlit run main.py
```

Lỗi "Không tìm thấy documents trong collection 'data_test'" xảy ra vì bạn chưa thực hiện bước 1 và 2 để tạo dữ liệu trước khi chạy ứng dụng.

Tóm lại quy trình đầy đủ là:
1. Crawl dữ liệu (`crawl.py`)
2. Seed dữ liệu vào Milvus (`seed_data.py`)
3. Chạy ứng dụng (`main.py) 

## 1.4 Langchain 


Run any LLM, Chat model, or Chain. Its trace will be sent to this project.
```python
from langchain_openai import ChatOpenAI

llm = ChatOpenAI()
llm.invoke("Hello, world!")
```