In [3]:
from google.generativeai import configure, GenerativeModel
import base64
from io import BytesIO
from PIL import Image

# Chấp nhận các định dạng ảnh phổ biến
SUPPORTED_FORMATS = ['JPEG', 'PNG', 'BMP', 'GIF', 'WEBP']

def extract_base64_from_image(file_content, format='JPEG'):
    try:
        img = Image.open(BytesIO(file_content))
        
        if format.upper() not in SUPPORTED_FORMATS:
            raise ValueError(f'Định dạng {format} không được hỗ trợ.')
        
        # Chuyển đổi sang RGB nếu là JPEG và chưa đúng mode
        if format.upper() == 'JPEG' and img.mode != 'RGB':
            img = img.convert('RGB')
        
        buffered = BytesIO()
        img.save(buffered, format=format)
        encoded_image = base64.b64encode(buffered.getvalue()).decode('utf-8')
        return encoded_image
    except Exception as e:
        print(f'Error extracting base64 from image: {e}')
        return None    

# Cấu hình API của Gemini
GEMINI_API_KEY = "AIzaSyCE3cMm8UgFiztuXRekEveULjEtb3cvVVw"


prompt_assistant_cfg = {
    'model_type': 'gemini-2.0-flash',
    'api_key': GEMINI_API_KEY
}

model_type = prompt_assistant_cfg['model_type']
api_key = prompt_assistant_cfg['api_key']

IMAGE_EXTRACT_PROMPT = '''Extract and transcribe all visible text and mathematical formulas from the provided image with 100% accuracy.

Important Requirements:
- Maintain the original order and grouping as shown in the image
- Preserve diacritical marks for Vietnamese or other accented text
- If any part of the text or formula is unclear or unreadable, indicate with [unreadable]
- Output in JSON format as a list of objects, each object has:
  { "type": "text", "value": "The extracted natural text" }
  or
  { "type": "formula", "value": "The formula strictly in LaTeX syntax" }

- Formulas must use proper LaTeX syntax, for example:
  - Use a^{2} for squares instead of Unicode superscript ²
  - Use \sin, \cos for trigonometric functions
  - Use \frac{a}{b} for fractions
  - Use \sqrt{} for roots
  - Use ^{...} for superscripts, _{...} for subscripts
  - Do not use any Unicode math symbols, only LaTeX commands

Example output:
[
  { "type": "text", "value": "Cho công thức sau" },
  { "type": "formula", "value": "\\sqrt{a + b}" },
  { "type": "text", "value": ", hãy tính toán và đưa ra kết quả." }
]

Make sure the JSON is valid and the order of text and formulas matches the original image content.'''


class PromptAssistant:
    def __init__(self):
        self.model = GenerativeModel(model_type.lower())
        self.cfg_model = configure(api_key=api_key)
    
    def _send_image_to_model(self, prompt, image_data):
        image_parts = [
            {'mime_type': 'image/jpeg', 'data': image_data},
            {'text': prompt}
        ]

        response = self.model.generate_content(
            image_parts,
            generation_config={
                'top_k': 32,
                'top_p': 0.95,
                'temperature': 0.2,
                'max_output_tokens': 2048
            }
        )
        return response.text
    
    def extract_text_from_image(self, image_data):
        prompt = IMAGE_EXTRACT_PROMPT
        return self._send_image_to_model(prompt, image_data)





In [9]:
import mysql.connector
import json
from sentence_transformers import SentenceTransformer
from sklearn.decomposition import PCA
import numpy as np

model = SentenceTransformer('all-MiniLM-L6-v2')


In [12]:
def quantize_to_int8(vector):
    max_abs = np.max(np.abs(vector))
    if max_abs == 0:
        return np.zeros_like(vector, dtype=np.int8), 0
    norm_vec = vector / max_abs
    quantized = np.round(norm_vec * 127).astype(np.int8)
    return quantized, max_abs

In [15]:
# Kết nối DB
connection = mysql.connector.connect(
    host='localhost',
    port=3307,
    user='root',
    password='1111',
    database='snap_solve'
)
cursor = connection.cursor()

cursor.execute("SELECT id, question FROM assignment")
data = cursor.fetchall()
print(f"Đã lấy {len(data)} câu hỏi từ database.")

questions = [q.replace("\\n", "\n") for _, q in data]
vectors = model.encode(questions)
print(vectors)

for index, (id, _) in enumerate(data):
    vector = vectors[index]
    quantized_vec, max_val = quantize_to_int8(vector)
    # Lưu dưới dạng dict JSON
    vector_data = {
        'quantized': quantized_vec.tolist(),
        'max_val': float(max_val)  
    }
    vector_json = json.dumps(vector_data)

    cursor.execute("UPDATE assignment SET vector = %s WHERE id = %s", (vector_json, id))

connection.commit()
cursor.close()
connection.close()

print("✅ Đã lưu vector lượng tử hóa vào database!")

Đã lấy 1 câu hỏi từ database.
[[-4.20187823e-02  3.90315503e-02 -1.77976340e-02 -6.15864918e-02
  -5.12997992e-02  3.02814301e-02  8.72207731e-02  6.55172989e-02
   1.93780866e-02  2.93537751e-02  1.97369009e-01 -1.55963331e-01
   4.84887175e-02 -2.90560648e-02  1.74581620e-03 -2.77082995e-02
  -8.90021026e-02  3.91538963e-02 -3.36212814e-02  5.21699376e-02
   9.69951879e-03  2.46639512e-02  5.43489307e-02  6.97534680e-02
  -1.40424091e-02  1.19959507e-02 -4.14081430e-03  6.62707165e-03
   5.48890531e-02 -4.44124043e-02  1.34378877e-02  8.67807716e-02
   7.52660409e-02 -2.14932784e-02  3.93648520e-02 -2.36886460e-02
  -3.74011835e-03 -1.03376262e-01  7.67507106e-02 -2.40909439e-02
  -5.51970378e-02 -7.69147873e-02  4.06141393e-02 -4.52270322e-02
   8.75932723e-02  1.13228522e-02 -2.19016075e-02  7.23870546e-02
  -9.52775329e-02  2.15948541e-02 -4.88280877e-02  1.92509703e-02
  -8.54834765e-02  2.40031928e-02 -3.71634848e-02 -3.22373933e-03
   1.85957029e-02 -2.41446239e-03  4.94274776e

In [17]:
from sklearn.metrics.pairwise import cosine_similarity

# Kết nối vào database MySQL
connection = mysql.connector.connect(
    host='localhost',
    port=3307,
    user='root',
    password='1111',
    database='snap_solve'
)

cursor = connection.cursor()
# Truy vấn vector đầu tiên từ database
cursor.execute("SELECT vector FROM assignment LIMIT 1")
vector_data = cursor.fetchone()

if vector_data is None:
    print("❌ Không tìm thấy vector trong database!")
else:
    # Giải mã JSON và khôi phục vector
    vector_db = json.loads(vector_data[0])
    quantized_vec = np.array(vector_db['quantized'])
    max_val = vector_db['max_val']

    # Phục hồi vector ban đầu
    vector_db = quantized_vec * max_val / 255.0

    print("✅ Lấy vector từ database thành công!")

    # Các đoạn văn bản cần so sánh
    texts = [
        "Cho hình hộp chữ nhật với chiều dài \\(3 \\sqrt{5}\\) cm, chiều rộng \\(\\sqrt{5}\\) cm và thể tích \\(30 \\sqrt{5}\\) cm\\(^{3}\\) như Hình 1. Tính tổng độ dài các cạnh của hình hộp chữ nhật đó.",
        "Một chiếc thùng hình lập phương có chiều dài cạnh là \\(x\\) (cm). a) Viết công thức tính thể tích \\(V\\) (\\(cm^3\\)) và tổng diện tích \\(S\\) (\\(cm^2\\)) các mặt của hình lập phương theo \\(x\\) b) Viết công thức tính \\(x\\) theo \\(S\\) c) Viết công thức tính \\(V\\) theo \\(S\\). Tính \\(V\\) khi \\(S = 50 \\text{ cm}^{2}\\).",
        "Rút gọn các biểu thức (biết \\(a > 0, b > 0\\)): a) \\( \\sqrt{4a} + \\sqrt{25a} - 6\\sqrt{a^4} \\) b) \\( b\\sqrt{ab} + a\\sqrt{ba} \\)"
    ]


    vectors = model.encode(texts)

    # Tính cosine similarity với vector lấy từ database
    similarities = cosine_similarity([vector_db], vectors)[0]

    # Ghép với câu hỏi để dễ theo dõi
    results = sorted(zip(texts, similarities), key=lambda x: x[1], reverse=True)

    print("\n✅ Kết quả sắp xếp theo mức độ giống với câu hỏi trong DB:")
    for text, sim in results:
        print(f"→ Similarity: {sim:.4f} - Nội dung: {text}")


✅ Lấy vector từ database thành công!

✅ Kết quả sắp xếp theo mức độ giống với câu hỏi trong DB:
→ Similarity: 0.7116 - Nội dung: Một chiếc thùng hình lập phương có chiều dài cạnh là \(x\) (cm). a) Viết công thức tính thể tích \(V\) (\(cm^3\)) và tổng diện tích \(S\) (\(cm^2\)) các mặt của hình lập phương theo \(x\) b) Viết công thức tính \(x\) theo \(S\) c) Viết công thức tính \(V\) theo \(S\). Tính \(V\) khi \(S = 50 \text{ cm}^{2}\).
→ Similarity: 0.6462 - Nội dung: Cho hình hộp chữ nhật với chiều dài \(3 \sqrt{5}\) cm, chiều rộng \(\sqrt{5}\) cm và thể tích \(30 \sqrt{5}\) cm\(^{3}\) như Hình 1. Tính tổng độ dài các cạnh của hình hộp chữ nhật đó.
→ Similarity: 0.2265 - Nội dung: Rút gọn các biểu thức (biết \(a > 0, b > 0\)): a) \( \sqrt{4a} + \sqrt{25a} - 6\sqrt{a^4} \) b) \( b\sqrt{ab} + a\sqrt{ba} \)
