# Job 1: Đọc ảnh hóa đơn → Trích xuất thông tin → Ghi file Excel

Quy trình sử dụng Jupyter Notebook để thực hiện OCR hóa đơn, trích xuất thông tin sản phẩm và giá, ghi ra file Excel.

## 1. Cài đặt và kiểm tra các thư viện cần thiết

Cài đặt các thư viện Python cần thiết cho job này:

```bash
!pip install pytesseract pillow pandas openpyxl
```

Kiểm tra phiên bản và xác nhận đã cài đặt Tesseract OCR trên hệ thống.

In [None]:
# Kiểm tra import và phiên bản các thư viện
import pytesseract
import PIL
import pandas as pd
import openpyxl
print('pytesseract:', pytesseract.get_tesseract_version())
print('Pillow:', PIL.__version__)
print('pandas:', pd.__version__)


## 2. Đọc danh sách file ảnh hóa đơn

Liệt kê các file ảnh hóa đơn trong thư mục 'invoices/'.

In [None]:
import os
image_folder = 'invoices/'
image_files = [f for f in os.listdir(image_folder) if f.endswith('.jpg') or f.endswith('.png')]
print('Danh sách file ảnh:', image_files)

## 3. Thực hiện OCR trên từng ảnh

Dùng pytesseract và Pillow để đọc từng file ảnh và trích xuất text.

In [None]:
from PIL import Image
import pytesseract
ocr_results = {}
for filename in image_files:
    img_path = os.path.join(image_folder, filename)
    text = pytesseract.image_to_string(Image.open(img_path))
    ocr_results[filename] = text
print('Kết quả OCR:', ocr_results)

## 4. Trích xuất thông tin sản phẩm và giá bằng regex

Áp dụng biểu thức chính quy để lấy tên sản phẩm và giá tiền từ text đã OCR.

In [None]:
import re
results = []
for filename, text in ocr_results.items():
    items = re.findall(r'(\w[\w\s]+)\s+(\d+[.,]?\d*)', text)
    for name, price in items:
        results.append({'file': filename, 'product': name.strip(), 'price': price})
print('Kết quả trích xuất:', results)

## 5. Ghi kết quả vào file Excel

Sử dụng pandas và openpyxl để ghi kết quả vào file 'output.xlsx' với các cột: file, product, price.

In [None]:
import pandas as pd
if results:
    df = pd.DataFrame(results)
    df.to_excel('output.xlsx', index=False)
    print('Đã ghi kết quả vào output.xlsx')
else:
    print('Không tìm thấy sản phẩm nào.')

## 6. Kiểm tra kết quả ghi ra file

Đọc lại file Excel vừa ghi để kiểm tra dữ liệu đã được lưu đúng.

In [None]:
import pandas as pd
df = pd.read_excel('output.xlsx')
display(df)