In [1]:
from docx import Document
from docx.shared import Inches
from typing import List, Tuple
from docx2pdf import convert
import os

class DocumentBuilder:
    def __init__(self, file_name: str):
        self.document = Document()
        self.file_name = file_name

    def get_nameFile(self):
        return self.file_name

    def add_heading(self, text: str, level: int):
        self.document.add_heading(text, level)

    def add_paragraph(self, text: str, style: str = None):
        self.document.add_paragraph(text, style=style)

    def add_picture(self, image_path: str, width: float):
        self.document.add_picture(image_path, width=Inches(width))

    def add_table(self, rows: int, cols: int, headers: List[str] = None, records: List[Tuple] = None):
        table = self.document.add_table(rows=rows, cols=cols)
        if headers:
            hdr_cells = table.rows[0].cells
            for i, header in enumerate(headers):
                hdr_cells[i].text = header
        if records:
            for record in records:
                row_cells = table.add_row().cells
                for i, item in enumerate(record):
                    row_cells[i].text = str(item)

    def add_page_break(self):
        self.document.add_page_break()

    def save(self):
        self.document.save(self.file_name)
        print(f"Documento salvo em {self.file_name}")


class DemoDocBuilder:
    def __init__(self, file_name: str):
        self.builder = DocumentBuilder(file_name)
        self.document = Document(file_name)  

    def build(self):
        self.builder.add_heading('Document Title', 0)

        self.builder.add_paragraph('A plain paragraph having some ', style=None)
        self.builder.add_paragraph('bold', style=None)
        self.builder.add_paragraph(' and some ', style=None)
        self.builder.add_paragraph('italic.', style=None)

        self.builder.add_heading('Heading, level 1', level=1)
        self.builder.add_paragraph('Intense quote', style='Intense Quote')

        self.builder.add_paragraph('first item in unordered list', style='List Bullet')
        self.builder.add_paragraph('first item in ordered list', style='List Number')

        self.builder.add_picture(r'C:\Users\PedroVictorRodrigues\Documents\GitHub\elon-musk\Tecnologia e Inovação\Visão Computacional\assets\OS Eletrica\OCR\ocr_relatorioOS (3).jpg', width=1.25)

        records = (
            (3, '101', 'Spam'),
            (7, '422', 'Eggs'),
            (4, '631', 'Spam, spam, eggs, and spam')
        )

        self.builder.add_table(rows=1, cols=3, headers=['Qty', 'Id', 'Desc'], records=records)

        self.builder.add_page_break()
        self.builder.save()

    def word_to_pdf(self, word_file: str) -> str:
        """Converte um arquivo Word em PDF.

        Args:
            word_file: O caminho para o arquivo Word.

        Returns:
            O caminho para o arquivo PDF convertido.
        """
        # Obtém o diretório do arquivo Word
        dir_path = os.path.dirname(word_file)

        # Obtém o nome do arquivo Word sem a extensão
        base_name = os.path.splitext(os.path.basename(word_file))[0]

        # Cria o caminho do arquivo PDF no mesmo diretório
        pdf_file = os.path.join(dir_path, base_name + '.pdf')

        # Converte o arquivo Word em PDF
        convert(word_file, pdf_file)

        return pdf_file

    def gerarRelatorioDigital(self):
        referencias = {
            "XXXX": "Descrição do serviço",
            "YYYY": "Serviço executado",
        }

        for paragraph in self.document.paragraphs:
            print(referencias['XXXX'])
            paragraph.text = paragraph.text.replace("XXXX", referencias["XXXX"])
            paragraph.text = paragraph.text.replace("YYYY", referencias["YYYY"])
        self.document.save(r"C:\Users\PedroVictorRodrigues\Downloads\Relatorio.docx")

        #pdf_file = self.word_to_pdf(self.builder.get_nameFile())
        #print(f"Arquivo PDF gerado em {pdf_file}")


if __name__ == "__main__":
    path = r"C:\Users\PedroVictorRodrigues\Downloads\template_OS.docx"
    demo_builder = DemoDocBuilder(path)
    demo_builder.gerarRelatorioDigital()


Descrição do serviço


  from .autonotebook import tqdm as notebook_tqdm


In [42]:
import pytesseract
from pytesseract import Output
import cv2
from PIL import Image
import pytesseract as pt
import io
import numpy as np
import pandas as pd


def carregar_imagem( caminho_imagem):
        with io.open(caminho_imagem, 'rb') as imagem_file:
            conteudo = imagem_file.read()
        img_array = np.array(bytearray(conteudo), dtype=np.uint8)
        return cv2.imdecode(img_array, cv2.IMREAD_COLOR)

def executar_ocr( imagem):
        texto_extraido = pytesseract.image_to_string(imagem, lang='por')
        print('ocr executado')
        return texto_extraido.strip()

file = r"C:\Users\PedroVictorRodrigues\Downloads\RELATÓRIO DE ORDEM DE SERVIÇO - REVISÃO_page-0001 (1).jpg"
imagem = Image.open(file)
img = cv2.imread(file)
pt.pytesseract.tesseract_cmd = r'C:\Users\PedroVictorRodrigues\AppData\Local\Programs\Tesseract-OCR\tesseract.exe'


texto = executar_ocr(imagem)
#print(texto)

data = {}
array = []
d = pytesseract.image_to_data(imagem, output_type=Output.DICT)
#print(d)
n_boxes = len(d['level'])
for i in range(n_boxes):
    (x, y, w, h) = (d['level'], texto.split('\n'), d['width'], d['height'])

    #print(x, y, w, h)
    data["index"] = x
    data["text"] = y
    data["width"] = w
    data["height"] = h

    array.append(data)

    #cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

    try:
        cv2.imshow('img', imagem)
        cv2.waitKey(0)

    except:
          print('erro')


#print(data['width'],data["height"], data['text'])
#print(data['text'].split('\n'))
df = pd.DataFrame(data)
df

ocr executado
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
erro
e

ValueError: All arrays must be of the same length