Teste de automatização convertendo imagem jogo1.png para texto

In [2]:
import easyocr
import cv2
import re

#  Carrega imagem
img_path = 'jogo1.png'
img = cv2.imread(img_path)

#  OCR com EasyOCR
reader = easyocr.Reader(['en'], gpu=False)
results = reader.readtext(img)

#  Inicia variáveis
data_text, hora_text, cidade_text = None, None, None

#  Regex
regex_data = re.compile(r"\d{2}[\/.-]\d{2}[\/.-]\d{4}")
regex_hora = re.compile(r"\b\d{1,2}[:.]\d{2}\b")

#  Busca Data e Hora com lógica
for i, (_, text, _) in enumerate(results):
    cleaned = text.replace("•", "").replace("h", ":").strip()

    # Data
    if not data_text:
        match_data = regex_data.search(cleaned)
        if match_data:
            data_text = match_data.group()

            #  Verifica próxima entrada pra hora
            if i + 1 < len(results):
                prox_text = results[i + 1][1].replace("•", "").strip()
                match_hora = regex_hora.search(prox_text)
                if match_hora:
                    hora_bruta = match_hora.group()
                    hora_text = hora_bruta.replace(".", ":")

    #  Caso a hora esteja sozinha em outro lugar
    if not hora_text:
        match_hora = regex_hora.search(cleaned)
        if match_hora:
            hora_bruta = match_hora.group()
            # Só aceita se não for um ano como "2024"
            if not hora_bruta.startswith("20"):
                hora_text = hora_bruta.replace(".", ":")

#  Localização
for idx, (_, text, _) in enumerate(results):
    if text.strip().lower() in ["location", "local", "localização"]:
        if idx + 1 < len(results):
            cidade_text = results[idx + 1][1]
        break

#  Resultado final
print("Data:", data_text)
print("Hora:", hora_text)
print("Cidade:", cidade_text)


Using CPU. Note: This module is much faster with a GPU.


Data: 13/04/2024
Hora: 18:30
Cidade: Criciuma, Brazil


A lógica é o seguinte: se funciona para 1 print, deve funcionar para dezenas de milhares de outros prints também

In [7]:
import easyocr
import cv2

# Caminho da imagem
img_path = 'jogo_rodada_1.png'
reader = easyocr.Reader(['en'], gpu=False)
img = cv2.imread(img_path)
results = reader.readtext(img)

# Limpa e extrai textos
textos = [text.strip() for (_, text, _) in results if text.strip()]

# Debug: mostrar textos lidos
print("🧾 Textos detectados:")
for t in textos:
    print(t)

# Lógica para identificar times e placar
times = []
gols = []

for t in textos:
    if t.isdigit():  # Se for número, é gol
        gols.append(int(t))
    else:  # Senão, assume como nome do time
        times.append(t)

# Resultado
if len(times) >= 2 and len(gols) >= 2:
    mandante = times[0]
    visitante = times[1]
    placar = f"{gols[0]} x {gols[1]}"
else:
    mandante = visitante = placar = None

# Saída
print("✅ Resultado Final:")
print("Mandante:", mandante)
print("Visitante:", visitante)
print("Placar:", placar)


Using CPU. Note: This module is much faster with a GPU.


🧾 Textos detectados:
Criciuma
1
Juventude
1
✅ Resultado Final:
Mandante: Criciuma
Visitante: Juventude
Placar: 1 x 1


In [6]:
import easyocr
import cv2
import re

# Caminho da imagem
img_path = 'C:\\Users\\msdof\\Downloads\\Projeto_Time_Mandante\\prints_upscayl\\upscayl_png_realesrgan-x4plus_5x\\palmeiras_vitoria_upscayl_4x_ultrasharp.png'

# Inicializa OCR com português e inglês
reader = easyocr.Reader(['en', 'pt'], gpu=False)
img = cv2.imread(img_path)
results = reader.readtext(img)

# Extrai e limpa textos
textos = [text.strip() for (_, text, _) in results if text.strip()]

print("🧾 Textos detectados:")
for t in textos:
    print(t)

# Detectar placar
placar = None
for t in textos:
    match = re.search(r'(\d+)\s*[-x–]\s*(\d+)', t)
    if match:
        gols1, gols2 = match.groups()
        placar = f"{gols1} x {gols2}"
        break

# Candidatos a time (exclui palavras comuns e ruídos)
ruido = {'finished', 'final', 'yn', 'ft', 'gol', 'gols'}
candidatos = [t for t in textos if t.lower() not in ruido and re.match(r'^[A-ZÁÉÍÓÚÂÊÔÃÕ][a-záéíóúâêôãõç]{2,}$', t)]

# Detecta jogador e minuto
jogador = minuto = None
for i, t in enumerate(textos):
    if re.search(r"\d{1,2}['′]", t):  # exemplo: 20'
        minuto = re.findall(r'\d{1,2}', t)[0]
        jogador = textos[i - 1] if i > 0 else None
        break

# Verifica resultado
if placar and len(candidatos) >= 2:
    mandante, visitante = candidatos[0], candidatos[1]
    print("\n✅ Resultado Final:")
    print("Mandante:", mandante)
    print("Visitante:", visitante)
    print("Placar:", placar)
    if jogador and minuto:
        print(f"⚽ Gol: {jogador} aos {minuto}′")
else:
    print("\n❌ Não foi possível extrair todos os dados corretamente.")


Using CPU. Note: This module is much faster with a GPU.


🧾 Textos detectados:
0 - 1
71L
Finished
Vitória
Palmeiras
RRíos 20'

✅ Resultado Final:
Mandante: Vitória
Visitante: Palmeiras
Placar: 0 x 1
⚽ Gol: Palmeiras aos 20′


In [5]:

import easyocr
import cv2
import re

# Caminho da imagem
img_path = 'palmeiras_vitoria.png'

# Inicializa OCR com português e inglês
reader = easyocr.Reader(['en', 'pt'], gpu=False)
img = cv2.imread(img_path)
results = reader.readtext(img)

# Extrai e limpa textos
textos = [text.strip() for (_, text, _) in results if text.strip()]

print("🧾 Textos detectados:")
for t in textos:
    print(t)

# Detectar placar
placar = None
for t in textos:
    match = re.search(r'(\d+)\s*[-x–]\s*(\d+)', t)
    if match:
        gols1, gols2 = match.groups()
        placar = f"{gols1} x {gols2}"
        break

# Candidatos a time (exclui palavras comuns e ruídos)
ruido = {'finished', 'final', 'yn', 'ft', 'gol', 'gols'}
candidatos = [t for t in textos if t.lower() not in ruido and re.match(r'^[A-ZÁÉÍÓÚÂÊÔÃÕ][a-záéíóúâêôãõç]{2,}$', t)]

# Detecta jogador e minuto
jogador = minuto = None
for i, t in enumerate(textos):
    if re.search(r"\d{1,2}['′]", t):  # exemplo: 20'
        minuto = re.findall(r'\d{1,2}', t)[0]
        jogador = textos[i - 1] if i > 0 else None
        break

# Verifica resultado
if placar and len(candidatos) >= 2:
    mandante, visitante = candidatos[0], candidatos[1]
    print("\n✅ Resultado Final:")
    print("Mandante:", mandante)
    print("Visitante:", visitante)
    print("Placar:", placar)
    if jogador and minuto:
        print(f"⚽ Gol: {jogador} aos {minuto}′")
else:
    print("\n❌ Não foi possível extrair todos os dados corretamente.")


Using CPU. Note: This module is much faster with a GPU.


🧾 Textos detectados:
0 - 1
Finished
Vitória
Palmeiras
R Ríos 20'

✅ Resultado Final:
Mandante: Vitória
Visitante: Palmeiras
Placar: 0 x 1
⚽ Gol: Palmeiras aos 20′


Tratatamento de imagem (com i.a, usando Upscayl)

In [20]:
import cv2
import easyocr
import numpy as np

def preprocess_image(path):
    img = cv2.imread(path)

    # Passo 1: Grayscale
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # Passo 2: Binarização adaptativa (melhora contraste de texto em fundo claro)
    thresh = cv2.adaptiveThreshold(
        gray, 255, 
        cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
        cv2.THRESH_BINARY_INV, 
        11, 2
    )

    # (Opcional) Passo 3: Dilatar pra reforçar letras finas
    kernel = np.ones((2,2), np.uint8)
    dilated = cv2.dilate(thresh, kernel, iterations=1)

    return dilated

# Caminho da imagem
img_path = "jogo_rodada_1_upscayl_5x_realesrgan-x4plus.png"  # ajuste conforme necessário
processed = preprocess_image(img_path)

# Inicializa OCR com idioma em inglês (funciona pra nomes e números)
reader = easyocr.Reader(['en'], gpu=False)

# OCR na imagem tratada
results = reader.readtext(processed)

# Mostra resultados com confiança
print("📸 Resultados após pré-processamento:")
for bbox, text, conf in results:
    print(f"🧾 Detectado: '{text}' (confiança: {conf:.2f})")


Using CPU. Note: This module is much faster with a GPU.


📸 Resultados após pré-processamento:
🧾 Detectado: 'MQJIW' (confiança: 0.16)
🧾 Detectado: '4n' (confiança: 0.31)
🧾 Detectado: 'Criciuma' (confiança: 0.87)
🧾 Detectado: '1' (confiança: 1.00)
🧾 Detectado: 'Juventude' (confiança: 0.93)
🧾 Detectado: '1' (confiança: 1.00)
