# Face & Text Extraction

Os projetos devem ser elaborados com base nas especificações fornecidas nos materiais anexados. A entrega deverá ser feita, preferencialmente, por meio de um repositório no GitHub, acompanhado de um arquivo de texto contendo a URL pública do repositório. Caso haja dificuldades em utilizar o GitHub, os notebooks podem ser anexados diretamente.

Entrega Mínima:

Notebook(s) Jupyter com o desenvolvimento do projeto.
Artefatos utilizados, como imagens, datasets, features transformadas, entre outros.

Entrega Adicional (Opcional):

Desenvolvimento de um aplicativo utilizando Streamlit, publicado no StreamlitCloud.
Envio da URL pública da aplicação Streamlit. A criação e publicação do aplicativo no StreamlitCloud poderão conceder até 1 ponto adicional na avaliação do projeto.

Instruções Adicionais

Quaisquer modelos utilizados devem utilizar obrigatoriamente os serviços em cloud, não importa o provedor, recomendando o que estudamos em aula, como a AWS e OpenAI.
Não será permitida o uso de modelos criados sem o uso de cloud. Os modelos de disciplinas anteriores, como Computer Vision, não podem ser novamente utilizados.

Os notebooks devem demonstrar claramente todo o processo de exploração, análise e treinamento do modelo. Caso o grupo opte por desenvolver o aplicativo Streamlit, este deve ser funcional e permitir a interação com o modelo desenvolvido.
A entrega dos projetos será avaliada com base na completude, qualidade da análise e implementação, além da clareza e organização dos notebooks e artefatos entregues. O ponto adicional pelo aplicativo Streamlit será concedido considerando a funcionalidade e usabilidade da aplicação.

![image](../arq/CNH_Aberta/00000000_in.jpg)

In [8]:
import cv2
import pytesseract
import re
import numpy as np

In [9]:
def preprocess_image(image_path):
    """Pré-processa a imagem para melhorar a extração de texto."""
    image = cv2.imread(image_path)
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  # Converte para escala de cinza
    blurred = cv2.GaussianBlur(gray, (5, 5), 0)  # Aplica um desfoque para reduzir ruídos
    thresh = cv2.adaptiveThreshold(blurred, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                                   cv2.THRESH_BINARY, 11, 2)  # Aplicando limiar adaptativo
    return thresh

def extract_text(image_path):
    """Extrai texto de uma imagem usando OCR."""
    processed_image = preprocess_image(image_path)
    text = pytesseract.image_to_string(processed_image, lang="por")  # Extrai o texto
    return text

def extract_cnh_info(text):
    """Extrai informações relevantes da CNH a partir do texto extraído."""
    info = {}

    # Padrão para CPF (XXX.XXX.XXX-XX)
    cpf_match = re.search(r"\d{3}\.\d{3}\.\d{3}-\d{2}", text)
    if cpf_match:
        info["CPF"] = cpf_match.group()

    # Padrão para data de nascimento (XX/XX/XXXX)
    dob_match = re.search(r"\d{2}/\d{2}/\d{4}", text)
    if dob_match:
        info["Data de Nascimento"] = dob_match.group()

    # Padrão para número da CNH (normalmente 11 dígitos)
    cnh_match = re.search(r"\d{11}", text)
    if cnh_match:
        info["Número da CNH"] = cnh_match.group()

    # Padrão genérico para nome (busca por palavras em maiúsculo)
    nome_match = re.findall(r"[A-Z\s]{5,}", text)  
    if nome_match:
        info["Nome"] = nome_match[0].strip()

    return info

In [19]:
pytesseract.image_to_string("../arq/CNH_Aberta/00000000_in.jpg", lang="por", config="--psm 6 --oem 3")

'"" R PESSENNIENOA A TACENETAS VáLiDAEMIODO — ERSRSSTAAA Sn\nbc i ss S fªª\'ãª,ªu"""— É a TERRITÓRIO NACIONAL 1. ?:#*\nA a EIoA A Eg N AA E\n051225604 — FiesPans sa P[ 255843660 (PESSADSAS 2 UTS\nÀ Lh a U : TT -wx ” S ah N )\nj EEA — — RE É mu N ES ESA RNEA | EA\nj S d d E DAA Tl : /AA\n4 iBBm É\nN | s %w j ES ;ã\'-u\'.: <\no j é NS [ 6) e\nVE Í : dS é Í Eªªãf?_\nENm E S idA\nm A S) ES\ne =E 1) SSsES\ns g. ã! í AA\n.d = , ) eA\nE Ê 1 | [pásstda\n4E LAA & | e\nF , Í ÉR TE aal f | d/ 2SA\nES À u d ES É el eg| 58 º mAA\nPE À ) SS BE El o e BSN\n$ ç& & PNE f ss MENA\nm | S N e e : &) REAcA TE\nME Enh Í ó ” 1) EA RA TE sa\n1 ES iã Í 1 Fi E SA ) aacA\ni És 7 F É | o = EE\ns Í 1E ES 3| | EX\nem ) | il a - | EE\nES 8; e - SRA E e ÉÉ SEA\ná . i 4S É\nFibiico |s 1F í - SEL ) ) o\nM DA S A u-,g 4 d e o 8É P º | FTcA\n& BirS|TS W. E SE ) BEE\nFANZ N h | DS P;\nÉS 25 S e A ftet o /S A SE\nA o a ss oc E e o — TSAA\nMRc —— o —— — EE AASE:\nRET E RRA A AAAA AARARESS A - TE EAA ANA NAA\nRh a\n\x0c'

In [16]:
preprocess_image("../arq/CNH_Aberta/00000000_in.jpg")

array([[255, 255, 255, ..., 255, 255, 255],
       [255, 255, 255, ..., 255, 255, 255],
       [255, 255, 255, ..., 255, 255, 255],
       ...,
       [255, 255, 255, ..., 255, 255, 255],
       [255, 255, 255, ..., 255, 255, 255],
       [255, 255, 255, ..., 255, 255, 255]],
      shape=(868, 1121), dtype=uint8)

In [35]:

# Caminho da imagem da CNH
image_path = "../arq/CNH_Aberta/00000001_in.jpg"  # Substitua pelo caminho correto da sua imagem


text = extract_text(image_path)
cnh_info = extract_cnh_info(text)

# Exibir os dados extraídos
print("Informações extraídas da CNH:")
for key, value in cnh_info.items():
    print(f"{key}: {value}")


OSError: [Errno 8] Exec format error: '../arq/CNH_Aberta/00000001_in.jpg'

In [15]:
text

'     \n\nEAA a f ds pA\n\n    \n\n10/02/2019 . |\n\nTEAA tA\n\x0c'

In [25]:
import easyocr
import cv2
import re

# Caminho da imagem
image_path = "../arq/CNH_Aberta/00000001_in.jpg"

# Carregar a imagem
img = cv2.imread(image_path)

# Converter para escala de cinza (melhora OCR)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# Aplicar binarização adaptativa
thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                               cv2.THRESH_BINARY, 11, 2)

# Criar leitor do EasyOCR
reader = easyocr.Reader(['pt'])

# Fazer OCR
result = reader.readtext(thresh)

In [26]:
result

[([[np.int32(289), np.int32(25)],
   [np.int32(393), np.int32(25)],
   [np.int32(393), np.int32(43)],
   [np.int32(289), np.int32(43)]],
  'BedeBA',
  np.float64(0.03218142139066133)),
 ([[np.int32(151), np.int32(63)],
   [np.int32(321), np.int32(63)],
   [np.int32(321), np.int32(81)],
   [np.int32(151), np.int32(81)]],
  'QerirTaienyioe',
  np.float64(0.011402336789704832)),
 ([[np.int32(135), np.int32(77)],
   [np.int32(362), np.int32(77)],
   [np.int32(362), np.int32(107)],
   [np.int32(135), np.int32(107)]],
  'E4RYêhaAAGiM ',
  np.float64(0.0012547735409069937)),
 ([[np.int32(109), np.int32(105)],
   [np.int32(147), np.int32(105)],
   [np.int32(147), np.int32(119)],
   [np.int32(109), np.int32(119)]],
  'NOxE_',
  np.float64(0.20168505590079464)),
 ([[np.int32(101), np.int32(117)],
   [np.int32(167), np.int32(117)],
   [np.int32(167), np.int32(133)],
   [np.int32(101), np.int32(133)]],
  'PESSONI',
  np.float64(0.9933929659345911)),
 ([[np.int32(173), np.int32(117)],
   [np.int32(

In [24]:
import easyocr
import cv2
import re

# Caminho da imagem
image_path = "../arq/CNH_Aberta/00000001_in.jpg"

# Carregar a imagem
img = cv2.imread(image_path)

# Converter para escala de cinza (melhora OCR)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# Aplicar binarização adaptativa
thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                               cv2.THRESH_BINARY, 11, 2)

# Criar leitor do EasyOCR
reader = easyocr.Reader(['pt'])

# Fazer OCR
result = reader.readtext(thresh)

# Inicializar variáveis
nome = []
cpf = None
capturar_nome = False

# Percorrer os resultados do OCR
for (bbox, text, prob) in result:
    text = text.strip().upper()  # Normalizar texto para facilitar buscas

    # Verificar se é o campo "NOME"
    if "NOME" in text or "NOHE" in text:  # "NOHE" pode ser erro do OCR
        capturar_nome = True
        continue  # Próxima iteração pode conter o nome

    # Se estamos capturando o nome, pegar as próximas palavras
    if capturar_nome:
        if len(text) > 3:  # Evita pegar números ou palavras curtas
            nome.append(text)
        if len(nome) >= 2:  # Consideramos nome + sobrenome
            capturar_nome = False  # Finaliza captura do nome

    # Verificar se é o CPF
    if "CPF" in text:
        for i in range(1, 4):  # Olhar nas próximas 3 linhas
            if i < len(result):
                possivel_cpf = result[result.index((bbox, text, prob)) + i][1]
                possivel_cpf = possivel_cpf.strip()
                if re.match(r"^\d{11}$", possivel_cpf) or re.match(r"^\d{3}\.\d{3}\.\d{3}-\d{2}$", possivel_cpf):
                    cpf = possivel_cpf
                    break

# Formatar nome corretamente
nome_completo = " ".join(nome)

# Exibir resultados
print(f"Nome: {nome_completo}")
print(f"CPF: {cpf if cpf else 'Não encontrado'}")


Nome: 
CPF: Não encontrado


In [32]:
text = pytesseract.image_to_string('../arq/CNH_Aberta/00000000_in.jpg', lang='por')

OSError: [Errno 8] Exec format error: '../arq/CNH_Aberta/00000001_in.jpg'

In [30]:
import cv2
import pytesseract
from PIL import Image
import re

# Caminho para o executável do Tesseract (necessário apenas no Windows)
#pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Ajuste o caminho se necessário

# Função para preprocessar a imagem
def preprocess_image(image_path):
    # Carrega a imagem
    img = cv2.imread(image_path)
    
    # Converte para escala de cinza
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # Aplica um limiar para melhorar o contraste
    _, thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    
    return thresh

# Função para extrair texto da imagem
def extract_text(image):
    # Usa o pytesseract para converter imagem em texto
    text = pytesseract.image_to_string(image, lang='por')  # 'por' para português
    return text

# Função para encontrar NOME e CPF no texto
def find_name_and_cpf(text):
    lines = text.split('\n')
    
    # Extrair NOME (assumindo que é a primeira linha com texto em maiúsculas)
    name = None
    for line in lines:
        if line.isupper() and len(line) > 10:  # Critério básico para o nome
            name = line.strip()
            break
    
    # Extrair CPF usando regex
    cpf_pattern = r'\d{3}\.\d{3}\.\d{3}-\d{2}'  # Formato XXX.XXX.XXX-XX
    cpf = re.search(cpf_pattern, text)
    cpf = cpf.group() if cpf else None
    
    return name, cpf

# Caminho da imagem da CNH
image_path = '../arq/CNH_Aberta/00000001_in.jpg'  # Substitua pelo caminho real

# Processa a imagem
processed_image = preprocess_image(image_path)

# Extrai o texto
text = extract_text(processed_image)

# Busca NOME e CPF
name, cpf = find_name_and_cpf(text)

# Exibe os resultados
print(f"Nome: {name}")
print(f"CPF: {cpf}")

OSError: [Errno 8] Exec format error: '../arq/CNH_Aberta/00000001_in.jpg'