# Definindo Regex para identificar as informações relevantes

In [1]:
import re

## Exemplos de texto que podem ser fornecidos

In [2]:
texto_1 = '''
VALIDO EM TODO TERRITORIO NACIONAL
07.116.299-9 expevis 20/09/1976
NOME
SANDLER CAFFARO
FILIACAO
GABRIELA AUDI LUCARELLI
NATURALIDADE N DATA DE NASCIMENTO
BORBA-AM É Do 20/08/1999
Doc ongem C.NAS=116 LV=291 FL=Sd3
CURITIBA-PR
CPF 025.762.835-51 71695/9247

TONELOTITEYTAN ROSANTE
NH 94 ASSINATURA DO DIRETOR
'''

In [3]:
%matplotlib inline

import pytesseract
import cv2

import pandas as pd
from matplotlib import pyplot as plt

pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'

In [4]:
img_path = "../../BID Dataset/RG_Verso/00025928_in.jpg"

In [5]:
image = cv2.imread(img_path)

In [6]:
df = pytesseract.image_to_data(image, lang='por', output_type='data.frame')

## Criando e testando Regex/ identificação de padrões

In [35]:
def create_info_dict_from_row(row, name):
    return {
        'left': row['left'],
        'top': row['top'],
        'width': row['width'],
        'height': row['height'],
        'name': name
    }

### Identificação CPF

In [34]:
cpf_regex = r'\d{3}[\,\.]?\d{3}[\,\.]?\d{3}[\,\.\-\/]?\d{2}'

def find_cpf(identified_texts_df):
    for i, row in identified_texts_df.iterrows():
        if is_cpf(row['text']):
            return format_cpf(row['text']), create_info_dict_from_row(row, 'cpf')

def is_cpf(text):
    if not isinstance(text, str):
        return False
    return bool(re.search(cpf_regex, text))

def format_cpf(unformated_cpf):
    # Remove todas pontuações da regex, mantendo apenas os digitos
    cpf = re.sub(r'[-,./]', '', unformated_cpf)
    # Retorna o CPF com o seu padrão correto
    return f'{cpf[0:3]}.{cpf[3:6]}.{cpf[6:9]}-{cpf[9:11]}'
    

In [36]:
print(is_cpf('123.456.789-10'))

True


In [37]:
find_cpf(df)

('025.762.835-51',
 {'left': 115, 'top': 407, 'width': 133, 'height': 14, 'name': 'cpf'})

### Identificação RG

In [38]:
rg_regex = r'\d{2}[\,\.]?\d{3}[\,\.]?\d{3}[\,\.\-]?\d'

def search_for_rg(identified_texts_df):
    pass

def is_rg(text):
    if not isinstance(text, str):
        return False
    return bool(re.search(rg_regex, text))

def format_rg(unformated_rg):
    # Remove todas pontuações da regex, mantendo apenas os digitos
    rg = re.sub(r'[-,.]', '', unformated_rg)
    # Retorna o RG com o seu padrão correto
    return f'{rg[0:2]}.{rg[2:5]}.{rg[5:8]}-{rg[8:9]}'

### Identificação data de nascimento

In [None]:
date_regex = r'\d{2}[\/]?\d{2}[\/]?\d{4}'

def search_for_birthdate(identified_texts_df):
    pass

def is_date(text):
    if not isinstance(text, str):
        return False
    return bool(re.search(date_regex, text))

def is_date(unformated_date):
    # Remove todas pontuações da regex, mantendo apenas os digitos
    date = re.sub(r'[/]', '', unformated_date)
    # Retorna a data formatada com o seu padrão correto
    return {
        'formated_date': f'{date[0:1]}/{date[2:3]}/{date[4:]}',
        'day': int(date[0:1]),
        'month': int(date[2:3]),
        'year': int(date[4:])
    }

### Identificação nome

In [None]:
def search_for_name(identified_texts_df):
    pass 