# Extração de CNPJ

### Importações padrão para o projeto

In [3]:
import cv2
import numpy as np
import matplotlib.pyplot as plt
import os
import pytesseract
import re
import seaborn as sns

### Método para acessar o caminho das imagens do dataset

* Utilize este método para acessar o caminho das imagens do dataset em ordem alfabética.

* Deve ser utilizado para percorrer a quantidade desejada das imagens disponíveis na pasta **notasFiscais**.

* Caso não passe parâmetros, serão retornados todos os caminhos das imagens nesta pasta.

* Para realizar os experimentos utilize o parâmetro quantity com o valor 30, a não ser que esteja muito lento para processar essa quantidade.
    * Caso seja necessário utilizar mais imagens para os experimentos, deixe claro quantos foram usadas e o motivo. 

In [40]:
def getImages(quantity=None):
    if quantity is None:
        return sorted([os.path.abspath('..') +'/notasFiscais/' + x for x in os.listdir('../notasFiscais') if x.endswith('.jpg')])
    else:
        return sorted([os.path.abspath('..') +'/notasFiscais/' + x for x in os.listdir('../notasFiscais') if x.endswith('.jpg')])[:quantity]

* Exemplo de uso retornando o caminho somente de uma imagem;

In [41]:
print(getImages(1))

['/home/allan-nobre/CNPJ/visao-computacional/notasFiscais/001.jpg']


### Método para extrair CNPJ da Imagem através do Pytesseract

* Utilize este método para extrair o CNPJ da imagem passada para ele como parâmetro;

* Caso um ou mais CNPJs sejam encontrados será retornado um Array de Strings, onde cada item do array corresponde a um CNPJ identificado;

In [57]:
def extractCNPJ(image):
    CNPJs = []
    
    # Criar regex correspondente ao modelo de CNPJ brasileiro.
    regexCNPJ = re.compile('\d{2}\.\d{3}\.\d{3}\/\d{4}-\d{2}')

    # O Pytesseract utiliza o OCR - Reconhecimento Ótico de Caracteres para extrair os textos da Imagem.
    text = pytesseract.image_to_string(image, lang='por')

    # Percorre o texto por linhas tentando encontrar algum CNPJ válido que case com a Regex.
    for line in iter(text.splitlines()):
        CNPJs += regexCNPJ.findall(line)

    # Caso esteja vazia não foi encontrado nenhum CNPJ.
    return CNPJs

* Exemplo de uso da extração de CNPJ;

In [62]:
# Primeira imagem dos 50 caminhos selecionados do dataset.
print("Imagem: {}".format(getImages(50)[1]))

image = cv2.imread(getImages(50)[1])

# Extraindo CNPJs dessa imagem.
CNPJs = extractCNPJ(image)

# Verificando extração.
if CNPJs:
    print("Foram encontrados: {} CNPJs".format(len(CNPJs)))
    print(CNPJs)
else:
    print("Não foram encontrados CNPJs nesta imagem.")

Imagem: /home/allan-nobre/CNPJ/visao-computacional/notasFiscais/002.jpg
Foram encontrados: 1 CNPJs
['07.512.719/0001-50']


# Experimentos

### Extração de CNPJ das Imagens Naturais