<a href="https://colab.research.google.com/github/GBruneri/Myrep/blob/main/CaseC6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Case C6 Bank - Data Science Jr.- Candidato: Guilherme Bruneri

## Introdução: Case CPF

Usando bibliotecas científicas em Python, crie um validador de CPF no Jupyter Notebook. Valide os números de 0 a 10.000.000. Otimize seu código e meça a diferença de velocidade. Tenha em mente o motivo de suas decisões para a entrevista.

## Proposta de resolução:
Efetuei três propostas de resolução para fins de comparação de otimização. Deixo como resposta final e formal o 3º método com tensorflow, o mais otimizado.

 O motivo das escolhas são baseadas em otimização de vetor e tensor.
 O Numpy é otimizado para operações vetorizadas, o que significa que ele pode executar operações em arrays inteiros de dados de uma só vez. Isso é mais eficiente do que iterar sobre cada elemento em um loop em Python puro.

 O TensorFlow utiliza grafos computacionais para representar cálculos e otimizar a execução das operações. Ele pode otimizar a execução de operações em tensores, distribuir cálculos em diferentes dispositivos (como CPUs e GPUs) e até mesmo realizar paralelismo automático em alguns casos. Isso permite que o TensorFlow seja altamente otimizado para computação numérica e eficiente em termos de recursos.

## Requisitos

In [None]:
# Bibliotecas utilizadas e versões.
import numpy as np # Versão utilizada 1.25.2
import tensorflow as tf # Versão utilizada  2.15.0
# As demais bibliotecas seguem a mesma versão do Python versão 3.10.12
import time
import random
# Obs: todos podem ser executados diretamente no ambiente do google colaboratory.

## Construção nativa

Aqui você encontrará a implementação do validador de CPF usando Python puro.

In [None]:
import random

def validar_cpf(cpf):
    """
    Função para validar um CPF.

    Args:
    - cpf (list): Lista de inteiros representando um CPF.

    Returns:
    - bool: True se o CPF for válido, False caso contrário.
    """
    # Verifica se o CPF tem 11 dígitos
    if len(cpf) != 11:
        return False

    # Verifica se todos os dígitos são iguais
    if len(set(cpf)) == 1:
        return False

    # Calcula o primeiro dígito verificador
    soma = sum(cpf[i] * (10 - i) for i in range(9))
    digito_1 = 11 - (soma % 11)
    digito_1 = 0 if digito_1 > 9 else digito_1

    # Calcula o segundo dígito verificador
    soma = sum(cpf[i+1] * (11 - i) for i in range(9))
    digito_2 = 11 - (soma % 11)
    digito_2 = 0 if digito_2 > 9 else digito_2

    # Verifica se os dígitos verificadores estão corretos
    return cpf[9] == digito_1 and cpf[10] == digito_2

def gerar(quantidade=1):
    """
    Função para gerar uma lista de CPFs aleatórios.

    Args:
    - quantidade (int): Número de CPFs a serem gerados. Default é 1.

    Returns:
    - list: Lista de CPFs gerados como listas de inteiros.
    """
    cpfs = [] # Armazena os CPFs criados.

    # Loop de geração de CPFs.
    for _ in range(quantidade):
        cpf = [random.randint(0, 9) for _ in range(11)]

        # Adicionando o CPF à lista
        cpfs.append(cpf)

    return cpfs

# Medir o tempo de execução para gerar e validar os CPFs.
start_time = time.time()

# Define a quantidade de CPFs gerados.
quantidade = 10000000
print(f"Gerando e validando {quantidade} CPFs aleatórios...")
lista_de_cpfs = gerar(quantidade=quantidade)

# Contabiliza os CPFs válidos gerados.
cpfs_validos = [cpf for cpf in lista_de_cpfs if validar_cpf(cpf)]

# Encerramento do cronômetro e medição temporal.
end_time = time.time()
elapsed_time = end_time - start_time

print("CPFs gerados e validados com sucesso!")
print(f"Tempo total: {elapsed_time} segundos")
print(f"Total de CPFs válidos: {len(cpfs_validos)} de {quantidade} gerados.")


Gerando e validando 10000000 CPFs aleatórios...
CPFs gerados e validados com sucesso!
Tempo total: 170.23130893707275 segundos
Total de CPFs válidos: 99666 de 10000000 gerados.



## Construção com biblioteca científica: Numpy

Esta seção apresenta o validador de CPF otimizado usando a biblioteca científica Numpy.

In [None]:
def gerar_e_validar_cpfs_numpy(quantidade=1):
    """
    Gera e valida uma quantidade especificada de CPFs aleatórios usando a biblioteca NumPy.

    Args:
    - quantidade (int): Número de CPFs a serem gerados e validados. O padrão é 1.

    Returns:
    - numpy.ndarray: Array booleano indicando os CPFs válidos. True indica um CPF válido, False indica um CPF inválido.
    """
    cpfs_validos = np.empty(quantidade, dtype=bool) # Array booleano para armazenar os CPFs válidos

    for i in range(quantidade):
        # Gerar CPF aleatório de 11 dígitos usando numpy
        cpf = np.random.randint(0, 10, size=11)

        # Calcular o primeiro dígito verificador
        pesos = np.array([10, 9, 8, 7, 6, 5, 4, 3, 2])
        soma = np.sum(cpf[:9] * pesos)
        digito_1 = 11 - (soma % 11)
        digito_1 = 0 if digito_1 > 9 else digito_1

        # Calcular o segundo dígito verificador
        soma = np.sum(cpf[1:10] * pesos)
        digito_2 = 11 - (soma % 11)
        digito_2 = 0 if digito_2 > 9 else digito_2

        # Verifica se o CPF é válido e armazena no array de CPFs válidos
        cpfs_validos[i] = cpf[-2] == digito_1 and cpf[-1] == digito_2

    return cpfs_validos

# Início do cronomêtro
start_time = time.time()

# Quantidade de CPFS a serem gerados e validados
quantidade = 10000000

# Chamando a função
cpfs_validos = gerar_e_validar_cpfs_numpy(quantidade=quantidade)

# Fim do procedimento e do cronomêtro
end_time = time.time()
elapsed_time = end_time - start_time

# Imprimindo os resultados
print("CPFs gerados e validados com sucesso!")
print(f"Tempo total: {elapsed_time} segundos")
print(f"Total de CPFs válidos: {np.sum(cpfs_validos)} de {quantidade} gerados.")


CPFs gerados e validados com sucesso!
Tempo total: 28.448564291000366 segundos
Total de CPFs válidos: 10096 de 1000000 gerados.



## Construção com biblioteca científica: Tensorflow

Nesta seção, você verá o validador de CPF utilizando a biblioteca científica Tensorflow.

In [None]:
def gerar_e_validar_cpfs_otimizado(quantidade=1):
    """
    Gera um tensor de alta dimensão para armazenar os cpfs e valida os CPFs aleatórios que satisfazem a equação.
    Retorna os CPFs válidos para uma matriz booleana.
    """

    # Gerar CPFs aleatórios como uma matriz coluna de tamanho quantidade
    cpfs = tf.random.uniform((quantidade, 9), minval=0, maxval=10, dtype=tf.int64)

    # Calcular os dígitos verificadores
    cpfs_digito_1 = (11 - tf.reduce_sum(cpfs * [10, 9, 8, 7, 6, 5, 4, 3, 2], axis=1) % 11)
    cpfs_digito_2 = (11 - tf.reduce_sum(tf.concat([cpfs, tf.expand_dims(cpfs_digito_1, axis=1)], axis=1) * [0, 10, 9, 8, 7, 6, 5, 4, 3, 2], axis=1) % 11)

   # Verificar se os CPFs são válidos comparando os últimos dois dígitos gerados com os dígitos calculados
    cpfs_validos = tf.reduce_all(tf.concat([cpfs[:, :-2], tf.expand_dims(cpfs_digito_1, axis=1), tf.expand_dims(cpfs_digito_2, axis=1)], axis=1) == cpfs, axis=1)


    return cpfs.numpy(), cpfs_validos.numpy()


# Medir o tempo de execução para gerar e validar os CPFs
start_time = time.time()

# Definindo a quantidade de CPFs.
quantidade = 10000000
print(f"Gerando e validando {quantidade} CPFs aleatórios...")
cpfs_gerados, cpfs_validos = gerar_e_validar_cpfs_otimizado(quantidade=quantidade)

# Encerramento do cronomêtro.
end_time = time.time()
elapsed_time = end_time - start_time

# Exibição do resultado.
print("CPFs gerados e validados com sucesso!")
print(f"Tempo total: {elapsed_time} segundos")
print(f"Total de CPFs válidos: {np.sum(cpfs_validos)} de {quantidade} gerados.")


Gerando e validando 10000000 CPFs aleatórios...
CPFs gerados e validados com sucesso!
Tempo total: 5.424295902252197 segundos
Total de CPFs válidos: 66554 de 10000000 gerados.
