## Case Validador de CPF:

O desafio é montar um validador de CPF que não demore muito para rodar. 

Primeiro, vamos entender como esse validador funciona e depois vamos para o código.

Um CPF é composto de 11 dígitos, sendo seus 2 últimos dígitos funções dos dígitos anteriores.

Chamaremos, nesse case, os dois últimos dígitos de dígitos de validação.

As fórmulas para o primeiro dígito de validação são:

  $$Soma_1 = D_1 * 10 + D_2 * 9 + D_3 * 8 + D_4 * 7 + D_5 * 6 + D_6 * 5 + D_7 * 4 + D_8 * 3 + D_9 * 2$$
  
  $$r_1 = (Soma_1 * 10) / 11 $$
  
Para que o CPF seja válido, $D_{10}$, ou seja, primeiro dígito de validação, deve ser igual ao resto de $r_1$, em que, $D_1$, $D_2$, $D_3$, ... , $D_9$ são o primeiro, segundo, terceiro, e assim sucessivamente, até o nono dígito do CPF.

Já para o segundo dígito de validação do CPF, ou $D11$, temos algo parecido, porém agora, utilizamos o $D10$ também, obtendo a seguinte equação.


  $$Soma_2 = D_1 * 11 + D_2 * 10 + D_3 * 9 + D_4 * 8 + D_5 * 7 + D_6 * 6 + D_7 * 5 + D_8 * 4 + D_9 * 3 + D_{10} * 2$$
  
  $$r_2 = (Soma_2 * 10) / 11 $$
  
Para que o número do CPF seja válido, $D_{11}$ também deve ser igual ao resto de $r_2$.

Fazendo um exemplo:

 CPF = 454.325.088-50
$$Soma_1 = 4 * 10 + 5 * 9 + 4 * 8 + 3 * 7 + 2 * 6 + 5 * 5 + 0 * 4 + 8 * 3 + 8 * 2$$
$$r_1 = (215 * 10) / 11  = 195.45$$

Portanto, arredondando, $r_1 = D10$

$$Soma_2 = 4 * 11 + 5 * 10 + 4 * 9 + 3 * 8 + 2 * 7 + 5 * 6 + 0 * 5 + 8 * 4 + 8 * 3 + 5 * 2$$
  
 $$r_2 = (264 * 10) / 11 = 240.0$$
 
Pelo resto de $r_2$ ser igual ao $D_{11}$ e resto de $r_1$ ser igual a $D10$, temos que o CPF 454.325.088-50 é válido.

### Fazendo os códigos:

In [9]:
def validacao_cpf(cpf):
    '''
    Função que recebe um CPF e tem como objetivo retornar se esse número de CPF é válido ou não
    
    '''
    if(type(cpf == int)):  #Caso o CPF inserido seja do tipo INT, transformamos em string para que possamos
        cpf = str(cpf)     #passar para uma lista e trabalhar com os números separadamente
        
    cpf1 = list(cpf)       #Separando os número em uma lista
    NOVO_CPF = ''.join(filter(str.isdigit, cpf1))        #Funcao para tirar caracteres especiais da lista
    
    if(NOVO_CPF == NOVO_CPF[0] * 11):                         #Não validando CPFs que os dígitos são todos iguais 
        return print("O CPF {} não é válido.".format(cpf))    # ex: 000.000.000-00 ou 111.111.111-11
    
    if(len(NOVO_CPF) == 11):               #Calculando as multiplicações para fazer a soma 1
        n1 = int(NOVO_CPF[0]) * 10
        n2 = int(NOVO_CPF[1]) * 9
        n3 = int(NOVO_CPF[2]) * 8
        n4 = int(NOVO_CPF[3]) * 7
        n5 = int(NOVO_CPF[4]) * 6
        n6 = int(NOVO_CPF[5]) * 5
        n7 = int(NOVO_CPF[6]) * 4
        n8 = int(NOVO_CPF[7]) * 3
        n9 = int(NOVO_CPF[8]) * 2

        m1 = int(NOVO_CPF[0]) * 11         #Calculando as multiplicações para fazer a soma 2
        m2 = int(NOVO_CPF[1]) * 10
        m3 = int(NOVO_CPF[2]) * 9
        m4 = int(NOVO_CPF[3]) * 8
        m5 = int(NOVO_CPF[4]) * 7
        m6 = int(NOVO_CPF[5]) * 6
        m7 = int(NOVO_CPF[6]) * 5
        m8 = int(NOVO_CPF[7]) * 4
        m9 = int(NOVO_CPF[8]) * 3
        m10 = int(NOVO_CPF[9]) * 2
        soma_validacao = (n1 + n2 + n3 + n4 + n5 + n6 + n7 + n8 + n9) * 10    #Calculando a soma 1
        resto1 = soma_validacao%11    #Calculando o resto da soma 1
        soma_validacao_2 = (m1 + m2 + m3 + m4 + m5 + m6 + m7 + m8 + m9 + m10) * 10     # Calculando a soma 2
        resto2 = soma_validacao_2%11    #Calculando o resto da soma 2
        if (resto1 != int(NOVO_CPF[9])):  #Caso o resto da soma 1 seja diferente do D10 (como explicado em cima), não é valido
            return print("O CPF {} não é válido.".format(cpf))
        if (resto2 != int(NOVO_CPF[10])): #Caso o resto da soma 2 seja diferente do D11 (como explicado em cima), não é valido
            return print("O CPF {} não é válido.".format(cpf))
        else:             #Caso ambos os números correspondam aos restos, então o cpf é válido
            return print("O CPF {} é válido.".format(cpf))
    else:
        return print("O CPF {} não é válido.".format(cpf))

In [10]:
def validar_cpf(cpf):
    '''
    Função que recebe um CPF e tem como objetivo retornar se esse número de CPF é válido ou não
    
    '''  
    
    if(type(cpf == int)):  #Caso o CPF inserido seja do tipo INT, transformamos em string para que possamos
        cpf = str(cpf)     #passar para uma lista e trabalhar com os números separadamente
        
    cpf1 = list(cpf) #Separando os número em uma lista
    cpf1 = ''.join(filter(str.isdigit, cpf1))  #Funcao para tirar caracteres especiais da lista
    
    if(cpf1 == cpf1[0] * 11):                                   #Não validando CPFs que os dígitos são todos iguais
        return print("O CPF {} não é válido.".format(cpf))      # ex: 000.000.000-00 ou 111.111.111-11
    
    #Invalidando o cpf caso o usuário insira menos ou mais de 11 numeros
    if(len(cpf1) != 11):
        return print("O CPF {} não é válido.".format(cpf))
    
    #Validando o primeiro dígito de validação, o D10
    s = 0
    for i in range(0,9):
        s += int(cpf1[i]) * (10-i)
    val = s*10%11
    if(val != int(cpf1[9])):
        return print("O CPF {} não é válido.".format(cpf))
    
    #Validando o segundo dígito de validação, o D11
    s2 = 0
    for i in range(0,10):
        s2 += int(cpf1[i]) * (11-i)
    val2 = s2*10%11
    if(val2 != int(cpf1[10])):
        return print("O CPF {} não é válido.".format(cpf))
    else:
        return print("O CPF {} é válido.".format(cpf))

In [11]:
def somaeresto(x, cpf):
    '''
    Funcao que recebe o cpf e retorna o resto da divisao da soma
    '''
    s = 0
    if(x == 9):
        for i in range(0,x):
             s += int(cpf[i]) * (10-i)
    elif(x == 10):
        for i in range(0,x):
            s += int(cpf[i]) * (11-i)
    else:
         return 'Error'
    
    val = s*10%11
    return val

def validar_cpf2(cpf):
    '''
    Função que recebe um CPF e tem como objetivo retornar se esse número de CPF é válido ou não
    
    '''  
    
    if(type(cpf == int)):  #Caso o CPF inserido seja do tipo INT, transformamos em string para que possamos
        cpf = str(cpf)     #passar para uma lista e trabalhar com os números separadamente
        
    cpf1 = list(cpf)       #Separando os número em uma lista
    cpf1 = ''.join(filter(str.isdigit, cpf1))  #Funcao para tirar caracteres especiais da lista
    
    if(cpf1 == cpf1[0] * 11):                                   #Invalidando validando CPFs que os dígitos são todos iguais
        return print("O CPF {} não é válido.".format(cpf))      # ex: 000.000.000-00 ou 111.111.111-11
    
    #Invalidando o cpf caso o usuário insira menos ou mais de 11 numeros
    if(len(cpf1) != 11):
        return print("O CPF {} não é válido.".format(cpf))
    
    #Validando o primeiro dígito de validação, o D10
    val = somaeresto(9,cpf1)
    if(val != int(cpf1[9])):
        return print("O CPF {} não é válido.".format(cpf))
    #Validando o segundo dígito de validação, o D11
    val2 = somaeresto(10,cpf1)
    if(val2 != int(cpf1[10])):
        return print("O CPF {} não é válido.".format(cpf))
    else:
        return print("O CPF {} é válido.".format(cpf))

In [12]:
def recurssiva(cpf, soma, x):
    '''
    Retorna a soma de maneira recurssiva
    '''
    if(len(cpf) == 0):
        return soma
    else:
        soma += int(cpf[0]) * x
        cpf = cpf[1:]
    return recurssiva(cpf, soma, x-1)


def validar_recurssiva(cpf):
    '''
    Função que recebe um CPF e tem como objetivo retornar se esse número de CPF é válido ou não
    
    '''  
    
    if(type(cpf == int)):  #Caso o CPF inserido seja do tipo INT, transformamos em string para que possamos
        cpf = str(cpf)     #passar para uma lista e trabalhar com os números separadamente
        
    cpf1 = list(cpf) #Separando os número em uma lista
    cpf1 = ''.join(filter(str.isdigit, cpf1))  #Funcao para tirar caracteres especiais da lista
    
    if(cpf1 == cpf1[0] * 11):                                   #Não validando CPFs que os dígitos são todos iguais
        return print("O CPF {} não é válido.".format(cpf))      # ex: 000.000.000-00 ou 111.111.111-11
    
    #Invalidando o cpf caso o usuário insira menos ou mais de 11 numeros
    if(len(cpf1) != 11):
        return print("O CPF {} não é válido.".format(cpf))
    
    #Validando o primeiro dígito de validação, o D10
    
    s = recurssiva(cpf1[:-2],0,10)
    val = s*10%11
    if(val != int(cpf1[9])):
        return print("O CPF {} não é válido.".format(cpf))
    
    #Validando o segundo dígito de validação, o D11
    s2 = recurssiva(cpf1[:-1],0,11)
    val2 = s2*10%11
    if(val2 != int(cpf1[10])):
        return print("O CPF {} não é válido.".format(cpf))
    else:
        return print("O CPF {} é válido.".format(cpf))

### Fazendo alguns testes:

In [13]:
validar_cpf('454.325.088-50')
validacao_cpf('45432508850')
validar_cpf2(45432508850)
validar_recurssiva('454.325.088-50')

O CPF 454.325.088-50 é válido.
O CPF 45432508850 é válido.
O CPF 45432508850 é válido.
O CPF 454.325.088-50 é válido.


#### Portanto, vimos que ambas as 4 funções estão funcionando, tendo em vista que foram testada. Agora, a fim de verificar qual é a mais rápida, iremos testar 10.000 números diferentes. 

In [14]:
num_samples = 10_000
cpfs = []
for i in range(0,num_samples):
    cpfs.append('{:011}'.format(i))

In [15]:
import time
from tqdm import tqdm
start_time = time.time()
_ = [validar_cpf(cpf) for cpf in cpfs]   
end_time = time.time()

O CPF 00000000000 não é válido.
O CPF 00000000001 não é válido.
O CPF 00000000002 não é válido.
O CPF 00000000003 não é válido.
O CPF 00000000004 não é válido.
O CPF 00000000005 não é válido.
O CPF 00000000006 não é válido.
O CPF 00000000007 não é válido.
O CPF 00000000008 não é válido.
O CPF 00000000009 não é válido.
O CPF 00000000010 não é válido.
O CPF 00000000011 não é válido.
O CPF 00000000012 não é válido.
O CPF 00000000013 não é válido.
O CPF 00000000014 não é válido.
O CPF 00000000015 não é válido.
O CPF 00000000016 não é válido.
O CPF 00000000017 não é válido.
O CPF 00000000018 não é válido.
O CPF 00000000019 não é válido.
O CPF 00000000020 não é válido.
O CPF 00000000021 não é válido.
O CPF 00000000022 não é válido.
O CPF 00000000023 não é válido.
O CPF 00000000024 não é válido.
O CPF 00000000025 não é válido.
O CPF 00000000026 não é válido.
O CPF 00000000027 não é válido.
O CPF 00000000028 não é válido.
O CPF 00000000029 não é válido.
O CPF 00000000030 não é válido.
O CPF 00

In [16]:
tempo_validar_cpf = end_time - start_time
print("Tempo total funcao validar_cpf:", end_time - start_time, "segundos")

Tempo total funcao validar_cpf: 0.04711294174194336 segundos


In [17]:
start_time = time.time()
_ = [validacao_cpf(cpf) for cpf in cpfs]   
end_time = time.time()

O CPF 00000000000 não é válido.
O CPF 00000000001 não é válido.
O CPF 00000000002 não é válido.
O CPF 00000000003 não é válido.
O CPF 00000000004 não é válido.
O CPF 00000000005 não é válido.
O CPF 00000000006 não é válido.
O CPF 00000000007 não é válido.
O CPF 00000000008 não é válido.
O CPF 00000000009 não é válido.
O CPF 00000000010 não é válido.
O CPF 00000000011 não é válido.
O CPF 00000000012 não é válido.
O CPF 00000000013 não é válido.
O CPF 00000000014 não é válido.
O CPF 00000000015 não é válido.
O CPF 00000000016 não é válido.
O CPF 00000000017 não é válido.
O CPF 00000000018 não é válido.
O CPF 00000000019 não é válido.
O CPF 00000000020 não é válido.
O CPF 00000000021 não é válido.
O CPF 00000000022 não é válido.
O CPF 00000000023 não é válido.
O CPF 00000000024 não é válido.
O CPF 00000000025 não é válido.
O CPF 00000000026 não é válido.
O CPF 00000000027 não é válido.
O CPF 00000000028 não é válido.
O CPF 00000000029 não é válido.
O CPF 00000000030 não é válido.
O CPF 00

In [18]:
tempo_validacao_cpf = end_time - start_time 
print("Tempo total funcao validacao_cpf:", end_time - start_time, "segundos")

Tempo total funcao validacao_cpf: 0.05499911308288574 segundos


In [19]:
import time
from tqdm import tqdm
start_time = time.time()
_ = [validar_cpf2(cpf) for cpf in cpfs]   
end_time = time.time()

O CPF 00000000000 não é válido.
O CPF 00000000001 não é válido.
O CPF 00000000002 não é válido.
O CPF 00000000003 não é válido.
O CPF 00000000004 não é válido.
O CPF 00000000005 não é válido.
O CPF 00000000006 não é válido.
O CPF 00000000007 não é válido.
O CPF 00000000008 não é válido.
O CPF 00000000009 não é válido.
O CPF 00000000010 não é válido.
O CPF 00000000011 não é válido.
O CPF 00000000012 não é válido.
O CPF 00000000013 não é válido.
O CPF 00000000014 não é válido.
O CPF 00000000015 não é válido.
O CPF 00000000016 não é válido.
O CPF 00000000017 não é válido.
O CPF 00000000018 não é válido.
O CPF 00000000019 não é válido.
O CPF 00000000020 não é válido.
O CPF 00000000021 não é válido.
O CPF 00000000022 não é válido.
O CPF 00000000023 não é válido.
O CPF 00000000024 não é válido.
O CPF 00000000025 não é válido.
O CPF 00000000026 não é válido.
O CPF 00000000027 não é válido.
O CPF 00000000028 não é válido.
O CPF 00000000029 não é válido.
O CPF 00000000030 não é válido.
O CPF 00

In [20]:
tempo_validar_cpf2 = end_time - start_time
print("Tempo total funcao validar_cpf2:", end_time - start_time, "segundos")

Tempo total funcao validar_cpf2: 0.04699993133544922 segundos


In [21]:
import time
from tqdm import tqdm
start_time = time.time()
_ = [validar_recurssiva(cpf) for cpf in cpfs]   
end_time = time.time()

O CPF 00000000000 não é válido.
O CPF 00000000001 não é válido.
O CPF 00000000002 não é válido.
O CPF 00000000003 não é válido.
O CPF 00000000004 não é válido.
O CPF 00000000005 não é válido.
O CPF 00000000006 não é válido.
O CPF 00000000007 não é válido.
O CPF 00000000008 não é válido.
O CPF 00000000009 não é válido.
O CPF 00000000010 não é válido.
O CPF 00000000011 não é válido.
O CPF 00000000012 não é válido.
O CPF 00000000013 não é válido.
O CPF 00000000014 não é válido.
O CPF 00000000015 não é válido.
O CPF 00000000016 não é válido.
O CPF 00000000017 não é válido.
O CPF 00000000018 não é válido.
O CPF 00000000019 não é válido.
O CPF 00000000020 não é válido.
O CPF 00000000021 não é válido.
O CPF 00000000022 não é válido.
O CPF 00000000023 não é válido.
O CPF 00000000024 não é válido.
O CPF 00000000025 não é válido.
O CPF 00000000026 não é válido.
O CPF 00000000027 não é válido.
O CPF 00000000028 não é válido.
O CPF 00000000029 não é válido.
O CPF 00000000030 não é válido.
O CPF 00

In [22]:
tempo_validar_recurssiva = end_time - start_time
print("Tempo total funcao validar_cpf2:", end_time - start_time, "segundos")

Tempo total funcao validar_cpf2: 0.06305050849914551 segundos


In [23]:
import pandas as pd
tempos = {'Função': {0: 'validacao_cpf',
                     1: 'validar_cpf',
                     2: 'validar_cpf2',
                     3: 'validar_recurssiva'},
          'Tempo': {0: tempo_validacao_cpf,
                     1: tempo_validar_cpf,
                     2: tempo_validar_cpf2,
                     3: tempo_validar_recurssiva}}
tempos = pd.DataFrame(tempos)
tempos

Unnamed: 0,Função,Tempo
0,validacao_cpf,0.054999
1,validar_cpf,0.047113
2,validar_cpf2,0.047
3,validar_recurssiva,0.063051


### Portanto, concluimos que a função "validar_cpf2" é a que performa mais rápido.