# Bibliotecas Basicas

In [1]:
import pandas as pd
import numpy as np
import re

# Importar base de teste

In [2]:
df = pd.read_excel('df_teste.xlsx')

In [218]:
df.head()

Unnamed: 0,cpf,telefone,cep,email,data
0,85417173000162,90959190266,32114628,ultricies.dignissim@eratin.org,01/08/2020
1,2385763000123,38957073650,89814410,sed@molestiein.edu,20/01/2020
2,62646376000125,34946313517,40744884,euismod@eratvolutpatNulla.ca,10/09/2020
3,71063580000104,25990661793,27183901,ligula.Donec.luctus@dapibus.org,20/08/2019
4,11162610000108,87971386524,33571414,felis@commodo.ca,26/07/2020


In [3]:
df.cpf = df.cpf.astype('str')
df.telefone = df.telefone.astype('str')
df.cep = df.cep.astype('str')
df.dtypes

cpf         object
telefone    object
cep         object
email       object
data        object
dtype: object

# Que caracteristicas são importantes para verificar uma colunas?

Cada possível tipo de uma coluna vai ser definido por algumas caracteristicas, como:
* Tamanho
* Funções de verificação de ID (por exemplo a função para verificar um CPF)
* Porcentagem da coluna que bate nas regras

## Exemplo de JSON de uma coluna:

{"name": "CPF", "rules": "verifica_cpf", "result_rules": 1, "min_rules":0.9}

O que eu quero dizer? <br/>
Criei uma regra de CPF onde para a coluna ser considerada CPF ela deve passar na regra verifica_cpf, que podem ser tanto funções build-in quanto funções mesmo, na pasta

## Exemplo de função:

In [4]:
def tamanho(x):
    if(not isinstance(x,str)):
        return -1
    return len(x)

def verifica_cpf(cpf):
    if(not isinstance(cpf,str)):
        return -1
    
    cpf = re.sub('[^0-9]', '', cpf)
    
    if(len(cpf)>11):
        return -1
    
    d1=0
    d2=0
    i=0
    
    if(len(cpf) < 11):
        cpf = cpf.rjust(11,'0')
    
    while i<10:
        d1,d2,i=(d1+(int(cpf[i])*(11-i-1)))%11 if i<9 else d1,(d2+(int(cpf[i])*(11-i)))%11,i+1
    if(int(cpf[9])==(11-d1 if d1>1 else 0)) and (int(cpf[10])==(11-d2 if d2>1 else 0)):
        return 1
    return 0

def verifica_cnpj(cnpj):
    if(not isinstance(cnpj,str)):
        return -1
    
    cnpj = re.sub('[^0-9]', '', cnpj)
    
    if(len(cnpj) < 14):
        cnpj = cnpj.rjust(14,'0')
    
    return 0

def ddd(x):
    return 0

# Montando leitura de regras

In [9]:
types = pd.read_json('types.json')
possibilidades={}

#Como definir uma amostra minima?
sample = 1.0
df_sample = df.sample(frac=sample)
    
#Para cada tipo existente
for ind1, row1 in types.iterrows():
    aux=[]
    aux2=[]
    
    #Se o tipo tiver apenas uma regra, beleza...
    try:
        rule = pd.DataFrame(row1['Types'],index=[0])
        
    #Senão faz a leitura para 2+ regras
    except:
        rule = pd.DataFrame(row1['Types'])

    #Para cada regra do tipo
    for ind2, row2 in rule.iterrows():
        results = df_sample.applymap(eval(row2['rules']))

        #Verifico a efetividade da regra para cada coluna individualmente
        for coluna in df_sample.columns:
            prop_acerto = (results[results[coluna]==row2['result_rules']].shape[0])/results.shape[0]
            if(prop_acerto >= row2['min_rules']):
                aux.append(coluna)
    
    #Se todas as regras foram aceitas
    qtd_regras = rule.shape[0]
    for coluna in df_sample.columns:
        aux2 = [l for l in aux if l == coluna]
        
        if(len(aux2) == qtd_regras):
            dic={coluna:row2['name']}
            possibilidades.update(dic)
            
print(possibilidades)

{'email': 'CPF'}


In [8]:
rule

Unnamed: 0,name,rules,result_rules,min_rules
0,CNPJ,verifica_cnpj,1,0.9
