In [1]:
import pandas as pd
from decimal import Decimal
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

In [2]:
np.random.seed(50)

In [3]:
df = pd.read_csv('DATASET/dados.csv')

In [4]:
modelo = RandomForestClassifier()

In [5]:
df.head()

Unnamed: 0,dados,tipos
0,0c4c8258-8217-120d-df69-99c495d70e97,pix
1,uq9dcmdqw74@zoho.com,email
2,73141152810,cpf_sem_pontuacao
3,132.412.737-68,cpf_com_pontuacao
4,47901638453,numero_celular


In [6]:
mapa = {'pix': 1, 'email': 2, 'cpf_sem_pontuacao': 3, 
       'cpf_com_pontuacao': 4, 'numero_celular': 5, 'none': 6}

In [7]:
df['tipos'] = df['tipos'].map(mapa)

In [8]:
df.head(10)

Unnamed: 0,dados,tipos
0,0c4c8258-8217-120d-df69-99c495d70e97,1
1,uq9dcmdqw74@zoho.com,2
2,73141152810,3
3,132.412.737-68,4
4,47901638453,5
5,i.d4b)xnddjv@lgc2m7.aplv.(g),6
6,0752a187-45df-2881-acdf-2bf7fc73d7b2,1
7,684qll9dq_w@hotmail.com,2
8,01553262018,3
9,324.044.099-72,4


## Modelando os dados

#### Dicionario de troca

In [9]:
letras = list('abcdefghijklmnopqrstuvxwyz')
numeros = list('0123456789')
especial = list('.-_@()')
numeros_repre = list(map(str, range(1, 1 + len(numeros))))
letras_repre = list(map(str, range(11, 11 + len(letras))))
especial_repre = ['111', '222', '333', '444', '555', '666']

dicionario = dict(zip(letras, letras_repre))
dicionario.update(zip(numeros, numeros_repre))
dicionario.update(zip(especial, especial_repre))

# Modelando Dados

In [10]:
## tabela de troca
tabela = str.maketrans(dicionario)

In [11]:
## Colunas de tradução dos dados
df['dados_trans'] = df['dados'].map(lambda x: float(x.translate(tabela)))

In [12]:
## Colunas das iniciais traduzidas
df['iniciais'] = df['dados'].map(lambda x: x[0:4])
df['iniciais'] = df['iniciais'].map(lambda x: float(x.translate(tabela)))

In [13]:
## colunas dos finais traduzidor
df['finais'] = df['dados'].map(lambda x: x[-3:])
df['finais'] = df['finais'].map(lambda x: float(x.translate(tabela)))

In [14]:
## coluna dos dois primeiros
df['2_primeiros'] = df['dados'].map(lambda x: x[0:2])
df['2_primeiros'] = df['2_primeiros'].map(lambda x: float(x.translate(tabela)))

In [15]:
## coluna tamanho
df['tamanho'] = df['dados'].map(lambda x: len(x))

#### Visualizando dados

In [16]:
df.head(20)

Unnamed: 0,dados,tipos,dados_trans,iniciais,finais,2_primeiros,tamanho
0,0c4c8258-8217-120d-df69-99c495d70e97,1,1.1351390000000002e+56,113513.0,15108.0,113.0,36
1,uq9dcmdqw74@zoho.com,2,3.127101e+39,31271014.0,132523.0,3127.0,20
2,73141152810,3,84252260000.0,8425.0,921.0,84.0,11
3,132.412.737-68,4,2.431115e+19,243111.0,22279.0,24.0,14
4,47901638453,5,581012700000.0,58101.0,564.0,58.0,11
5,i.d4b)xnddjv@lgc2m7.aplv.(g),6,1.911115e+59,19111145.0,55517666.0,19111.0,28
6,0752a187-45df-2881-acdf-2bf7fc73d7b2,1,1.8631130000000002e+56,1863.0,8123.0,18.0,36
7,684qll9dq_w@hotmail.com,2,7.952722e+45,79527.0,132523.0,79.0,23
8,01553262018,3,12664370000.0,1266.0,129.0,12.0,11
9,324.044.099-72,4,4.351112e+21,435111.0,22283.0,43.0,14


#### Normalizando dados

In [17]:
df_normalizado = df.copy()

In [18]:
colunas = df_normalizado.drop(columns=['dados', 'tipos']).columns

In [19]:
maximos = {}
minimos = {}
for coluna in colunas:
    maxi = {coluna: df_normalizado[coluna].max()}
    mini = {coluna: df_normalizado[coluna].min()}
    maximos.update(maxi)
    minimos.update(mini)

In [20]:
for coluna in colunas:
    df_normalizado[coluna] = df_normalizado[coluna].apply(lambda x: (x - minimos[coluna]) / (maximos[coluna] - minimos[coluna]))

In [21]:
df_normalizado.head(20)

Unnamed: 0,dados,tipos,dados_trans,iniciais,finais,2_primeiros,tamanho
0,0c4c8258-8217-120d-df69-99c495d70e97,1,1.702994e-24,1.702681e-07,2.266051e-05,0.000168,1.0
1,uq9dcmdqw74@zoho.com,2,4.691436999999999e-41,4.690654e-05,0.0001987831,0.004689,0.542857
2,73141152810,3,1.263995e-69,1.2636e-08,1.38e-06,0.000125,0.285714
3,132.412.737-68,4,3.647283e-61,3.646651e-07,3.341701e-05,3.5e-05,0.371429
4,47901638453,5,8.71665e-69,8.715003e-08,8.445003e-07,8.6e-05,0.285714
5,i.d4b)xnddjv@lgc2m7.aplv.(g),6,2.867152e-21,2.866673e-05,0.08327653,0.028665,0.771429
6,0752a187-45df-2881-acdf-2bf7fc73d7b2,1,2.795137e-24,2.793001e-09,1.2183e-05,2.6e-05,1.0
7,684qll9dq_w@hotmail.com,2,1.1931079999999999e-34,1.19289e-07,0.0001987831,0.000117,0.628571
8,01553262018,3,1.899974e-70,1.897501e-09,1.920001e-07,1.7e-05,0.285714
9,324.044.099-72,4,6.5277600000000004e-59,6.526652e-07,3.342301e-05,6.3e-05,0.371429


# Dividindo dados

In [22]:
x = np.array(df_normalizado.drop(columns=['tipos', 'dados']))
y = np.array(df_normalizado['tipos'])

In [23]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, shuffle=True)

In [24]:
x_train

array([[4.53130367e-36, 4.53054676e-05, 1.98783067e-04, 4.52851132e-03,
        6.00000000e-01],
       [9.91803193e-69, 9.91620331e-08, 6.82500229e-07, 9.75002438e-05,
        2.85714286e-01],
       [1.06532989e-66, 1.06515171e-05, 7.71000259e-07, 1.06350266e-03,
        2.85714286e-01],
       ...,
       [2.66074967e-44, 2.66030339e-06, 1.98783067e-04, 2.64000660e-04,
        4.85714286e-01],
       [4.21587234e-60, 4.21516641e-06, 3.33300112e-05, 4.05001013e-05,
        3.71428571e-01],
       [1.33943929e-67, 1.33905045e-08, 1.72500058e-07, 1.32000330e-04,
        2.85714286e-01]])

# Treinando modelo

In [25]:
modelo.fit(x_train, y_train)

RandomForestClassifier()

# Analisando modelo

In [26]:
previsto = modelo.predict(x_test)

In [27]:
accuracy_score(previsto, y_test) * 100

91.37166666666666

# Testando modelo

In [28]:
def modelar_dado(string, maximos, minimos):
    df_test = pd.DataFrame({'dados': [string]})
    ## Colunas de tradução dos dados
    df_test['dados_trans'] = df_test['dados'].map(lambda x: float(x.translate(tabela)))
    ## Colunas das iniciais traduzidas
    df_test['iniciais'] = df_test['dados'].map(lambda x: x[0:4])
    df_test['iniciais'] = df_test['iniciais'].map(lambda x: float(x.translate(tabela)))
    ## colunas dos finais traduzidor
    df_test['finais'] = df_test['dados'].map(lambda x: x[-3:])
    df_test['finais'] = df_test['finais'].map(lambda x: float(x.translate(tabela)))
    ## coluna dos dois primeiros
    df_test['2_primeiros'] = df_test['dados'].map(lambda x: x[0:2])
    df_test['2_primeiros'] = df_test['2_primeiros'].map(lambda x: float(x.translate(tabela)))
    ## coluna tamanho
    df_test['tamanho'] = df_test['dados'].map(lambda x: len(x))
    ## normalizando
    colunas = df_test.drop(columns = ['dados']).columns
    for coluna in colunas:
        df_test[coluna] = df_test[coluna].apply(lambda x: (x - minimos[coluna]) / (maximos[coluna] - minimos[coluna]))
    return np.array(df_test.drop(columns=['dados']))

In [29]:
mapa

{'pix': 1,
 'email': 2,
 'cpf_sem_pontuacao': 3,
 'cpf_com_pontuacao': 4,
 'numero_celular': 5,
 'none': 6}

In [31]:
string = input('dado pagamento: ')
entrada = modelar_dado(string, maximos, minimos)
modelo.predict(entrada)

dado pagamento: 45zzf569-77zz-zz4e-ggfc-5705d24cdce2


array([1], dtype=int64)

# Salvando Modelo

In [33]:
import pickle

In [34]:
with open('modelo/modelo.pkl', 'wb') as arquivo:
    pickle.dump(modelo, arquivo)