# API 😁
Desenvolvimento do Data Preparation e IA com analise comparativa

#Pré-Requisitos

1. Ter o Jupyter Notebook instalado e a dependência do [Google Colab](https://research.google.com/colaboratory/local-runtimes.html)

2. Inicializar o Jupyter seguindo o seguinte comando:

```
jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com'  --port=8888  --NotebookApp.port_retries=0
```

3. Conectar seu Jupyter Notebook local com o Google Colab, via Token.

  ||  Instale no seu computador a seguinte biblioteca (na maquina local)
```
pip install --upgrade jupyter_http_over_ws>=0.0.7 && \
  jupyter serverextension enable --py jupyter_http_over_ws
```  

4. Instalar as seguintes dependências do [SQL](https://medium.com/analytics-vidhya/postgresql-integration-with-jupyter-notebook-deb97579a38d):

```
pip install pandas
pip install ipython-sql
pip install sqlalchemy
pip install psycopg2
```
Obs. Toda vez que for feita a compilação do SQL pela primeira vez, trocar o "%reload_ext sql" para "%load_ext sql".
E toda pós-leitura, deve-se retornar novamente para "%reload_ext sql".




#Configuração

##Importações


In [None]:
import pandas as pd 
import json
import numpy as np
import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn.naive_bayes import BernoulliNB
import seaborn as sns
import requests

In [None]:
%reload_ext sql
from sqlalchemy import create_engine

##Banco de dados

Conecção com o Heroku

In [None]:
# Format
%sql postgresql://bphyhvobfoeich:22a4268b7d54dfabd0e2c7acef4ed23f3a920f4fbe9f3056f39441fec6b83c9a@ec2-54-88-154-67.compute-1.amazonaws.com:5432/dd2cm5qobeg5ae
#%sql postgresql://postgres:01012010@localhost:5432/api

In [None]:
# Format
engine = create_engine('postgresql://bphyhvobfoeich:22a4268b7d54dfabd0e2c7acef4ed23f3a920f4fbe9f3056f39441fec6b83c9a@ec2-54-88-154-67.compute-1.amazonaws.com:5432/dd2cm5qobeg5ae')
#engine = create_engine('postgresql://postgres:01012010@localhost:5432/api')

# Data preparation

## Selection Data


In [None]:
df = pd.read_sql('SELECT * FROM usuario', engine)

**Separação das colunas em variáveis**

In [None]:
tracerouter = pd.read_sql('SELECT usuario_tracerouter FROM usuario', engine)

Conversão dos dados para listas

In [None]:
componentes_list = df.usuario_components.to_numpy()
movimento_mouse_list = df.usuario_mouse.to_numpy()
tracerouter_list = tracerouter.to_numpy()
digitacao_list = df.usuario_presses.to_numpy()
ids_list = df.id.to_numpy()

##Limpeza dos Dados

Criação do Objeto base

In [None]:
data_framer = {}
for id in ids_list:
  data_framer[id]={'Nenhum':{}, 'Nome':{}, 'Email':{}, 'Telefone':{}, 'Senha':{}}

print(data_framer)

###Limpeza dos Dados do Tracerouter

**Lista de rotas**

In [None]:
RoutasPorUsuario = []
for elemento in tracerouter_list:
  Rotas=[]
  string = str(elemento)
  string = string.replace(" ", "")
  string = string.replace("'", "")
  string = string.replace("[", "")
  string = string.replace("]", "")
  string = string.split("&")
  for rota in string:
    #Remoção seleta de valores
    if ('null' in rota) or ('noreply' in rota) or ('pmtu1500' in rota) or (' ' in rota) :
      continue
    else:
      #Remoção dos valores inuteis no final apos o último ponto
      invertString = rota[::-1]
      findDot = invertString.find('.') + 1
      invertString = invertString[findDot:]
      rota = invertString[::-1]
      #Remoção dos valores antes dos ':'
      tempRotas = rota.split(':')
      if len(tempRotas) > 1:
        Rotas.append(tempRotas[1])
  RoutasPorUsuario.append(Rotas)

In [None]:
RoutasPorUsuario

###Limpeza dos Dados do Component

In [None]:
def toJson(dataStringList, filter):
  listObj={}
  for elemento in range(0,len(dataStringList)):
    dic = json.loads(dataStringList[elemento])
    if(filter!=""):
      print(filter)
    else:
      listObj[ids_list[elemento]] = dic
  return listObj

In [None]:
list_componentes = toJson(componentes_list,"")
listaComponestsFica=['vendorFlavors','languages', 'platform', 'deviceMemory', 'hardwareConcurrency', 'timezone', 'cookiesEnabled', 'hardwareConcurrency', 'screenResolution', 'screenFrame']
def selecionaComponentes(userComponentes):

  objFiltrado = {}
  objFiltrado["finger"] = userComponentes["visitorId"]

  for componet in userComponentes["components"]:
    if componet in listaComponestsFica:
      try:
        objFiltrado[componet]= userComponentes["components"][componet]["value"]
      except:
        objFiltrado[componet] = 0
  return objFiltrado

In [None]:
list_mouse = toJson(movimento_mouse_list, "")

In [None]:
def selecionaMouses(id):
    usuario = list_mouse[id]
    distancia = {'Nenhum':0, 'Nome':0, 'Email':0, 'Telefone':0, 'Senha':0}
    cliques = {'Nenhum':0, 'Nome':0, 'Email':0, 'Telefone':0, 'Senha':0}
    for campo in usuario:
      if len(usuario[campo]) > 1:
        for i in range(len(usuario[campo])-1):
          distancia[campo] += pow((pow(usuario[campo][i]['x']-usuario[campo][i+1]['x'], 2)+pow(usuario[campo][i]['y']-usuario[campo][i+1]['y'], 2)), 1/2)
      for value in usuario[campo]:
        if value['click']: cliques[campo] +=1 
    for campo in distancia:
      data_framer[id][campo]['distancia']=distancia[campo]
      data_framer[id][campo]['cliques'] = cliques[campo]

In [None]:
list_digitacao=toJson(digitacao_list,"")

In [None]:
def selecionaTeclas(id):
  usuarioTeclas = list_digitacao[id]
  objresult={}
  times = {'Nenhum':{'soma':0, 'teclas':0},'Nome':{'soma':0, 'teclas':0},'Email':{'soma':0, 'teclas':0},'Telefone':{'soma':0, 'teclas':0},'Senha':{'soma':0, 'teclas':0}}
  medias = {}
  maior = {'Nenhum':0, 'Nome':0, 'Email':0, 'Telefone':0, 'Senha':0}
  menor = {'Nenhum':99999, 'Nome':99999, 'Email':99999, 'Telefone':99999, 'Senha':99999}
  tabs = 0
  for campo in usuarioTeclas:
    tabs = 0
    for valor in usuarioTeclas[campo]:
      times[campo]['soma'] += valor['interval']
      times[campo]['teclas'] += 1
      if valor['interval'] > maior[campo]: maior[campo] = valor['interval']
      if valor['interval'] < menor[campo]: menor[campo] = valor['interval']
      try:
        if valor['key'] == "Tab":tabs+=1
      except:
        ''
    objresult[campo] = {} 
    objresult[campo]["maior"] = maior[campo] 
    objresult[campo]["tabs"] = tabs
    objresult[campo]["menor"] = menor[campo]
    objresult[campo]["teclas"] = times[campo]["teclas"]
    objresult[campo]["media"] = times[campo]['soma']/times[campo]['teclas'] 

  for campo in objresult:
    for coisa in objresult[campo]:
      data_framer[id][campo][coisa]=objresult[campo][coisa]
  return objresult

In [None]:
failedIds = []
for id in ids_list:
  try:
    selecionaMouses(id)
    selecionaTeclas(id)
  except:
    failedIds.append(id)

print("falhou",failedIds)

##FingerPrint

In [None]:
def comparaFingerprint(value , value2):   
  listaComponests=['finger','screenFrame','languages','deviceMemory','screenResolution','hardwareConcurrency','timezone','platform','vendorFlavors','cookiesEnabled']
  score=0
  for components in listaComponests:
    if(components == 'finger') and (value[components] == value2[components]):
      score=1
      return score
    else:
      if(value[components] == value2[components]):
        score = round(score + 0.1,1)
  return score

In [None]:
resultadoAnaliseFingerPrint = {}
for id in list_componentes:
  userCulpado={}
  for idCulpado in list_componentes:
    if(id != idCulpado):
      userCulpado[idCulpado] = comparaFingerprint(selecionaComponentes(list_componentes[id]) , selecionaComponentes(list_componentes[idCulpado]))
  resultadoAnaliseFingerPrint[id] = userCulpado 
      

##TraceRouter

###Geração dos Dados a serem utilizados

In [None]:
def verificaLista(rotasUser, execao):
  listaComparacaoFinal = []
  for x  in range(len(RoutasPorUsuario)):
    listaComparacaoUser = []
    if(x != execao):
      for y in range(len(RoutasPorUsuario[x])):
        listaComparacaoUser.append(1 if RoutasPorUsuario[x][y] in rotasUser else 0)   
    listaComparacaoFinal.append(listaComparacaoUser)
  return listaComparacaoFinal

In [None]:
#Executa verificação de igualdade em toda lista
verificaaoIgualdadeRotas=[]
for index in range(len(RoutasPorUsuario)):
  verificaaoIgualdadeRotas.append(verificaLista(RoutasPorUsuario[index],index))

In [None]:
RoutasPorUsuario

###Cálculo de probabilidade de similaridade de rotas

In [None]:
idUserInicial = 2
def calculaProbabilidadeTraceRoute(rotas, idUser):
  user={}
  userGuilty={}
  idUserGuilty=idUserInicial
  for rota in rotas:
    resultado=0
    countTrues=0
    if(len(rota)>0):
      for valor in rota:
        if(valor == 1):
          countTrues=countTrues+1
      resultado = round((countTrues/len(rota)),1)
      #print(resultado)
      if(resultado > 0):
        userGuilty[idUserGuilty]=resultado 
      idUserGuilty = idUserGuilty + 1
    else:
      idUserGuilty = idUserGuilty + 1
  user[idUser] = userGuilty
  return user
      

In [None]:
resultadoAnaliseTraceRoute={}
countIdUser = idUserInicial
for rotasUser in verificaaoIgualdadeRotas:
  result = calculaProbabilidadeTraceRoute(rotasUser, countIdUser)
  countIdUser = countIdUser + 1
  resultadoAnaliseTraceRoute[countIdUser] = str(result)

**Exemplos**

In [None]:
resultadoAnaliseTraceRoute

In [None]:
resultadoAnaliseTraceRoute={}
countIdUser = idUserInicial
for rotasUser in verificaaoIgualdadeRotas:
  result = calculaProbabilidadeTraceRoute(rotasUser, countIdUser)
  countIdUser = countIdUser + 1
  resultadoAnaliseTraceRoute[countIdUser] = str(result)

##Preparação e Seleção dos dados 

In [None]:
pd.DataFrame.from_dict(data_framer[11]).corr()

In [None]:
corrs = {}
data_fram = {}
for id in data_framer:
  if id not in failedIds:
    corrs[id] = pd.DataFrame.from_dict(data_framer[id]).transpose().corr()
    data_fram[id] = pd.DataFrame.from_dict(data_framer[id])

In [None]:
sns.heatmap(pd.concat(data_fram, axis=1).transpose().corr())

In [None]:
corrs[2]

In [None]:
single_corrs = {}
for id in corrs:
  df_out = corrs[id].stack()
  df_out.index = df_out.index.map('{0[1]}_{0[0]}'.format)
  single_corrs[id] = df_out.to_frame().T

In [None]:
tabelona = pd.concat(single_corrs).fillna(0)

In [None]:
tabelona.sample(3)

# Agrupamento



---





## 🧮 Cálculo do WCSSE - Within Cluster Sum of Squared Errors

##💪🏻 Método de Elbow
Plotagem do Gráfico para visualização do "cotovelo" - Método de Elbow.

In [None]:
wcsse = [] 
maxclusters = len(tabelona<11)

for i in range(1, maxclusters): 
    kmeans = KMeans(n_clusters = i, init = 'random') 
    kmeans.fit(tabelona) 
    wcsse.append(kmeans.inertia_) 

plt.plot(range(1, maxclusters), wcsse) 
plt.title('O Metodo Elbow') 
plt.xlabel('Qtde, de Clusters') 
plt.ylabel('WCSSE') 
plt.show() 

In [None]:
def calculate_wcss(data):
  wcss = []
  for n in range(2, len(data)):
    kmeans = KMeans(n_clusters=n)
    kmeans.fit(X=data)
    wcss.append(kmeans.inertia_)
    
  return wcss

def optimal_number_of_clusters(wcss, size):
    x1, y1 = 2, wcss[0]
    x2, y2 = size, wcss[len(wcss)-1]

    distances = []
    for i in range(len(wcss)):
        x0 = i+2
        y0 = wcss[i]
        numerator = abs((y2-y1)*x0 - (x2-x1)*y0 + x2*y1 - y2*x1)
        denominator = pow((y2 - y1)**2 + (x2 - x1)**2, 0.5)
        distances.append(numerator/denominator)
    
    return distances.index(max(distances)) + 2

In [None]:
clust = optimal_number_of_clusters(calculate_wcss(tabelona), len(tabelona))

#Aplicação das IAs

In [None]:
kmeans = KMeans(n_clusters = clust, init = 'random') 
kmeans.fit(tabelona) 

# Visualização dos agrupamentos

In [None]:
labels = kmeans.labels_ 
labels

In [None]:
clusters = {}
for id in labels:
  clusters[id] = []
for id in range(len(labels)):
  clusters[labels[id]].append(tabelona.index[id][0])

clusters

# **Envio dos Dados ao servidor**

In [None]:
stop

In [None]:
response = requests.delete('https://unique-user-identify-back.herokuapp.com/score/all')
print(response.text)

In [None]:
for cluster in clusters:
  for user in clusters[cluster]:
    score = {'cluster': cluster.item(), 'fingerPrint':f'{resultadoAnaliseFingerPrint[user]}', 'traceRouter':' '}
    response = requests.post(f'https://unique-user-identify-back.herokuapp.com/score/{user}', json=score)
    print(response)