### IDENTIFICAÇÃO DO PROJETO
**Autor:** João Marcos Mareto Calado
<br />**Linguagem:** Python 3 em sua última versão no ambiente do Anaconda todo atualizado
<br />**Dependências:** Este projeto depende das bibliotecas sklearn, nltk, numpy e difflib
<br />**Título:** Avaliação de modelos de classificação na resolução do problema de associação de perfis de usuáros de serviços diferentes.

### DESCRIÇÃO RESUMIDA DO PROJETO

Foi solicitado como trabalho final da disciplina de Ciência de Dados, que o aluno fizesse um trabalho utilizando as técnicas aprendidas em sala de aula para realizar a análise exploratória de alguma base de dados e algum tipo de classificação ou regressão conforme necessidade.

Este trabalho pretende aproveitar o que foi entregue como trabalho final da disciplina de Inteligência Artificial, porém com um enfoque maior na análise exploratória de dados, avaliando as características do dataset. Ao final, alguns algoritmos de classificação são utilizados para que o obtiver a melhor performance no critério de acurácia seja testado.

### DESCRIÇÃO DO PROBLEMA

Atualmente as pessoas passam um tempo considerável nas mais diversas redes sociais, criando um ambiente virtual onde elas se conectam à amigos, compartilham informações e expandem os laços sociais. Ter a capacidade de ligar os perfis nas diversas redes sociais poderia levar a um maior entendimento sobre o comportamento e costume dos usuários, permitindo a melhora na provisão e customização de serviços, além de recomendações melhores.

Conforme definido porCarmagnola e Cena em 2009, este tipo de problema é definido como "Cross-system Personalisation" e a utilização de técnicas de ciência de dados tem obtido resultados bastante promissores.

De acordo com Esfandyari et al. (2018), este é um problema difícil de ser resolvido dada a não estruturação das informações além da falta de garantia na veracidade das informações preenchidas. Corroborando com Esfandyari e colegas, Shu et al. (2017) complementa as dificuldades e desafios da tarefa de identificar os perfis em diferentes redes sociais. São elencados dois motivos pelos quais existe essa dificuldade. O primeiro é que embora usuários tenham contas em diferentes redes, a informação de uma mesma pessoa no mundo real pode ser diversa entre as redes, e o segundo motivo é que as informações da identidade dos usuários é ruidosa, incompleta e altamente não estruturada.

O problema de identificação de usuário em sistemas cruzados, é definido da seguinte forma: dados dois perfis $P^{s1}$ e $P^{s2}$ de duas redes sociais diferentes $s1$ e $s2$, determinar se estes perfis pertencem à mesma pessoa. Isto corresponde à aprender uma função de identificação $f(P^{s1}, P^{s2})$, tal que:

\begin{equation}
f(P^{s1}, P^{s2}) = \left\{ \begin{array}{cl}
1 & \textrm{se } P^{s1} \textrm{ e } P^{s2} \textrm{, pertencem à mesma pessoa}\\
0 & \textrm{, caso contrário}\\
\end{array}\right.
\end{equation}

Para tentar resolver esses desafios, diversas pesquisas vem sendo realizadas utilizando abordagens diferentes. As abordagens, porém, podem ser agrupadas em (i) identificação baseada em nome de usuários, (ii) identificação baseada em perfis de usuários e a (iii) identificação baseada em conteúdo e rede de amigos.

### RELATO DE ATIVIDADES

O relato de atividades é composto por este Jupyter notebook. No decorrer deste documento, terá seções compostas de células de texto contendo uma descrição do passo pretendido e de células contendo o código-fonte correspondente.

#### Base de Dados

Para o trabalho, foi utilizada uma base de dados pública, disponível no portal do Laboratório de Protocolo de Redes e Tecnologias (NPTLab) da Universidade de Milão, criada por Esfandyari e colegas em 2018.

A base de dados, denominada "GT dataset", contém 10.571 pares de perfis corretamente rotulados de usuários do <em>Google+</em> e <em>Twitter</em>.

Esta base de dados disponibiliza 15 atributos em cada registro, sendo 6 do perfil do <em>Google+</em>, 8 do perfil do <em>Twitter</em> e um atributo de identificação do registro da base de dados. Os atributos são listados a seguir:

- _id: atributo identificador do registro na base de dados;
- Gid: atributo identificador do perfil no <em>Google+</em>;
- G_Firstname: atributo que representa o primeiro nome do usuário no <em>Google+</em>;
- G_Lastname: atributo que representa o último nome do usuário no <em>Google+</em>;
- G_Displayname: atributo que representa o nome de usuário no <em>Google+</em>;
- G_Location: atributo que representa a localização do usuário no <em>Google+</em>;
- G_aboutme: atributo que contém uma descrição a respeito do usuário no <em>Google+</em>;
- Tid: atributo identificador do usuário no <em>Twitter</em>;
- T_Fullname: atributo que representa o nome completo do usuário no <em>Twitter</em>;
- T_ScreenName: atributo que representa o nome de usuário no <em>Twitter</em>;
- T_Location: atributo que representa a localização do usuário no <em>Twitter</em>;
- T_Description: atributo que contém uma descrição a respeito do usuário no <em>Twitter</em>;
- T_Time_Zone: atributo que representa a zona de horário do usuário no <em>Twitter</em>;
- T_StatusText: atributo que representa um texto breve a respeito do estado do usuário no <em>Twitter</em>;
- T_Language: atributo que representa a língua do usuário no <em>Twitter</em>.

# INÍCIO DOS EXPERIMENTOS

## 1. Entrando no diretório do dataset

In [1]:
import os

# nome do arquivo dataset
input_file = 'teste1.json'
input_encoding = 'utf8'

# path para o diretorio do arquivo
root_path = 'datasets'


In [2]:
# obtenção do diretório corrente
current_directory = os.getcwd()

# se o diretorio atual não conter "datasets" como as oito últimas letras do path, mude para o diretorio datasets
if current_directory[-8:] != root_path:
    os.chdir(root_path)

print(current_directory)

C:\Users\Marcilene\Desktop\Mestrado - JM\Dissertacao\experimento_artigo_brasnam


## 2. Carregando o Dataset

In [3]:
import json

with open(input_file, encoding=input_encoding) as json_file:
    dataset = json_file.readlines()

    for i, item in enumerate(dataset):
        dataset[i] = json.loads(item)

print("Dataset carregado com sucesso!")
print("número de registros: ", len(dataset))

#print()
#print("Analisando o layout das informações:")
#print()
#print(dataset[0])

Dataset carregado com sucesso!
número de registros:  10571


### 2.1 Transformando o dataset json em DataFrame do Pandas

Para maior facilidade no processo de análise exploratória de dados e também na manipulação das informações, o dataset será convertido para um DataFrame da biblioteca pandas.

In [4]:
import pandas as pd

dataset = pd.DataFrame(dataset)
#dataset.describe()

#### 2.1.1 Comentários

Pela análise da saída do comando "dataset.describe()", podemos obter algumas informações valiosas a respeito dos dados do dataset.

De forma qualitativa, percebemos que no serviço <em>Twitter</em> os usuários tendem a preencher melhor os campos de perfil de usuário, enquanto no serviço <em>Google+</em> alguns desses mesmos usuários deixam informações em branco.

Como exemplo, podemos citar que os campos G_FirstName e G_Lastname estão preenchidos em apenas 9410 registros, enquanto que os campos G_Displayname, T_ScreenName e T_Fullname estão preenchidos em todos os registros.

Se levarmos em consideração que os campos relacionados ao nome do usuário são obrigatórios para este tipo de problema a ser tratado, os registros que estão com informação vazia devem ser limpos do dataset.

Apesar da abordagem deste trabalho ser a identificação e associação de perfis de usuários a partir dos perfis disponíveis nos serviços, temos que os campos referentes ao nome são obrigatórios para podermos identificar os usuários.

Dessa forma, nas próximas células, o registros com informação faltante serão removidos do dataset.

## 3. Limpeza do Dataset

### 3.1 Limpeza de registros contendo vazios vazios para atributos que representam nomes

In [5]:
# ==========================================================================
# se algum dos atributos do registro estiver vazio ou nulo,
# o registro inteiro fica inválido não indo para a lista saneada.
# ==========================================================================

# remove todas as linhas que os atributos seguintes atributos sejam nulos:
#     G_Firstname;
#     G_Lastname;
#     G_Displayname;
#     T_Fullname;
#     T_ScreenName;
indexNames = dataset[ (dataset['G_Firstname'].isnull()) | (dataset['G_Lastname'].isnull()) | (dataset['G_Displayname'].isnull()) | (dataset['T_Fullname'].isnull()) | (dataset['T_ScreenName'].isnull()) ].index
dataset.drop(indexNames , inplace=True)
print("Limpou os registros com dados faltantes")
print("número de registros após limpeza: ", len(dataset))

Limpou os registros com dados faltantes
número de registros após limpeza:  9410


#### 3.1.1 Comentários

O número de registros após limpeza inicial corrobora com o número de registros com informações dos nomes preenchidas.

Outra análise a ser feita é com relação aos dados disponíveis.

Como era esperado, após analisar a saída do comando "dataset.head()" vemos que todas as colunas do dataset são categóricas, não sendo possível fazer nenhuma análise a partir do seu valor.

### 3.2 Separação dos registros em dois DataFrames separados

Para facilitar a continuidade do processo de análise, vamos separar os registros entre dois conjuntos de dados, sendo um para o <em>Twitter</em> e outro para o <em>Google+</em>.

<b>IMPORTANTE:</b>

Serão considerados apenas o atributos que são iguais entre os perfis do <em>Google+</em> e <em>Twitter</em>, desta forma, apenas os seguinte atributos serão considerados:

<em>Google+</em>:
- G_Firstname;
- G_Lastname;
- G_Displayname;
- G_aboutme;
- G_Location;

<em>Twitter</em>:
- T_Fullname;
- T_ScreenName;
- T_Description;
- T_Location;

In [6]:
# =========================================================================
# percorre o dataset e o separa em duas listas
# uma lista para o google_plus e outra lista para o twitter
# =========================================================================
df_g = dataset[['Gid','G_Firstname', 'G_Location', 'G_Lastname', 'G_aboutme', 'G_Displayname']]
df_t = dataset[['Tid','T_Fullname', 'T_Location', 'T_ScreenName', 'T_Description']]

print("Separamos o dataset em Google+ e Twitter")

print("número de registros do Google+: ", len(df_g))
print("número de registros do Twitter: ", len(df_t))

Separamos o dataset em Google+ e Twitter
número de registros do Google+:  9410
número de registros do Twitter:  9410


In [7]:
df_g.describe()

Unnamed: 0,Gid,G_Firstname,G_Location,G_Lastname,G_aboutme,G_Displayname
count,9410,9410,5178,9410,4382,9410
unique,8367,5050,3211,6865,3815,8279
top,114197951660575959146,David,London,.,PROVMEDIA - gratis online publiciteit voor ond...,������������
freq,13,79,52,51,13,18


In [8]:
df_t.describe()

Unnamed: 0,Tid,T_Fullname,T_Location,T_ScreenName,T_Description
count,9410,9410,9410.0,9410,9410.0
unique,8587,8543,4673.0,8587,6863.0
top,783214,Twitter,,twitter,
freq,56,56,1621.0,56,1843.0


#### 3.2.1 Comentários

Após executarmos as funções "describe()" nos dois novos DataFrames, fica mais fácil perceber que há diversos registros duplicados referentes a perfis do <em>Google+</em> e a mesma situação se repete nos perfis do <em>Twitter</em>, isto fica evidenciado pelo valor da linha "unique" nas colunas "Gid" e "Tid".

### 3.3 Limpeza de registros duplicados

A estratégia adotada é guardar o primeiro de cada grupo de repetidos, conforme célula de código abaixo.

In [9]:
# ==========================================================================
# O dataset tem vários problemas de registros duplicados do google
# e do twitter, mas nao estão repetidos juntos, assim, ao excluir os 
# repetidos do google e depois do twitter, acabamos com quantidades 
# diferentes em cada uma das listas de registros
#
# =========================================================================
# ==========================================================================
df_g.drop_duplicates(subset = 'Gid', keep = 'first', inplace = True)
df_t.drop_duplicates(subset = 'Tid', keep = 'first', inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if __name__ == '__main__':
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # Remove the CWD from sys.path while we load stuff.


In [10]:
df_g.describe()

Unnamed: 0,Gid,G_Firstname,G_Location,G_Lastname,G_aboutme,G_Displayname
count,8367,8367,4555,8367,3817,8367
unique,8367,5049,3211,6864,3815,8278
top,100890593900177935638,David,London,.,���������������������,������������
freq,1,69,45,48,2,18


In [11]:
df_t.describe()

Unnamed: 0,Tid,T_Fullname,T_Location,T_ScreenName,T_Description
count,8587,8587,8587.0,8587,8587.0
unique,8587,8543,4673.0,8587,6863.0
top,373273039,Kevin,,hochul,
freq,1,4,1483.0,1,1709.0


#### 3.3.1 Comentários

Como é possível notar, a remoção de registros com informações faltantes e a limpeza de registros duplicados fez com que acabássemos com duas listas de tamanho diferentes.

Devemos atentar para o fato de que o número de registros diferentes não significa que tenhamos algum problema no decorrer do trabalho.

## 4. Carregamento dos conjuntos de treino e teste segundo autor do dataset

Um ponto de atenção é que o problema de associação de perfis, difere da análise de registros individuais, sendo necessário avaliar sempre aos pares. Assim, cada avaliação é feita com base em dois perfis para analisar se são pertencentes à mesma pessoa ou não.

Considerando que o dataset contém apenas registros corretamente pareados, ou seja, cada registro do dataset contém um perfil do <em>Google+</em> associado ao perfil do <em>Twitter</em>, em algum momento seria necessário criar um conjunto de treino composto de pares corretamente associados e pares associados de forma incorreta.

Para prosseguirmos, será necessário criar os conjuntos de treino a fim de treinar o classificador. Contudo, o autor deste dataset, disponibilizou também 3 conjuntos para a etapa de treino e 2 conjuntos para a etapa de teste.

Cabe ressaltar neste ponto, que cada conjunto de treino possui um "nível de dificuldade" diferente, sendo  o conjunto 1 o mais simples e o conjunto 3 o mais difícil.

EXPLICAR OS NÍVEIS DE DIFICULDADE CONFORME AUTOR DO DATASET

Nas células a seguir, vamos carregar estes conjuntos de dados

### 4.1 Carregamento dos arquivos

In [12]:
dataset = None

trainGT1 = pd.read_csv('TrainGT1.csv')
print("Carregou dataset TrainGT1")
print("Conjunto de treino 1: ",len(trainGT1), "registros.")
print()

trainGT2 = pd.read_csv('TrainGT2.csv')
print("Carregou dataset TrainGT2")
print("Conjunto de treino 2: ",len(trainGT2), "registros.")
print()

trainGT3 = pd.read_csv('TrainGT3.csv')
print("Carregou dataset TrainGT3")
print("Conjunto de treino 3: ",len(trainGT3), "registros.")
print()

testGT1 = pd.read_csv('TestGT1.csv')
print("Carregou dataset TestGT1")
print("Conjunto de teste 1: ",len(testGT1), "registros.")
print()

testGT2 = pd.read_csv('TestGT2.csv')
print("Carregou dataset TestGT2")
print("Conjunto de teste 2: ",len(testGT2), "registros.")

Carregou dataset TrainGT1
Conjunto de treino 1:  3500 registros.

Carregou dataset TrainGT2
Conjunto de treino 2:  3540 registros.

Carregou dataset TrainGT3
Conjunto de treino 3:  3550 registros.

Carregou dataset TestGT1
Conjunto de teste 1:  870 registros.

Carregou dataset TestGT2
Conjunto de teste 2:  663 registros.


#### 4.1.1 Comentátios

Como pode ser visto em cada DataFrame dos conjuntos de treino e teste acima, eles contem apenas os identificadores do <em>Twitter</em> e <em>Google+</em> e o label indicando se pertencem à mesma pessoa ou não.

### 4.2 Montagem do conjunto de treino e teste contendo os atributos de perfil

Para darmos continuidade é preciso montar uma estrutura de dados que tenha os atributos dos registros relacionados a cada identificador, além do label.

Nas próximas células apresentamos a estrutura descrita.

In [13]:
def make_train_gt(dataset_g, dataset_t, gabarito):
    dataset_gt = []
    labels_gt  = []

    aux = {}

    for index, row in gabarito.iterrows():

        row_g = dataset_g.loc[dataset_g.Gid == str(row['Gid'])]
        row_t = dataset_t.loc[dataset_t.Tid == str(row['Tid'])]

        aux['g_plus']  = row_g
        aux['twitter'] = row_t
        dataset_gt.append(aux)

        match = 1 if row['Same_identity'] == 'yes' else 0
        labels_gt.append(match)
        aux = {}

    return dataset_gt, labels_gt

In [14]:
dataset_treino_gt_1, labels_treino_gt_1 = make_train_gt(df_g, df_t, trainGT1)
print("dataset de treino 1 obtido")
print("Conjunto de treino 1: ",len(dataset_treino_gt_1), "registros.")
print()

dataset_treino_gt_2, labels_treino_gt_2 = make_train_gt(df_g, df_t, trainGT2)
print("dataset de treino 2 obtido")
print("Conjunto de treino 2: ",len(dataset_treino_gt_2), "registros.")
print()

dataset_treino_gt_3, labels_treino_gt_3 = make_train_gt(df_g, df_t, trainGT3)
print("dataset de treino 3 obtido")
print("Conjunto de treino 3: ",len(dataset_treino_gt_3), "registros.")
print()

dataset_test_gt_1, labels_test_gt_1 = make_train_gt(df_g, df_t, testGT1)
print("dataset de teste 1 obtido")
print("Conjunto de teste 1: ",len(dataset_test_gt_1), "registros.")
print()

dataset_test_gt_2, labels_test_gt_2 = make_train_gt(df_g, df_t, testGT2)
print("dataset de teste 2 obtido")
print("Conjunto de teste 2: ",len(dataset_test_gt_2), "registros.")


dataset de treino 1 obtido
Conjunto de treino 1:  3500 registros.

dataset de treino 2 obtido
Conjunto de treino 2:  3540 registros.

dataset de treino 3 obtido
Conjunto de treino 3:  3550 registros.

dataset de teste 1 obtido
Conjunto de teste 1:  870 registros.

dataset de teste 2 obtido
Conjunto de teste 2:  663 registros.


#### 4.2.1 Comentários

O número de registros está igual ao número de registros dos conjuntos de de treino e teste propostos pelo autor do dataset, indicando que a função criada para montar a estrutura funcionou.

A estrutura de dados é uma lista contendo dicionários como elementos. Cada dicionário contém duas chaves uma representando o registro do <em>Google+</em> e outra representando o <em>Twitter</em>. Os valores de cada uma dessas chaves são dataframes contendo os atributos.

A partir deste momento, com registros contendo pares de perfis corretamente e incorretamente associados, é preciso pensar em modos de obter características que permitam aos algoritmos fazer a melhor classificação possível.

## 5. Obtenção das Características



Considerando que os atributos são categóricos do tipo "string", e analisando a literatura disponível a respeito deste tipo de problema, pretendemos utilizar métricas de distância entre os valores das strings que correspondem a cada atributo.

### 5.1 Funções que definem as métricas de similaridade de acordo com Esfandyari

Nas células abaixo são definidas as funções que determinam a quanto duas strings são similares de acordo com as seguintes técnicas:

- Exact Match (EM): comparação exata dos dois valores de entrada;
- Longest Common Substring (LCS): a cadeia mais longa em comum. Em geral, este valor é normalizado, dividindo-se pela média do tamanhos das duas strings de entrada;
- Longest Common Sub-Sequence (LCSS): Medida parecida com a LCS, porém de forma que a sequência não precise ser contígua. Novamente o valor de retorno é normalizado pela média do tamanho das duas strings orignais;
- Levenshtein Distance (LD): o algoritmo de Levenshtein calcula o número mínimo de operações de edição que são necessárias para modificar uma string de forma à obter outra string;
- Jaccard Similarity (JS): é o cálculo do tamanho da interseção de termos (por exemplo, palavras) dividida pelo tamanho da união dos conjuntos dos termos das entradas e;
- Cosine Similarity (CS) with TF-IDF Weights: a semelhança de cosseno entre dois documentos mede o ângulo entre suas representações no modelo de espaço vetorial, que pode ser dada pela técnica tf-idf.

In [15]:
from difflib import SequenceMatcher
import nltk
from sklearn.metrics.pairwise import cosine_similarity

def exactMatch(str1, str2):
    str1 = str1.lower()
    str2 = str2.lower()
    if str1 == str2:
        return 1
    return 0

def longestSubstringNormalized(str1,str2):
    # initialize SequenceMatcher object with
    # input string

    str1 = str1.lower()
    str2 = str2.lower()

    seqMatch = SequenceMatcher(None,str1,str2)
    # find match of longest sub-string
    # output will be like Match(a=0, b=0, size=5)
    match = seqMatch.find_longest_match(0, len(str1), 0, len(str2))
    # print longest substring
    if (match.size!=0):
        a = len(str1) + len(str2)
        b = a / 2
        return (match.size / b)

    return 0

def lcssNormalized(str1, str2):
    str1 = str1.lower()
    str2 = str2.lower()
    # find the length of the strings
    m = len(str1)
    n = len(str2)

    # declaring the array for storing the dp values
    L = [[None]*(n + 1) for i in range(m + 1)]

    for i in range(m + 1):
        for j in range(n + 1):
            if i == 0 or j == 0 :
                L[i][j] = 0
            elif str1[i-1] == str2[j-1]:
                L[i][j] = L[i-1][j-1]+1
            else:
                L[i][j] = max(L[i-1][j], L[i][j-1])
    return (L[m][n] / ((m + n) / 2) )

def edit_distance(str1, str2):
    return nltk.edit_distance(str1.lower(), str2.lower())

def jaccard_distance(str1, str2):
    return nltk.jaccard_distance(set(str1.lower()), set(str2.lower()))

def cosine_similarity_with_tf_idf(tfidf_vectorizer, str1, str2):
    #[registro['G_aboutme'], registro['T_Description']])
    tfidf_matrix = tfidf_vectorizer.fit_transform([str1.lower(), str2.lower()])
    X = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix)
    return X[0][1]

### 5.2 Características utilizadas

As seguintes métricas serão empregadas para comparar o **campo nome completo** dos usuários:

* Exact Match;
* Longest Commom Substring;
* Longest Commom SubSequence;
* Levenshtein Distance e;
* Jaccard Similarity.

As seguintes métricas serão empregadas para comparar o **campo screen name** dos usuários:

* Exact Match;
* Longest Commom Substring;
* Longest Commom SubSequence;
* Levenshtein Distance e;
* Jaccard Similarity.

As seguintes métricas serão empregadas para comparar o **campo localização** dos usuários:

* Exact Match;
* Longest Commom Substring e;
* Jaccard Similarity.

As seguintes métricas serão empregadas para comparar o **campo descrição** dos usuários:

* Cosine Similarity with TF-IDF Weights.


In [16]:
def get_metricas_fullname_italiana(str1, str2):
    # 1 é bom, 0 é ruim
    fullname_em   = exactMatch(str1, str2)

    # quanto maior, melhor (de 0 até 1)
    fullname_lcs  = longestSubstringNormalized(str1, str2)

    # quanto maior, melhor (de 0 até 1)
    fullname_lcss = lcssNormalized(str1, str2)

    # quanto menor, melhor (valor absoluto)
    fullname_ld   = edit_distance(str1, str2)

    # quanto menor, melhor (de 0 até 1)
    fullname_js   = jaccard_distance(str1, str2)

    return [fullname_em, fullname_lcs, fullname_lcss, fullname_ld, fullname_js]

def get_metricas_username_italiana(str1, str2):
    # 1 é bom, 0 é ruim
    username_em   = exactMatch(str1, str2)

    # quanto maior, melhor (de 0 até 1)
    username_lcs  = longestSubstringNormalized(str1, str2)

    # quanto maior, melhor (de 0 até 1)
    username_lcss = lcssNormalized(str1, str2)

    # quanto menor, melhor (valor absoluto)
    username_ld   = edit_distance(str1, str2)

    # quanto menor, melhor (de 0 até 1)
    username_js   = jaccard_distance(str1, str2)

    return [username_em, username_lcs, username_lcss, username_ld, username_js]

def get_metricas_location_italiana(str1, str2):
     # 1 é bom, 0 é ruim
    location_em  = exactMatch(str1, str2)

    # quanto maior, melhor (de 0 até 1)
    location_lcs = longestSubstringNormalized(str1, str2)

    # quanto menor, melhor (de 0 até 1)
    location_js  = jaccard_distance(str1, str2)

    return [location_em, location_lcs, location_js]

def get_metricas_description_italiana(tfidf_vectorizer, str1, str2):
    # quanto maior, melhor (de 0 até 1)
    if str1 == '' or str2 == '':
        return [0.0]

    description_cs = cosine_similarity_with_tf_idf(tfidf_vectorizer, str1, str2)

    return [description_cs]

### 5.3 Obtenção do vetor de características

Nas células a seguir são definidas as funções que montam o vetor de características a ser utilizado pelos classificadores.

In [17]:
def get_dict_metricas_italiana(vec_username, vec_fullname, vec_location, vec_description):
    # ==========================================================================
    # esta função recebe 4 vetores contendo:
    # 1º vetor: par de screen names;
    # 2º vetor: par de nomes completos;
    # 3º vetor: par de localizaçãão;
    # 4º vetor: par de descriçãão;

    # Observação: na descrição, o elemento zero do vetor é o TfidfVectorizer,
    #             e os elementos 1 e 2 correspondem ao par de descrição.
    # ==========================================================================

    vec_username_features    = get_metricas_username_italiana(vec_username[0], vec_username[1])
    vec_fullname_features    = get_metricas_fullname_italiana(vec_fullname[0], vec_fullname[1])
    vec_location_features    = get_metricas_location_italiana(vec_location[0], vec_location[1])
    
    vec_description_features = get_metricas_description_italiana(
        vec_description[0], 
        vec_description[1], 
        vec_description[2]
    )

    return [
        vec_username_features[0],
        vec_username_features[1],
        vec_username_features[2],
        vec_username_features[3],
        vec_username_features[4],
        vec_fullname_features[0],
        vec_fullname_features[1],
        vec_fullname_features[2],
        vec_fullname_features[3],
        vec_fullname_features[4],
        vec_location_features[0],
        vec_location_features[1],
        vec_location_features[2],
        vec_description_features[0]
    ]

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer

def extrair_caracteristicas_gt(dataset):
    # =============================================================================
    # O for abaixo gera a lista de dicionarios contendo as caracteristicas
    # de cada registro.
    #
    # no google, username é o G_Displayname;
    # no twitter, username é o T_ScreenName;
    #
    # no google, fullname é o "G_Firstname"+" "+"G_Lastname";
    # no twitter, fullname é o T_Fullname;
    # =============================================================================

    tfidf_vectorizer = TfidfVectorizer()
    caracteristicas_italiana  = []
    caracteristicas_chines    = []

    for registro in dataset:

        g_fullname = registro['g_plus']['G_Firstname'].values[0] + " " + registro['g_plus']['G_Lastname'].values[0]

        vec_username    = [registro['g_plus']['G_Displayname'].values[0], registro['twitter']['T_ScreenName'].values[0]]
        vec_fullname    = [g_fullname, registro['twitter']['T_Fullname'].values[0]]
        vec_location    = [registro['g_plus']['G_Location'].values[0], registro['twitter']['T_Location'].values[0]]
        vec_description = [tfidf_vectorizer, registro['g_plus']['G_aboutme'].values[0], registro['twitter']['T_Description'].values[0]]

        aux = get_dict_metricas_italiana(
            vec_username,
            vec_fullname,
            vec_location,
            vec_description
        )
        caracteristicas_italiana.append(aux)

    return caracteristicas_italiana

In [19]:
dt_treinos = []
dt_testes = []
caracteristicas_treino_gt_1_italiana = extrair_caracteristicas_gt(dataset_treino_gt_1)
dt_treinos.append(("Treino 1_I", caracteristicas_treino_gt_1_italiana, labels_treino_gt_1))
print("Características de treino 1 obtidas")

caracteristicas_treino_gt_2_italiana = extrair_caracteristicas_gt(dataset_treino_gt_2)
dt_treinos.append(("Treino 2_I", caracteristicas_treino_gt_2_italiana, labels_treino_gt_2))
print("Características de treino 2 obtidas")

caracteristicas_treino_gt_3_italiana = extrair_caracteristicas_gt(dataset_treino_gt_3)
dt_treinos.append(("Treino 3_I", caracteristicas_treino_gt_3_italiana, labels_treino_gt_3))
print("Características de treino 3 obtidas")

caracteristicas_test_gt_1_italiana = extrair_caracteristicas_gt(dataset_test_gt_1)
dt_testes.append(("Teste 1_I", caracteristicas_test_gt_1_italiana, labels_test_gt_1))
print("Características de teste 1 obtidas")

caracteristicas_test_gt_2_italiana = extrair_caracteristicas_gt(dataset_test_gt_2)
dt_testes.append(("Teste 2_I", caracteristicas_test_gt_2_italiana, labels_test_gt_2))
print("Características de teste 2 obtidas")

Características de treino 1 obtidas
Características de treino 2 obtidas
Características de treino 3 obtidas
Características de teste 1 obtidas
Características de teste 2 obtidas


#### 5.3.1 Comentários

Após a obtenção dos vetores de características de cada conjunto de treino e teste, eles passarão por algoritmos classificadores para obtenção de modelos que sejam capazes de detectar quando um perfil é realmente associado a outro de forma correta.

## 6. Classificadores

In [20]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

def get_LogisticRegressionKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # C's
    C = [0.001, 0.01, 0.1, 1, 10]
    # Gammas
    solver = ['liblinear']

    # create random grid
    random_grid = {
        'C' : C,
        'solver' : solver
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = LogisticRegression(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0
    )
    return random

def get_LogisticRegression(kfold, scoring):
    return LogisticRegression()

In [21]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

def get_LinearDiscriminantAnalysisKF(kfold, scoring):
    # create random grid
    random_grid = {}
    # Random search of parameters
    random = GridSearchCV(
        estimator = LinearDiscriminantAnalysis(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0
    )
    return random

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

def get_LinearDiscriminantAnalysis(kfold, scoring):
    return LinearDiscriminantAnalysis()

In [22]:
from sklearn.neighbors import KNeighborsClassifier

def get_KNeighborsClassifierKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # N Neighbors's
    n_neighbors = range(2, 10)
    # Weights
    weights = ('uniform', 'distance', )

    # create random grid
    random_grid = {
        'n_neighbors': n_neighbors,
        'weights': weights
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = KNeighborsClassifier(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0
    )
    return random

def get_KNeighborsClassifier(kfold, scoring):
    return KNeighborsClassifier()

In [23]:
from sklearn.tree import DecisionTreeClassifier
import numpy

def get_DecisionTreeClassifierKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # profundidade máxima
    max_depth = [int(x) for x in numpy.linspace(1, 500, num = 10)]
    # número de características em cada split
    max_features = ['auto', 'sqrt']
    max_leaf_nodes = [int(x) for x in numpy.linspace(2, 500, num = 10)]
    min_samples_leaf = [int(x) for x in numpy.linspace(2, 500, num = 10)]

    # create random grid
    random_grid = {
        'min_samples_leaf' : min_samples_leaf,
        'max_leaf_nodes'   : max_leaf_nodes,
        'max_features'     : max_features,
        'max_depth'        : max_depth
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = DecisionTreeClassifier(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0
    )
    return random

def get_DecisionTreeClassifier(kfold, scoring):
    return DecisionTreeClassifier()

In [24]:
from sklearn.naive_bayes import GaussianNB

def get_GaussianNBKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # create random grid
    random_grid = {}
    # Random search of parameters
    random = GridSearchCV(
        estimator = GaussianNB(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0
    )
    return random

def get_GaussianNB(kfold, scoring):
    return GaussianNB()

In [25]:
from sklearn.svm import SVC

def get_SVCKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # C's
    C = [0.001, 0.01, 0.1, 1, 10]
    # Gammas
    gammas = [0.001, 0.01, 0.1, 1]
    # Kernels
    kernels = ['linear']

    # create random grid
    random_grid = {
        'C' : C,
        'gamma' : gammas,
        'kernel' : kernels
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = SVC(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0
    )
    return random

def get_SVC(kfold, scoring):
    return SVC()

In [26]:
from sklearn.ensemble import RandomForestClassifier

def get_RandomForestClassifierKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # número de árvores na floresta aleatória
    n_estimators = [int(x) for x in numpy.linspace(start = 200, stop = 2000, num = 10)]
    # número de características em cada split
    max_features = ['auto', 'sqrt']

    # profundidade máxima
    max_depth = [int(x) for x in numpy.linspace(100, 500, num = 11)]
    max_depth.append(None)
    # create random grid
    random_grid = {
        'n_estimators' : n_estimators,
        'max_features' : max_features,
        'max_depth'    : max_depth
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = RandomForestClassifier(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 2,
        n_jobs = -1
    )
    return random

def get_RandomForestClassifier(kfold, scoring):
    return RandomForestClassifier()

In [27]:
from sklearn.ensemble import AdaBoostClassifier

def get_AdaBoostClassifierKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # número de estimadores
    n_estimators = [int(x) for x in numpy.linspace(start = 50, stop = 2000, num = 10)]
    # taxa de aprendizado
    learning_rate = [.1, 0.05, 0.01, 0.005, 0.001, ]

    # create random grid
    random_grid = {
        'n_estimators': n_estimators,
        'learning_rate': learning_rate
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = AdaBoostClassifier(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0,
    )
    return random

def get_AdaBoostClassifier(kfold, scoring):
    return AdaBoostClassifier()

import xgboost as xgb 

def get_XGBClassifierKF(kfold, scoring):

    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    # número de árvores na floresta aleatória
    n_estimators = [int(x) for x in numpy.linspace(start = 200, stop = 1000, num = 10)]
    # número de características em cada split
    max_features = ['auto', 'sqrt']

    # profundidade máxima
    max_depth = [int(x) for x in numpy.linspace(1, 10, num = 2)]
    max_depth.append(None)
    # create random grid
    random_grid = {
        'n_estimators' : n_estimators,
        'max_features' : max_features,
        'max_depth'    : max_depth,
        'nthread'      : [8],
        'objective':['binary:logistic'],
        'learning_rate': [0.05, 0.1, 0.5, 1, 2, 3, 4, 5], #so called `eta` value
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = xgb.XGBClassifier(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 2,
        n_jobs = -1
    )
    return random
    
    params = {
        "colsample_bytree": uniform(0.7, 0.3),
        "gamma": uniform(0, 0.5),
        "learning_rate": uniform(0.03, 0.3), # default 0.1 
        "max_depth": randint(2, 6), # default 3
        "n_estimators": randint(100, 150), # default 100
        "subsample": uniform(0.6, 0.4)
    }

def get_XGBClassifier():
    return xgb.XGBClassifier()

In [28]:
from sklearn.neural_network import MLPClassifier

def get_MLPClassifierKF(kfold, scoring):
    # Testa para descobrir o melhor conjunto de hiper-parâmetros para o classificador
    solver = ['sgd', 'adam']
    learning_rate = ['constant', 'invscaling']
    momentum = [0, .9]
    nesterovs_momentum = [True, False]
    learning_rate_init = [0.01, 0.2]

    # create random grid
    random_grid = {
        'solver': solver,
        'learning_rate': learning_rate,
        'momentum': momentum,
        'nesterovs_momentum': nesterovs_momentum,
        'learning_rate_init': learning_rate_init
    }
    # Random search of parameters
    random = GridSearchCV(
        estimator = MLPClassifier(),
        param_grid = random_grid,
        cv = kfold,
        scoring = scoring,
        verbose = 0,
    )
    return random

def get_MLPClassifier(kfold, scoring):
    return MLPClassifier()

## 7. Execução do Experimento

In [30]:
#
#    SEM GRIDSEARCHCV
#
import time
from sklearn.model_selection import KFold
from scipy.sparse import coo_matrix
from sklearn.utils import shuffle

scoring = 'accuracy'
inner_kfold = KFold(n_splits = 5, random_state = 42, shuffle = True)

#LISTA DE MODELOS
models_sem_cv = []
models_sem_cv.append(('LR', get_LogisticRegression(inner_kfold, scoring)))
models_sem_cv.append(('LDA', get_LinearDiscriminantAnalysis(inner_kfold, scoring)))
models_sem_cv.append(('K-NN', get_KNeighborsClassifier(inner_kfold, scoring)))
models_sem_cv.append(('DT', get_DecisionTreeClassifier(inner_kfold, scoring)))
models_sem_cv.append(('GNB', get_GaussianNB(inner_kfold, scoring)))
models_sem_cv.append(('SVM', get_SVC(inner_kfold, scoring)))
models_sem_cv.append(('RF', get_RandomForestClassifier(inner_kfold, scoring)))
models_sem_cv.append(('AB', get_AdaBoostClassifier(inner_kfold, scoring)))
models_sem_cv.append(('XGB', get_AdaBoostClassifier(inner_kfold, scoring)))
models_sem_cv.append(('MLP', get_MLPClassifier(inner_kfold, scoring)))


kf = KFold(n_splits=10, shuffle=True, random_state=42)

fold_scores = []
execucao = []

#para cada dataset faço o split do kfold pra não roubar
for dataset_name, features, labels in dt_treinos:
    X_sparse = coo_matrix(features)
    X_train, X_sparse, y_train = shuffle(features, X_sparse, labels)

    X_train = numpy.array(X_train)
    y_train = numpy.array(y_train)

    #para cada modelo
    for model_name, model in models_sem_cv:
        
        #inicio as variaveis
        execution_name   = model_name + " - " + dataset_name
        execution_scores = []
        execution_stats  = {"min": 0, "max": 0, "mean": 0, "median": 0, "std": 0, "fit-time": 0}
        
        #instancio um modelo novo
        if model_name == "LR":
            model = LogisticRegression()
        elif model_name == "LDA":
            model = LinearDiscriminantAnalysis()
        elif model_name == "K-NN":
            model = KNeighborsClassifier()
        elif model_name == "DT":
            model = DecisionTreeClassifier()
        elif model_name == "GNB":
            model = GaussianNB()
        elif model_name == "SVM":
            model = SVC()
        elif model_name == "RF":
            model = RandomForestClassifier()
        elif model_name == "AB":
            model = AdaBoostClassifier()
        elif model_name == "XGB":
            model = xgb.XGBClassifier()
        elif model_name == "MLP":
            model = MLPClassifier()
        
        start = time.time()
        #uso o split do kfold para ser igual entre os modelos
        for train_index, test_index in kf.split(X_train, y_train):
            model.fit(X_train[train_index], y_train[train_index])
            execution_scores.append(model.score(X_train[test_index], y_train[test_index]))
        
        execution_stats["fit-time"]   = time.time() - start
        execution_stats["max"]    = numpy.max(execution_scores)
        execution_stats["min"]    = numpy.min(execution_scores)
        execution_stats["mean"]   = numpy.mean(execution_scores)
        execution_stats["median"] = numpy.median(execution_scores)
        execution_stats["std"]    = numpy.std(execution_scores)
        
        execucao.append((execution_name, model, execution_stats))


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logist

In [31]:
for name, model, scores in execucao:
    print(name)
    print(model.get_params())
    print()

LR - Treino 1_I
{'C': 1.0, 'class_weight': None, 'dual': False, 'fit_intercept': True, 'intercept_scaling': 1, 'l1_ratio': None, 'max_iter': 100, 'multi_class': 'auto', 'n_jobs': None, 'penalty': 'l2', 'random_state': None, 'solver': 'lbfgs', 'tol': 0.0001, 'verbose': 0, 'warm_start': False}

LDA - Treino 1_I
{'n_components': None, 'priors': None, 'shrinkage': None, 'solver': 'svd', 'store_covariance': False, 'tol': 0.0001}

K-NN - Treino 1_I
{'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 5, 'p': 2, 'weights': 'uniform'}

DT - Treino 1_I
{'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_impurity_split': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'presort': 'deprecated', 'random_state': None, 'splitter': 'best'}

GNB - Treino 1_I
{'priors': None, 'var_smoothing': 1e-

In [77]:
import pandas
from sklearn.metrics import classification_report
from sklearn.metrics import precision_recall_fscore_support

dicts = []
for name, model, scores in execucao:
    for teste, features, labels in dt_testes:
        if name[-1] == teste[-1]:
            start = time.time()
            predicted = model.predict(features)
            fit_time = time.time() - start
            report = classification_report(labels, predicted, output_dict = True)
            df = pandas.DataFrame(report).transpose()
            print("{}\t{:08.6f}\t{:08.6f}\t{:08.6f}\t{:08.6f}\t{:08.6f}".format(name + " - " + teste, fit_time, df.iloc[2,0], df.iloc[3,0], df.iloc[3,1], df.iloc[3,2]))


LR - Treino 1_I - Teste 1_I	0.002000	0.941379	0.945335	0.941379	0.941249
LR - Treino 1_I - Teste 2_I	0.002000	0.815988	0.817026	0.806722	0.810073
LDA - Treino 1_I - Teste 1_I	0.002001	0.897701	0.914272	0.897701	0.896668
LDA - Treino 1_I - Teste 2_I	0.001032	0.838612	0.845705	0.849681	0.838493
K-NN - Treino 1_I - Teste 1_I	0.035019	0.896552	0.909037	0.896552	0.895756
K-NN - Treino 1_I - Teste 2_I	0.026953	0.782805	0.779559	0.783028	0.780564
DT - Treino 1_I - Teste 1_I	0.002001	0.927586	0.927607	0.927586	0.927585
DT - Treino 1_I - Teste 2_I	0.001000	0.815988	0.828365	0.800278	0.806200
GNB - Treino 1_I - Teste 1_I	0.001991	0.936782	0.943363	0.936782	0.936546
GNB - Treino 1_I - Teste 2_I	0.002000	0.812971	0.811221	0.806472	0.808346
SVM - Treino 1_I - Teste 1_I	0.022995	0.889655	0.907900	0.889655	0.888407
SVM - Treino 1_I - Teste 2_I	0.021005	0.761689	0.759448	0.763556	0.759915
RF - Treino 1_I - Teste 1_I	0.019013	0.955172	0.955869	0.955172	0.955155
RF - Treino 1_I - Teste 2_I	0.016003	0.83