### Chamada de bibliotecas

In [39]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import StringType
from pyspark.sql.types import IntegerType
from pyspark.sql.types import DoubleType
import pandas as pd

# ROTEIRO PARA LINKAGE

### Lendo e visualizando as bases

In [2]:
datasetA = spark.read.csv('dataset_a_v3.csv', header=True, sep=';')
datasetB = spark.read.csv('dataset_b_v3.csv', header=True, sep=';')

In [5]:
print(datasetA.count())
print(datasetB.count())
datasetA.limit(5).show()
datasetB.limit(5).show()

100
20
+-----+--------------------+---------+------+--------------------+--------+---------------+
|cod_a|              nome_a|     dn_a|sexo_a|               mae_a|cidade_a|primeiro_nome_a|
+-----+--------------------+---------+------+--------------------+--------+---------------+
|    1|EDSON GOMES    DO...|1-01-2007|     1|WEDILAINE VIEIRA ...|  280030|          EDSON|
|    2|ALESSANDRA KAUANÈ...|1-02-2008|     2|VITORIA LUCIA AMO...|  280740|     ALESSANDRA|
|    3|DAVI GONÇALVES DA...|1-04-2007|     1| VILMA GOMES MOREIRA|  280030|           DAVI|
|    4|ALISON DE JESUS T...|1-05-2007|     2|VERA LUCIA FRANCI...|  280030|         ALISON|
|    5|DANNYEL COSTA DE ...|1-12-2006|     1|VANILDA TRINDADE ...|  280030|        DANNYEL|
+-----+--------------------+---------+------+--------------------+--------+---------------+

+-----+--------------------+----------+------+--------------------+--------+---------------+
|cod_b|              nome_b|      dn_b|sexo_b|               mae_b|cida

### Criando colunas com codigos foneticos

In [8]:
!pip install jellyfish

Collecting jellyfish
  Downloading jellyfish-0.8.2-cp38-cp38-manylinux2014_x86_64.whl (94 kB)
[K     |████████████████████████████████| 94 kB 398 kB/s eta 0:00:011
[?25hInstalling collected packages: jellyfish
Successfully installed jellyfish-0.8.2


In [9]:
import jellyfish

In [10]:
def criaMetaphone(col):
    return jellyfish.metaphone(col)
udf_criaMetaphone = F.udf(criaMetaphone, StringType())

In [11]:
datasetA = datasetA.withColumn('phonetic_nome_a', udf_criaMetaphone(F.col('nome_a')))
datasetA = datasetA.withColumn('phonetic_mae_a', udf_criaMetaphone(F.col('mae_a')))
datasetB = datasetB.withColumn('phonetic_nome_b', udf_criaMetaphone(F.col('nome_b')))
datasetB = datasetB.withColumn('phonetic_mae_b', udf_criaMetaphone(F.col('mae_b')))

datasetA.limit(3).show()
datasetB.limit(3).show()

+-----+--------------------+---------+------+--------------------+--------+---------------+--------------------+----------------+
|cod_a|              nome_a|     dn_a|sexo_a|               mae_a|cidade_a|primeiro_nome_a|     phonetic_nome_a|  phonetic_mae_a|
+-----+--------------------+---------+------+--------------------+--------+---------------+--------------------+----------------+
|    1|EDSON GOMES    DO...|1-01-2007|     1|WEDILAINE VIEIRA ...|  280030|          EDSON|    ETSN KMS TS SNTS|     WTLN FR BSR|
|    2|ALESSANDRA KAUANÈ...|1-02-2008|     2|VITORIA LUCIA AMO...|  280740|     ALESSANDRA|ALSNTR KN SS TS SNTS|FTR LX AMRM T SS|
|    3|DAVI GONÇALVES DA...|1-04-2007|     1| VILMA GOMES MOREIRA|  280030|           DAVI|     TF KNKLFS T  RX|     FLM KMS MRR|
+-----+--------------------+---------+------+--------------------+--------+---------------+--------------------+----------------+

+-----+--------------------+----------+------+--------------------+--------+-------------

### Criando coluna com último nome

In [12]:
def criaUltimoNome(col):
    return col.split(' ')[-1]
udf_criaUltimoNome = F.udf(criaUltimoNome, StringType())

In [13]:
datasetA = datasetA.withColumn('ultimo_nome_a', udf_criaUltimoNome(F.col('nome_a')))
datasetB = datasetB.withColumn('ultimo_nome_b', udf_criaUltimoNome(F.col('nome_b')))

datasetA.limit(3).show()
datasetB.limit(3).show()

+-----+--------------------+---------+------+--------------------+--------+---------------+--------------------+----------------+-------------+
|cod_a|              nome_a|     dn_a|sexo_a|               mae_a|cidade_a|primeiro_nome_a|     phonetic_nome_a|  phonetic_mae_a|ultimo_nome_a|
+-----+--------------------+---------+------+--------------------+--------+---------------+--------------------+----------------+-------------+
|    1|EDSON GOMES    DO...|1-01-2007|     1|WEDILAINE VIEIRA ...|  280030|          EDSON|    ETSN KMS TS SNTS|     WTLN FR BSR|       SANTOS|
|    2|ALESSANDRA KAUANÈ...|1-02-2008|     2|VITORIA LUCIA AMO...|  280740|     ALESSANDRA|ALSNTR KN SS TS SNTS|FTR LX AMRM T SS|       SANTOS|
|    3|DAVI GONÇALVES DA...|1-04-2007|     1| VILMA GOMES MOREIRA|  280030|           DAVI|     TF KNKLFS T  RX|     FLM KMS MRR|        ROCHA|
+-----+--------------------+---------+------+--------------------+--------+---------------+--------------------+----------------+-------

### Separando atributos para linkage

In [14]:
datasetA = datasetA.select(['cod_a', 'dn_a', 
                            'sexo_a', 'cidade_a', 
                            'primeiro_nome_a', 'ultimo_nome_a', 
                            'phonetic_nome_a', 'phonetic_mae_a'])

datasetB = datasetB.select(['cod_b', 'dn_b', 
                            'sexo_b', 'cidade_b', 
                            'primeiro_nome_b', 'ultimo_nome_b', 
                            'phonetic_nome_b', 'phonetic_mae_b']) 

### Criando dataset de comparação

In [15]:
dataset_linkage = datasetA.crossJoin(datasetB)

In [16]:
dataset_linkage.count()
dataset_linkage.limit(5).show()

+-----+---------+------+--------+---------------+-------------+----------------+--------------+-----+----------+------+--------+---------------+-------------+--------------------+------------------+
|cod_a|     dn_a|sexo_a|cidade_a|primeiro_nome_a|ultimo_nome_a| phonetic_nome_a|phonetic_mae_a|cod_b|      dn_b|sexo_b|cidade_b|primeiro_nome_b|ultimo_nome_b|     phonetic_nome_b|    phonetic_mae_b|
+-----+---------+------+--------+---------------+-------------+----------------+--------------+-----+----------+------+--------+---------------+-------------+--------------------+------------------+
|    1|1-01-2007|     1|  280030|          EDSON|       SANTOS|ETSN KMS TS SNTS|   WTLN FR BSR|    1|09/13/2007|     1|  280030|            EDU|      TAVACHO|          ET PRR TFX|    SMN ANTN RTRKS|
|    1|1-01-2007|     1|  280030|          EDSON|       SANTOS|ETSN KMS TS SNTS|   WTLN FR BSR|    2|05/17/2007|     1|  280030|           JOSE|       SANTOS| JS IKR SNTN TS SNTS|      NKLN FTM MXT|
|    

### Criando função de comparação

In [20]:
import sys
if sys.version_info[0] >= 3:
    unicode = str

In [53]:
def compare(cod_a, dn_a, sexo_a, cidade_a, primeiro_nome_a, ultimo_nome_a, phonetic_nome_a, phonetic_mae_a,
           cod_b, dn_b, sexo_b, cidade_b, primeiro_nome_b, ultimo_nome_b, phonetic_nome_b, phonetic_mae_b):
    sim = 0
    
    # Comparando atributos nominais
    sim_nominais = jellyfish.jaro_winkler(unicode(primeiro_nome_a), unicode(primeiro_nome_b))
    sim_nominais += jellyfish.jaro_winkler(unicode(ultimo_nome_a), unicode(ultimo_nome_b))
    sim_nominais += jellyfish.jaro_winkler(unicode(phonetic_nome_a), unicode(phonetic_nome_b))
    sim_nominais += jellyfish.jaro_winkler(unicode(phonetic_mae_a), unicode(phonetic_mae_b))
    
    # Comparando categorias
    # Note que Hamming é uma distancia, então para saber a similiarade, precisamos
    # encontrar o complemento da medida. 
    sim_cat = 1 - (jellyfish.hamming_distance(unicode(sexo_a), unicode(sexo_b)))
    sim_cat += 1 - (jellyfish.hamming_distance(unicode(dn_a), unicode(sexo_b)))
    sim_cat += 1 - (jellyfish.hamming_distance(unicode(cidade_a), unicode(cidade_b)))
    
    # Media aritmetica simples
    sim = str(abs(float(sim_nominais + sim_cat)/7))
    
    return sim
udf_compare = F.udf(compare, StringType())

### Rodando comparação

In [54]:
result_linkage = dataset_linkage.withColumn('similaridade', udf_compare(F.col('cod_a'), F.col('dn_a'), F.col('sexo_a'), F.col('cidade_a'), F.col('primeiro_nome_a'), F.col('ultimo_nome_a'), F.col('phonetic_nome_a'), F.col('phonetic_mae_a'),
                                                                       F.col('cod_b'), F.col('dn_b'), F.col('sexo_b'), F.col('cidade_b'), F.col('primeiro_nome_b'), F.col('ultimo_nome_b'), F.col('phonetic_nome_b'), F.col('phonetic_mae_b')))

In [55]:
result_linkage.select(['cod_a', 'cod_b', 'similaridade']).show()

+-----+-----+-------------------+
|cod_a|cod_b|       similaridade|
+-----+-----+-------------------+
|    1|    1|0.37114254792826223|
|    1|    2| 0.3134847399884994|
|    1|    3| 0.3117243867243867|
|    1|    4| 0.4045772349343778|
|    1|    5|0.37763570074494446|
|    1|    6|  0.971446608946609|
|    1|    7| 0.4313893117464546|
|    1|    8| 0.3489744382601526|
|    1|    9| 0.7393320964749536|
|    1|   10| 0.5752905824334397|
|    1|   11| 0.6647277092655245|
|    1|   12|  0.697595856524428|
|    1|   13|0.43655540366066686|
|    1|   14| 0.8468892218892219|
|    1|   15| 0.7126623376623377|
|    1|   16|0.34705988455988457|
|    1|   17|0.48796897546897544|
|    1|   18| 0.6880837183358192|
|    1|   19|0.40749012891870035|
|    1|   20| 0.7138107263107264|
+-----+-----+-------------------+
only showing top 20 rows



In [62]:
datamart = result_linkage.orderBy(['similaridade'], ascending=False).dropDuplicates(['cod_b'])

In [63]:
datamart.count()

20

In [66]:
datamart.select(['cod_a', 'primeiro_nome_a', 'cod_b', 'primeiro_nome_b', 'similaridade']).show()

+-----+---------------+-----+---------------+------------------+
|cod_a|primeiro_nome_a|cod_b|primeiro_nome_b|      similaridade|
+-----+---------------+-----+---------------+------------------+
|   78|           JOSE|    7|         FELIPE| 1.143372562700294|
|   22|          LUCAS|   15|         JOSEFA|1.1344250778461304|
|   52|          DAVID|   11|          LUCAS|1.2207842111203457|
|   62|        MAYLANA|    3|           JOSE|1.2613997113997115|
|   78|           JOSE|    8|           KAIO|1.2331665999733228|
|   78|           JOSE|   16|         DANILO|1.1657329598506068|
|   62|        MAYLANA|    5|           LEON|1.1391202945824794|
|   66|         EMILLY|   18|          PLABO|1.1578609221466363|
|   68|          EVYLI|   17|         NATHAN|1.2574726860441146|
|   16|            EDU|    6|           JOAO|1.2056122448979594|
|   62|        MAYLANA|   19|       JEREMIAS|1.1350102278673708|
|   78|           JOSE|    9|          MARIA|1.2543484060290784|
|   60|        LARYSSA|  

# CALCULADORA DE ACURÁCIA

In [72]:
# Let us consider a cuttoff point set as 0.85
cutoff = 0.5

# sorting and deduplicating the resulting dataset
data = datamart.withColumn('similaridade', F.col('similaridade').cast(DoubleType()))
data = datamart.orderBy('similaridade').dropDuplicates(['cod_b'])
data = datamart.withColumn('match', F.when(F.col('similaridade') >= cutoff, '1').otherwise('0'))

In [73]:
def inspect_pairs(cod_a, cod_b, match):
    if match == '1':
        if cod_a == cod_b:
            return "TP"
        else:
            return "FP"
    else:
        if cod_a != cod_b:
            return "TN"
        else: 
            return "FN"
udf_inspect_pairs = F.udf(inspect_pairs, StringType())

In [74]:
data = data.withColumn('perf', udf_inspect_pairs(F.col('cod_a'), F.col('cod_b'), F.col('match')))

In [None]:
dic_results = {}
TP = data.filter(F.col('perf') == "TP").count()
TN = data.filter(F.col('perf') == "TN").count()
FP = data.filter(F.col('perf') == "FP").count()
FN = data.filter(F.col('perf') == "FN").count()

print(TP, TN, FP, FN)

In [None]:
dic_results['accuracy'] =  float(TP + TN) / (FP + TP + FN + TN)
dic_results['ppv'] = float(TP) / (TP + FP)
dic_results['npv'] = float(TN) / (TN + FN)
dic_results['sens'] = float(TP) / (TP + FN)
dic_results['spec'] = float(TN) / (TN + FP)

In [None]:
final_results = pd.DataFrame(dic_results, index=[0])

In [None]:
final_results