# Linkage using approximate matching

## Lib

In [1]:
import sys
sys.path.append("..")

import os
import pandas as pd
import numpy as np
import recordlinkage
from recordlinkage.index import SortedNeighbourhood

import lib.utils as utils

## Set paths and load data

In [5]:
data = os.path.join("..", "..", "..", "data", "PARQUET_TRANSFORMED")

vacineja_df = pd.read_parquet(os.path.join(data, "VACINEJA.parquet"))
covid_obito_df = pd.read_parquet(os.path.join(data, "OBITO_COVID.parquet"))
cart_obito_df = pd.read_parquet(os.path.join(data, "OBITO_CARTORIO.parquet"))

In [13]:
vacineja_df[:1]

Unnamed: 0,nome,cpf,cns,data_nascimento,nome_mae,cep,bairro,sexo,created_at,situacao
0,FRANCISCA ANA MARIA DE MELO LIMA,67698255387,,1974-03-14,TEREZA ARAUJO DE MELO,60450635,NÃO INFOMRADO,F,2022-01-09 19:04:36,RECEBEU AO MENOS UMA DOSE


In [11]:
covid_obito_df[:1]

Unnamed: 0,ORDEM(OBITO COVID),numerodo,NOME(OBITO COVID),DATA_NASCIMENTO(OBITO COVID),SEXO(OBITO COVID),EVOLUCAO(OBITO COVID),NOME_MAE(OBITO COVID),IDADE_ANOS(OBITO COVID),FX_ETARIA(OBITO COVID),data_pri_sintomas_nova(OBITO COVID),BAIRRO_RESIDENCIA(OBITO COVID),data_obito(OBITO COVID),ANO OBITO(OBITO COVID)
1,69.0,29623644,JOSE MARIA DUTRA,1947-12-05,MASC,OBITO,RAIMUNDA PEREIRA ALVES,72.0,70 A 74 ANOS,2020-03-15,BOM FUTURO,2020-03-26,2020


In [12]:
cart_obito_df[:1]

Unnamed: 0,index original(CARTORIOS),nome(CARTORIOS),livro(CARTORIOS),folha(CARTORIOS),termo(CARTORIOS),data nascimento(CARTORIOS),data falecimento(CARTORIOS),genitor 1(CARTORIOS),genitor 2(CARTORIOS),do(CARTORIOS),...,documento falecido(CARTORIOS),naturalidade(CARTORIOS),sigla estado naturalidade(CARTORIOS),cpf(CARTORIOS),rg(CARTORIOS),cpf valido(CARTORIOS),cpf novo(CARTORIOS),cpf novo valido(CARTORIOS),cpf,do_8
0,0,MELQUISEDEQUE ALVES CAVALCANTE DA SILVA,13.0,249.0,6301.0,1999-05-20,2020-01-01,Mário Jorge da Silva Paixão,Maria Rejane Alves Soares,296264407.0,...,,,,3941885359,,True,3941885000.0,True,3941885359,29626440


In [14]:
covid_obito_df = covid_obito_df.merge(cart_obito_df[["do_8", "cpf"]], left_on="numerodo", right_on="do_8", how="left").drop("do_8", axis=1)
covid_obito_df[:1]

Unnamed: 0,ORDEM(OBITO COVID),numerodo,NOME(OBITO COVID),DATA_NASCIMENTO(OBITO COVID),SEXO(OBITO COVID),EVOLUCAO(OBITO COVID),NOME_MAE(OBITO COVID),IDADE_ANOS(OBITO COVID),FX_ETARIA(OBITO COVID),data_pri_sintomas_nova(OBITO COVID),BAIRRO_RESIDENCIA(OBITO COVID),data_obito(OBITO COVID),ANO OBITO(OBITO COVID),cpf
0,69.0,29623644,JOSE MARIA DUTRA,1947-12-05,MASC,OBITO,RAIMUNDA PEREIRA ALVES,72.0,70 A 74 ANOS,2020-03-15,BOM FUTURO,2020-03-26,2020,11136197753


## Process data for linkage

In [17]:
vacineja_df["nome"] = vacineja_df["nome"].apply(lambda x: utils.replace_string(x, sep=" "))
vacineja_df["nome_mae"] = vacineja_df["nome_mae"].apply(lambda x: utils.replace_string(x, sep=" "))

vacineja_df["primeiro_nome"] = vacineja_df["nome"].apply(lambda x: x.split(" ")[0] if pd.notna(x) and len(x.split(" "))>0 else np.nan)
vacineja_df["segundo_nome"] = vacineja_df["nome"].apply(lambda x: x.split(" ")[1] if pd.notna(x) and len(x.split(" "))>1 else np.nan)
vacineja_df["complemento_nome"] = vacineja_df["nome"].apply(lambda x: ' '.join(x.split(" ")[2:]) if pd.notna(x) and len(x.split(" "))>2 else np.nan)
vacineja_df["primeiro_nome_mae"] = vacineja_df["nome_mae"].apply(lambda x: x.split(" ")[0] if pd.notna(x) and len(x.split(" "))>0 else np.nan)
vacineja_df["segundo_nome_mae"] = vacineja_df["nome_mae"].apply(lambda x: x.split(" ")[1] if pd.notna(x) and len(x.split(" "))>1 else np.nan)
vacineja_df["complemento_nome_mae"] = vacineja_df["nome_mae"].apply(lambda x: ' '.join(x.split(" ")[2:]) if pd.notna(x) and len(x.split(" "))>2 else np.nan)

vacineja_df["cpf"] = vacineja_df["cpf"].copy()
vacineja_df["bairro"] = vacineja_df["bairro"].copy()
vacineja_df["sexo"] = vacineja_df["sexo"].copy()

In [15]:
vacineja_df[:2]

Unnamed: 0,nome,cpf,cns,data_nascimento,nome_mae,cep,bairro,sexo,created_at,situacao
0,FRANCISCA ANA MARIA DE MELO LIMA,67698255387,,1974-03-14,TEREZA ARAUJO DE MELO,60450635,NÃO INFOMRADO,F,2022-01-09 19:04:36,RECEBEU AO MENOS UMA DOSE
1,WASTERLAY BARROSO PEIXOTO,58931961391,,1974-04-02,MARLUCIA BEZERRA BARROSO,60864260,CAJAZEIRAS,M,2022-01-09 19:04:36,RECEBEU AO MENOS UMA DOSE


In [19]:
covid_obito_df["primeiro_nome"] = covid_obito_df["NOME(OBITO COVID)"].apply(lambda x: x.split(" ")[0] if pd.notna(x) and len(x.split(" "))>0 else np.nan)
covid_obito_df["segundo_nome"] = covid_obito_df["NOME(OBITO COVID)"].apply(lambda x: x.split(" ")[1] if pd.notna(x) and len(x.split(" "))>1 else np.nan)
covid_obito_df["complemento_nome"] = covid_obito_df["NOME(OBITO COVID)"].apply(lambda x: ' '.join(x.split(" ")[2:]) if pd.notna(x) and len(x.split(" "))>2 else np.nan)
covid_obito_df["primeiro_nome_mae"] = covid_obito_df["NOME_MAE(OBITO COVID)"].apply(lambda x: x.split(" ")[0] if pd.notna(x) and len(x.split(" "))>0 else np.nan)
covid_obito_df["segundo_nome_mae"] = covid_obito_df["NOME_MAE(OBITO COVID)"].apply(lambda x: x.split(" ")[1] if pd.notna(x) and len(x.split(" "))>1 else np.nan)
covid_obito_df["complemento_nome_mae"] = covid_obito_df["NOME_MAE(OBITO COVID)"].apply(lambda x: ' '.join(x.split(" ")[2:]) if pd.notna(x) and len(x.split(" "))>2 else np.nan)

covid_obito_df["sexo"] = covid_obito_df["SEXO(OBITO COVID)"].map({"MASC": "M", "FEM": "F", "FEM ": "F", "MAS": "M", "MASC ": "M"})
covid_obito_df["bairro"] = covid_obito_df["BAIRRO_RESIDENCIA(OBITO COVID)"].apply(lambda x: utils.replace_string(x, sep=" ") if pd.notna(x) else np.nan)
covid_obito_df["data_nascimento"] = covid_obito_df["DATA_NASCIMENTO(OBITO COVID)"].copy()
covid_obito_df["cpf"] = covid_obito_df["cpf"].copy()

In [20]:
covid_obito_df[:1]

Unnamed: 0,ORDEM(OBITO COVID),numerodo,NOME(OBITO COVID),DATA_NASCIMENTO(OBITO COVID),SEXO(OBITO COVID),EVOLUCAO(OBITO COVID),NOME_MAE(OBITO COVID),IDADE_ANOS(OBITO COVID),FX_ETARIA(OBITO COVID),data_pri_sintomas_nova(OBITO COVID),...,cpf,primeiro_nome,segundo_nome,complemento_nome,primeiro_nome_mae,segundo_nome_mae,complemento_nome_mae,sexo,bairro,data_nascimento
0,69.0,29623644,JOSE MARIA DUTRA,1947-12-05,MASC,OBITO,RAIMUNDA PEREIRA ALVES,72.0,70 A 74 ANOS,2020-03-15,...,11136197753,JOSE,MARIA,DUTRA,RAIMUNDA,PEREIRA,ALVES,M,BOM FUTURO,1947-12-05


## LINKAGE

In [53]:
# --> Set columns to perform the approximate matching
colsforlink = ["primeiro_nome_mae", "segundo_nome_mae", "complemento_nome_mae", "data_nascimento",
               "sexo", "primeiro_nome", "segundo_nome", "complemento_nome", "bairro", "cpf"]
vacineja_link = vacineja_df[colsforlink].reset_index(drop=True)
covid_link = covid_obito_df[colsforlink].reset_index(drop=True)

In [57]:
# --> Blocking using the Sorted Neighborhood algorithm on the first name of the mother (window = 3)
#indexer_local = recordlinkage.Index()
#indexer_local.add(SortedNeighbourhood("segundo_nome", "segundo_nome", window=1))

candidate_links

MultiIndex([(    0,  304),
            (    0, 2119),
            (    0, 3914),
            (    0, 9110),
            (    0, 9177),
            ( 6150,  304),
            ( 6150, 2119),
            ( 6150, 3914),
            ( 6150, 9110),
            ( 6150, 9177),
            ...
            (48243, 3237),
            (48247, 3799),
            (48356, 2173),
            (48575, 8712),
            (48795,  600),
            (48795, 9050),
            (48974,  919),
            (49312, 2737),
            (49437, 6738),
            (49655, 9553)],
           length=4757147)

In [66]:
pd.concat([lst[0].loc[0], covid_link.loc[9177]], axis=1)

Unnamed: 0,0,9177
primeiro_nome_mae,TEREZA,AURELIA
segundo_nome_mae,ARAUJO,DEZENGRINI
complemento_nome_mae,DE MELO,
data_nascimento,1974-03-14 00:00:00,1942-08-01 00:00:00
sexo,F,F
primeiro_nome,FRANCISCA,ANELI
segundo_nome,ANA,ANA
complemento_nome,MARIA DE MELO LIMA,GLOWACKI
bairro,NÃO INFOMRADO,ALDEOTA
cpf,67698255387,60355972034


In [None]:
lst = np.split(vacineja_link, indices_or_sections=list(np.arange(50000, 2300000, 50000)))
print(lst[0], lst[0].columns)
indexer_local = recordlinkage.Index()
indexer_local.add(SortedNeighbourhood("data_nascimento", "data_nascimento", window=3))
#indexer_local.add(SortedNeighbourhood("sexo", "sexo", window=1))
candidate_links = indexer_local.index(lst[0], covid_link)
print(candidate_links.shape)

In [27]:
# --> Blocking using the Sorted Neighborhood algorithm on the first name of the mother (window = 3)
indexer_local = recordlinkage.Index()
#indexer_local.block("data_nascimento", "data_nascimento")
indexer_local.add(SortedNeighbourhood("segundo_nome", "segundo_nome", window=1))
indexer_local.add(SortedNeighbourhood("sexo", "sexo", window=1))
candidate_links = indexer_local.index(vacineja_link, covid_link)
print(f"Number of pairs: {len(candidate_links)}")

MemoryError: Unable to allocate 1.60 GiB for an array with shape (215278506,) and data type int64

In [63]:
compare_cl = recordlinkage.Compare()
compare_cl.string("primeiro_nome_mae", "primeiro_nome_mae", method="jarowinkler", threshold=0.8, label="primeiro_nome_mae")
compare_cl.string("segundo_nome_mae", "segundo_nome_mae", method="jarowinkler", threshold=0.8, label="segundo_nome_mae")
compare_cl.string("complemento_nome_mae", "complemento_nome_mae", method="jarowinkler", threshold=0.8, label="complemento_nome_mae")
compare_cl.string("primeiro_nome", "primeiro_nome", method="jarowinkler", threshold=0.8, label="primeiro_nome")
compare_cl.string("segundo_nome", "segundo_nome", method="jarowinkler", threshold=0.8, label="segundo_nome")
compare_cl.string("complemento_nome", "complemento_nome", method="jarowinkler", threshold=0.8, label="complemento_nome")
compare_cl.string("bairro", "bairro", method="jarowinkler", threshold=0.70, label="bairro")
compare_cl.exact("sexo", "sexo", label="sexo")
compare_cl.exact("cpf", "cpf", label="cpf")
#compare_cl.date("data_nascimento", "data_nascimento", label="nascimento")

features = compare_cl.compute(candidate_links, vacineja_link, covid_link)

In [64]:
features["SOMA"] = features[colsforlink].sum(axis=1)

In [67]:
features["SOMA"].value_counts().sort_index()

0.0    444948
1.0    583568
2.0    246457
3.0     51128
4.0      6485
5.0       894
6.0       178
7.0       607
8.0       836
Name: SOMA, dtype: int64

In [71]:
836+607+178+894

2515

In [73]:
features[features["SOMA"]>4]

Unnamed: 0,Unnamed: 1,primeiro_nome_mae,segundo_nome_mae,complemento_nome_mae,primeiro_nome,segundo_nome,complemento_nome,bairro,sexo,SOMA
1511157,9005,1.0,1.0,1.0,1.0,0.0,0.0,0.0,1,5.0
1011497,5547,1.0,1.0,1.0,0.0,0.0,0.0,1.0,1,5.0
1924500,7275,0.0,1.0,1.0,1.0,0.0,1.0,0.0,1,5.0
469011,7593,1.0,0.0,1.0,1.0,1.0,0.0,0.0,1,5.0
1733569,7593,1.0,0.0,0.0,1.0,1.0,1.0,0.0,1,5.0
...,...,...,...,...,...,...,...,...,...,...
1366418,6261,1.0,1.0,1.0,1.0,0.0,0.0,0.0,1,5.0
944900,5155,1.0,1.0,1.0,1.0,0.0,0.0,0.0,1,5.0
2126213,9305,1.0,0.0,1.0,1.0,1.0,1.0,0.0,1,6.0
747609,240,1.0,0.0,1.0,0.0,1.0,1.0,0.0,1,5.0


In [76]:
vacineja_link.loc[1511157]

primeiro_nome_mae                         MARIA
segundo_nome_mae                             DO
complemento_nome_mae    SOCORRO DA SILVA ARAUJO
sexo                                          M
primeiro_nome                          ERANILDO
segundo_nome                                 DA
complemento_nome                   SILVA ARAUJO
bairro                            NÃO INFOMRADO
Name: 1511157, dtype: object

In [75]:
vacineja_link.loc[9005]

primeiro_nome_mae        TEREZINHA
segundo_nome_mae             GOMES
complemento_nome_mae      DA SILVA
sexo                             M
primeiro_nome              LUCELIO
segundo_nome                 GOMES
complemento_nome          DA SILVA
bairro                  JANGURUSSU
Name: 9005, dtype: object