# Fuzzy string matching
> Comparando strings e aproximando igualdades

- toc: true 
- badges: true
- comments: true
- categories: [demo, fuzzy string matching, nlp]
- image: https://www.the-automator.com/wp-content/uploads/2016/01/fuzzy.gif

# Introdu√ß√£o

V√°rias vezes, n√≥s temos texto como parte dos nossos dados (strings). Em v√°rias aplica√ß√µes (n√£o s√≥ em machine learning), esses dados vem de usu√°rios - quando voc√™ preenche um formul√°rio, coloca seu nome, endere√ßo, etc.

O problema √© que muitas pessoas n√£o escrevem os dados igual. Por exemplo, eu ja vi meu nome escrito como `murilo`, `Murilo`, `murilio`, `murillo`, `Murilo`, `Mr. Murilo`, etc. Mas todos essas strings deveriam se referir pra mesma coisa. Como que a gente pode decidir se esses s√£o iguais ou n√£o?

# Fuzzy string matching

![](https://media.giphy.com/media/dB1CUdNMPn4aVaISWe/giphy.gif)

Os algoritmos que resolvem esse problema se chamam [`fuzzy string matching`](https://en.wikipedia.org/wiki/Approximate_string_matching), ou aproxima√ß√µes em compara√ß√µes de strings. Um algoritmo popular √© a [dist√¢ncia Levenshtein](https://pt.wikipedia.org/wiki/Dist%C3%A2ncia_Levenshtein), que basicamente vai computando quantas altera√ß√µes voc√™ teria de fazer entre as duas strings. Por exemplo, indo de `kitten` para `sitting` (exemplo do [Wikipedia](https://pt.wikipedia.org/wiki/Dist%C3%A2ncia_Levenshtein):

$$kitten \rightarrow \textbf{s}itten\rightarrow sitt\textbf{i}n \rightarrow sittin\textbf{g}$$

A dist√¢ncia Levenshtein nesse caso √© 3, porque temos 3 transforma√ß√µes entre a palavra de origem e a palavra de destino:

1. Substitui√ß√£o de `k` por `s`
2. Substitui√ß√£o de `e` por `i`
3. inser√ß√£o de `g` no final

E essa √© a id√©ia principal (e passando por cima de alguns detalhes üòÖ). Simples, n√©? O algoritmo tamb√©m √© implementado com recurs√£o por efici√™ncia, mas qu√£o efficiente √© esse algoritmo? Na vida real (especialmente em machine learning), n√≥s temos muitos dados, ent√£o √© importante vermos como que esse algoritmo escala. Isso √©, quanto tempo demora/quanta mem√≥ria vamos usar enquando o volume de dados aumenta?

## [`FuzzyWuzzy`](https://github.com/seatgeek/fuzzywuzzy)

[`FuzzyWuzzy`](https://github.com/seatgeek/fuzzywuzzy) √© uma biblioteca em python (bem popular) que implementa esse algoritmo. Al√©m disso, o pacote tamb√©m oferece uma vers√£o mais r√°pida que faz algumas aproxima√ß√µes. Vamos ver como funciona o API.

In [1]:
# hide
!pip install 'fuzzywuzzy[speedup]' > /dev/null

In [2]:
# exemplo da documenta√ß√£o da biblioteca
from fuzzywuzzy import fuzz, process

choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]

In [3]:
%timeit process.extract("new york jets", choices, limit=2)  # s√≥ pra registrar o tempo
process.extract("new york jets", choices, limit=2)

89.3 ¬µs ¬± 1.1 ¬µs per loop (mean ¬± std. dev. of 7 runs, 10000 loops each)


[('New York Jets', 100), ('New York Giants', 79)]

In [4]:
%timeit process.extractOne("cowboys", choices)  # s√≥ pra registrar o tempo
process.extractOne("cowboys", choices)

191 ¬µs ¬± 1.45 ¬µs per loop (mean ¬± std. dev. of 7 runs, 10000 loops each)


('Dallas Cowboys', 90)

E √© isso! Mas mais uma vez, quanto tempo ser√° que demora quando temos mais dados? Vamos ver.

## Conectando datasets

Um outro caso que √© importante √© quando temos dois datasets (tabelas nesse caso), algumas colunas tem os mesmos dados, mas elas est√£o escritos de maneiras diferentes! Ou ent√£o, quando os dados se repetem, e temos que deduplicar os dados. Isso acontece por exemplo quando o usu√°rio se registra mas coloca um email ou nome errado, ent√£o preenche o formul√°rio de novo. Vamos ver um exemplo.

In [5]:
# hide
!pip install recordlinkage > /dev/null

In [6]:
import pandas as pd
from recordlinkage.datasets import load_febrl1

df = load_febrl1()
df.head()

Unnamed: 0_level_0,given_name,surname,street_number,address_1,address_2,suburb,postcode,state,date_of_birth,soc_sec_id
rec_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
rec-223-org,,waller,6.0,tullaroop street,willaroo,st james,4011,wa,19081209,6988048
rec-122-org,lachlan,berry,69.0,giblin street,killarney,bittern,4814,qld,19990219,7364009
rec-373-org,deakin,sondergeld,48.0,goldfinch circuit,kooltuo,canterbury,2776,vic,19600210,2635962
rec-10-dup-0,kayla,harrington,,maltby circuit,coaling,coolaroo,3465,nsw,19150612,9004242
rec-227-org,luke,purdon,23.0,ramsay place,mirani,garbutt,2260,vic,19831024,8099933


Vamos focar no nome completo, ou seja o `given_name` e `surname`

In [7]:
# collapse
df[["given_name", "surname"]] = df[["given_name", "surname"]].fillna("")
df["full_name"] = df["given_name"] + " " + df["surname"]
df = df[["full_name"]].reset_index()
df.head()

Unnamed: 0,rec_id,full_name
0,rec-223-org,waller
1,rec-122-org,lachlan berry
2,rec-373-org,deakin sondergeld
3,rec-10-dup-0,kayla harrington
4,rec-227-org,luke purdon


Vamos fazer todas as compara√ß√µes poss√≠veis! Esse dataset tem s√≥ 500 entradas ent√£o n√£o tem muito problema

In [8]:
# collapse
df = df.merge(df, how="cross").sample(
    frac=1, random_state=42
)  # cria todas as combina√ß√µes e depois mistura as linhas
df = df[
    df["full_name_x"] != df["full_name_y"]
]  # vamos retirar as que s√£o exatamente iguais
df = df[["rec_id_x", "rec_id_y", "full_name_x", "full_name_y"]].reset_index(
    drop=True
)  # reorganizando as colunas
df["names"] = pd.Series(
    zip(df["full_name_x"], df["full_name_y"])
)  # criando a coluna pra comparar os nomes
df.head()

Unnamed: 0,rec_id_x,rec_id_y,full_name_x,full_name_y,names
0,rec-498-dup-0,rec-372-dup-0,claire crook,talia ho,"(claire crook, talia ho)"
1,rec-484-org,rec-220-org,jacynta hoffman,tyler heerey,"(jacynta hoffman, tyler heerey)"
2,rec-410-dup-0,rec-261-dup-0,sachin connerty,wilde,"(sachin connerty, wilde)"
3,rec-54-org,rec-246-dup-0,emiily morrison,burford jack,"(emiily morrison, burford jack)"
4,rec-370-dup-0,rec-386-dup-0,rourke webv,dylan dolby,"(rourke webv, dylan dolby)"


E agora podemos computar o algoritmo!

In [9]:
%%time
df["fuzzywuzzy"] = df["names"].apply(lambda x: fuzz.ratio(x[0], x[1]))
df.head()

CPU times: user 2.94 s, sys: 59.6 ms, total: 3 s
Wall time: 3.03 s


Unnamed: 0,rec_id_x,rec_id_y,full_name_x,full_name_y,names,fuzzywuzzy
0,rec-498-dup-0,rec-372-dup-0,claire crook,talia ho,"(claire crook, talia ho)",40
1,rec-484-org,rec-220-org,jacynta hoffman,tyler heerey,"(jacynta hoffman, tyler heerey)",22
2,rec-410-dup-0,rec-261-dup-0,sachin connerty,wilde,"(sachin connerty, wilde)",19
3,rec-54-org,rec-246-dup-0,emiily morrison,burford jack,"(emiily morrison, burford jack)",15
4,rec-370-dup-0,rec-386-dup-0,rourke webv,dylan dolby,"(rourke webv, dylan dolby)",18


Para a nossa tabela com 998512 linhas, o algoritmo demorou 2.9 segundos. Nada mal. E as compara√ß√µes parecem boas! Alguns exemplos de igualdade:

In [10]:
df[["full_name_x", "full_name_y", "fuzzywuzzy"]].sort_values(
    by="fuzzywuzzy", ascending=False
).head()

Unnamed: 0,full_name_x,full_name_y,fuzzywuzzy
926629,charldotte campbell,charlotte campbell,97
463495,lucas rawldings,lucas rawlings,97
890513,john van't hof,john van'wt hof,97
969177,jaden humphkreys,jaden humphreys,97
680776,kirah mccarthy,kirrah mccarthy,97


E alguns exemplos de desigualdade:

In [11]:
df[["full_name_x", "full_name_y", "fuzzywuzzy"]].sort_values(
    by="fuzzywuzzy", ascending=False
).tail()

Unnamed: 0,full_name_x,full_name_y,fuzzywuzzy
689287,ruby riding,takeisha smallacombe,6
585410,timothy mccarthy,annablle kounis,6
232904,jacynta hoffman,brooke durbridge,6
775239,annablle kounis,timothy mccarthy,6
148505,brooke durbridge,jacynta hoffman,6


Vamos olhar o tempo mais de perto... Ser√° que a gente poderia melhorar isso?

In [12]:
%timeit df["names"].apply(lambda x: fuzz.ratio(x[0], x[1]))

2.99 s ¬± 44.4 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


## [`RapidFuzz`](https://github.com/maxbachmann/RapidFuzz)

[`RapidFuzz`](https://github.com/maxbachmann/RapidFuzz) √© uma outra biblioteca em python. Mais nova, que tem algumas pequenas diferen√ßas:
- A licen√ßa que eles est√£o usando √© mais permissiva. Aqui voc√™ est√° livre pra usar qualquer licen√ßa no seu projeto (no `FuzzyWuzzy` voc√™ era obrigado a usar uma licen√ßa GPL). N√£o muito interessante ü•±
- √â mais rapida! Tem algumas melhorias na parte da implementa√ß√£o do algoritmo mas tamb√©m √© implementada em C++!!‚ö°Ô∏è‚ö°Ô∏è

![](https://media.giphy.com/media/HdcimOKferlkI/giphy.gif)

O qu√£o mais r√°pida? Vamos ver.

Usando a mesma estrat√©gia de antes:

In [13]:
# hide
!pip install rapidfuzz > /dev/null

In [14]:
# usando os mesmo exemplos do in√≠cio (e tamb√©m na biblioteca)
from rapidfuzz import fuzz, process

choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]

In [15]:
%timeit process.extract("new york jets", choices, limit=2)  # s√≥ pra registrar o tempo
process.extract("new york jets", choices, limit=2)

8.23 ¬µs ¬± 173 ns per loop (mean ¬± std. dev. of 7 runs, 100000 loops each)


[('New York Jets', 100.0, 1), ('New York Giants', 78.57142857142857, 2)]

In [16]:
%timeit process.extractOne("cowboys", choices) # s√≥ pra registrar o tempo
process.extractOne("cowboys", choices)

14.4 ¬µs ¬± 236 ns per loop (mean ¬± std. dev. of 7 runs, 100000 loops each)


('Dallas Cowboys', 90.0, 3)

Antes o c√≥digo demorou 89.3¬µs e 191¬µs, respectivamente. Agora, demoramos 8.23¬µs e 14.4¬µs (**<10%** do tempo de antes)! Mas como escala? Vamos de novo olhar pro exemplo da deduplica√ß√£o de dados:

In [20]:
%%time
df["rapidfuzz"] = df["names"].apply(lambda x: fuzz.ratio(x[0], x[1]))
df.head()

CPU times: user 419 ms, sys: 26.7 ms, total: 445 ms
Wall time: 449 ms


Unnamed: 0,rec_id_x,rec_id_y,full_name_x,full_name_y,names,fuzzywuzzy,RapidFuzz,rapidfuzz
0,rec-498-dup-0,rec-372-dup-0,claire crook,talia ho,"(claire crook, talia ho)",40,40.0,40.0
1,rec-484-org,rec-220-org,jacynta hoffman,tyler heerey,"(jacynta hoffman, tyler heerey)",22,22.222222,22.222222
2,rec-410-dup-0,rec-261-dup-0,sachin connerty,wilde,"(sachin connerty, wilde)",19,19.047619,19.047619
3,rec-54-org,rec-246-dup-0,emiily morrison,burford jack,"(emiily morrison, burford jack)",15,14.814815,14.814815
4,rec-370-dup-0,rec-386-dup-0,rourke webv,dylan dolby,"(rourke webv, dylan dolby)",18,18.181818,18.181818


E os resultados dos dois algoritmos s√£o exatamente iguais! (Com a pequena excess√£o que o `FuzzyWuzzy` retorna n√∫meros inteiros e o `RapidFuzz` retorna fra√ß√µes)

In [21]:
# hide
assert (df.rapidfuzz.round() == df.fuzzywuzzy).all()

In [22]:
%timeit df["names"].apply(lambda x: fuzz.ratio(x[0], x[1]))

445 ms ¬± 25 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


Menos 15% do tempo de antes!! S√≥ trocando a biblioteca!

![](https://media.giphy.com/media/w9xG5hsxZlqtevPlJQ/giphy.gif)

Al√©m disso a documenta√ß√£o faz mais compara√ß√µes pra diferentes tarefas e como s√£o os n√∫meros com a maior quantidade de dados.

![numero de pares de palavras comparadas por segundo](https://raw.githubusercontent.com/maxbachmann/RapidFuzz/main/docs/img/scorer.svg?sanitize=true)

Pra mais gr√°ficos, fica a [documenta√ß√£o](https://maxbachmann.github.io/RapidFuzz/fuzz.html).

# Uma √∫ltima coisa...

> A gente pode melhorar isso ainda mais quando quisermos deduplicar linhas na minha tabela?

Sim. Mas n√£o na parte algoritmica. Na vida real, temos tamb√©m de ser espertos na hora de computar as coisas. Se estivermos comparando endere√ßos por exemplo, a rua e n√∫mero talvez estejam diferentes, mas a cidade e estado provavelmente n√£o, especialmente porque numa grande parte esses vem de um dropdown, ent√£o os dados vem "limpos".

Nesses casos, ao inv√©s de criar todas as combina√ß√µes possiveis, a gente pode criar as combina√ß√µes dentro de cada grupo - no nosso exemplo quando os estados e cidades s√£o iguais. Reduzindo o n√∫mero de combina√ß√µes j√° reduz bastante o trabalho. E na maioria dos casos, √© **ai** que temos os maiores ganhos. E ainda por cima, existem bibliotecas como o [`Record Linkage Toolkit`](https://github.com/J535D165/recordlinkage) que s√£o feitos exatamente pra isso.

Ou seja, as vezes √© melhor sentar e pensar antes de ficar quebrando a cabe√ßa em como otimizar um algoritmo. üòá

![](https://media.giphy.com/media/mRh4cLIYhrs9G/giphy.gif)