# **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br

## Similaridade de Strings

Aplicações:
    * Data Cleaning
    * Correção de digitação
    * Tradução de idiomas

FuzzyWuzzy - Levenshtein_distance - https://en.wikipedia.org/wiki/Levenshtein_distance

In [None]:
!pip install fuzzywuzzy

In [None]:
!pip install fuzzywuzzy[speedup]

**Importa a biblitoteca**

In [None]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

**Aplicando a fuzzywuzzy em duas strings**

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Doença Cardiovascular'
fuzz.ratio(s1,s2)

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Doença Cardiovasculhar'
fuzz.ratio(s1,s2)

**Letras maiusculas e minúsculas**

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'doença Cardiovascular'
fuzz.ratio(s1,s2)

** Pontuação ou outros caracteres influenciam no score**

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Doença Cardiovascular!!'
fuzz.ratio(s1,s2)

## Similaridade Parcial

* Similaridade parcial busca apenas a string em questão e descarta o resto.
* Extremamente útil para trabalhar com dados coletados da web.

In [None]:
# Consultando o score usando o método ratio
s1 = 'Doença Cardiovascular'
s2 = '###$$%$!Doença Cardiovascular#$#%#ˆˆˆˆˆ!!'
fuzz.ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
s1 = 'Doença Cardiovascular'
s2 = '###$$%$!Doença Cardiovascular#$#%#ˆˆˆˆˆ!!'
fuzz.partial_ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'Doença Cardiovascular'
s2 = '###$$%$!Doença Cardiovasculhar#$#%#ˆˆˆˆˆ!!'
fuzz.partial_ratio(s1,s2)

** Ordem de caracteres diferentes?**

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'Doença Cardiovascular'
s2 = 'Cardiovascular Doença'
fuzz.partial_ratio(s1,s2)

* Função **partial_token_sort_ratio()** separa os tokens por espaço e ordena por ordem alfabética.
* Coloca as strings em letras minúsculas.
* Considera apenas as strings consultadas.

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'Doença Cardiovascular'
s2 = 'Cardiovascular Doença'
fuzz.partial_token_sort_ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'Doença Cardiovascular'
s2 = 'cardiovascular doença'
fuzz.partial_token_sort_ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'Doença Cardiovascular'
s2 = '%%%%%cardiovascular doença&&&&****@@@'
fuzz.partial_token_sort_ratio(s1,s2)

## Processando uma Lista de Strings

* Aplicar o fuzzywuzzy para corrigir strings em uma base de dados

In [None]:
from fuzzywuzzy import process

** Cria lista de strings**

In [None]:
lista = ['Doença Cardiovascular.','doença cardiovascular!!', 'Doenca Cardiovascular', 'Doenc. Cardio']

In [None]:
lista

** Extrai os scores de similaridades com uma string em questão**

In [None]:
process.extract('Doença Cardiovascular', lista, scorer=fuzz.partial_ratio)

** Limitando o retorno**

In [None]:
process.extract('Doença Cardiovascular', lista, scorer=fuzz.partial_ratio,limit=2)

** Retorna apenas uma string com um score acima de 95**

In [None]:
# Método extractOne
process.extractOne('Doença Cardiovascular', lista, scorer=fuzz.partial_ratio, score_cutoff=95)

## Data Cleaning em um DataFrame

* Aplicar o fuzzywuzzy em uma base de dados
* Medir a similaridade de strings e fazer **Data Cleaning**

In [None]:
import pandas as pd
from collections import OrderedDict
data = OrderedDict(
    {
        'codigo_produto': [10 , 11, 12, 13, 14],
        'descrição': ['iphone 6ss', 'iphone 6s', 'iphoni 6s', 'ipone 6s','Iphone 6s,,,,']
        
    })

In [None]:
data

In [None]:
dataset = pd.DataFrame(data)

In [None]:
dataset

In [None]:
process.extractOne('Iphone 6s', choices=dataset.descrição, scorer=fuzz.ratio, score_cutoff=95)

** Função que aplica o Fuzzy**

In [None]:
def AplicaFuzzy(query, dados, metodo_ratio, score_corte):
    return process.extractOne(query, choices=dados, scorer=metodo_ratio, score_cutoff=score_corte)

** Testa a função**

In [None]:
AplicaFuzzy('Iphone 6s', dataset.descrição, fuzz.ratio, 90)

** Criando uma nova coluna no Dataset a partir das string similares**

In [None]:
dataset['descrição2'] = AplicaFuzzy('Iphone 6s', dataset.descrição, fuzz.ratio, 95)[0]

In [None]:
dataset