# **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br

## Similaridade de Strings

Aplicações:
    * Data Cleaning
    * Correção de digitação
    * Tradução de idiomas

FuzzyWuzzy - Levenshtein_distance - https://en.wikipedia.org/wiki/Levenshtein_distance

**Instalando a biblioteca Fuzzywuzzy**

In [None]:
!pip install fuzzywuzzy

In [None]:
!pip install fuzzywuzzy[speedup]

**Importa a biblitoteca**

In [None]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

**Aplicando a fuzzywuzzy em duas strings**

In [None]:
fuzz.ratio('São Paulo', 'São Paul')

In [None]:
fuzz.ratio('São Paulo', 'São Paulo')

In [None]:
s1 = 'Belo Horizonte'
s2 = 'B. Horizonte'
fuzz.ratio(s1,s2)

**Letras maiusculas e minúsculas**

In [None]:
s1 = 'São Paulo'
s2 = 'são paulo'
fuzz.ratio(s1,s2)

** Pontuação ou outros caracteres influenciam no score**

In [None]:
s1 = 'São Paulo'
s2 = 'São Paulo!!'
fuzz.ratio(s1,s2)

## Similaridade Parcial

* Similaridade parcial busca apenas a string em questão e descarta o resto.
* Extremamente útil para trabalhar com dados coletados da web ou ainda quando queremos ignorar pontuações.

In [None]:
# Consultando o score usando o método ratio
s1 = 'São Paulo'
s2 = '###$$%$!São Paulo#$#%#ˆˆˆˆˆ!!'
fuzz.ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
s1 = 'São Paulo'
s2 = '###$$%$!São Paulo#$#%#ˆˆˆˆˆ!!'
fuzz.partial_ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'São Paulo'
s2 = '###$$%$!São Paullo#$#%#ˆˆˆˆˆ!!'
fuzz.partial_ratio(s1,s2)

** Ordem de caracteres diferentes?**

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'São Paulo'
s2 = 'Paulo São'
fuzz.partial_ratio(s1,s2)

* Função **partial_token_sort_ratio()** separa os tokens por espaço e ordena por ordem alfabética.
* Coloca as strings em letras minúsculas.
* Considera apenas as strings consultadas.

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'São Paulo'
s2 = 'Paulo São'
fuzz.partial_token_sort_ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial
# alteração nas strings
s1 = 'São Paulo'
s2 = 'São Paullo'
fuzz.partial_token_sort_ratio(s1,s2)

In [None]:
# Consultando o score usando o método partial e com caracteres minusculos.
s1 = 'São Paulo'
s2 = '###$$%$!são paulo#$#%#ˆˆˆˆˆ!!'
fuzz.partial_token_sort_ratio(s1,s2)

## Processando uma Lista de Strings

* Aplicar o fuzzywuzzy para corrigir strings em uma base de dados

In [None]:
from fuzzywuzzy import process

** Cria lista de strings**

In [None]:
lista = ['Doença Cardiovascular.','doença cardiovascular!!', 'Doenca Cardiovascular', 'Doenc. Cardio']

In [None]:
lista

** Extrai os scores de similaridades com uma string em questão**

In [None]:
process.extract('Doença Cardiovascular', lista, scorer=fuzz.partial_ratio)

** Limitando o retorno**

In [None]:
process.extract('Doença Cardiovascular', lista, scorer=fuzz.partial_ratio, limit=2)

** Retorna apenas uma string com um score acima de 95**

In [None]:
process.extractOne('Doença Cardiovascular', lista, scorer=fuzz.partial_ratio, score_cutoff=95)

## Data Cleaning em um DataFrame

* Aplicar o fuzzywuzzy em uma base de dados
* Medir a similaridade de strings e fazer **Data Cleaning**

In [None]:
import pandas as pd
from collections import OrderedDict
data = OrderedDict(
    {
        'descrição': ['São Paulo', 'SãoPaulo', 'São Pauloo','São Paulo,,', 'Belo Horizonte', 'B. Horizonte']
    })

In [None]:
data

**Converte Dicionário para Pandas Dataframe**

In [None]:
df = pd.DataFrame(data)

In [None]:
df

** Corrigindo dados do dataframe**

In [None]:
lista_cidades = ['Belo Horizonte', 'São Paulo']

In [None]:
lista_cidades

In [None]:
for cidade in lista_cidades:
    for i in df.descrição.items():
        print ('{}, {}, Similaridade: {}'.format(cidade, i[1], fuzz.partial_token_sort_ratio(cidade,i)))

**Atualizando as linhas do Dataframe se similaridade for maior que um determinado valor**

In [None]:
for cidade in lista_cidades:
    for i in df.descrição.items():
        print ('{}, {}, Similaridade: {}'.format(cidade, i[1], fuzz.partial_token_sort_ratio(cidade,i)))
        if fuzz.partial_token_sort_ratio(cidade,i[1]) >= 70:
            df.loc[df['descrição'] == i[1], ['descrição']] = cidade

**Visualizando o Dataframe**

In [None]:
df