<a href="https://colab.research.google.com/github/brunatoloti/data-science-do-zero/blob/main/Minera%C3%A7%C3%A3o%20de%20Textos%20e%20NLP/mineracao_textos5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Mineração Textos - Similaridade de Strings

Aplicações:
*   Data Cleaning - Limpeza de Dados.
*   Correção de digitação.
*   Tradução de idiomas.

Usando a biblioteca FuzzyWuzzy
*   Essa biblioteca usa a Distância de Levenshtein para calcular as diferenças entre as strings.
*   Um dos métodos mais fáceis de usar para comparar dois textos ou duas strings é a biblioteca FuzzyWuzzy, onde podemos ter um score de 100, que denota que duas strings são iguais, dando um índice de similaridade.

Importando as bibliotecas

In [None]:
!pip install fuzzywuzzy
!pip install python-Levenshtein
!pip install fuzzywuzzy[speedup]

Collecting fuzzywuzzy
  Downloading https://files.pythonhosted.org/packages/43/ff/74f23998ad2f93b945c0309f825be92e04e0348e062026998b5eefef4c33/fuzzywuzzy-0.18.0-py2.py3-none-any.whl
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0
Collecting python-Levenshtein
[?25l  Downloading https://files.pythonhosted.org/packages/2a/dc/97f2b63ef0fa1fd78dcb7195aca577804f6b2b51e712516cc0e902a9a201/python-Levenshtein-0.12.2.tar.gz (50kB)
[K     |████████████████████████████████| 51kB 2.4MB/s 
Building wheels for collected packages: python-Levenshtein
  Building wheel for python-Levenshtein (setup.py) ... [?25l[?25hdone
  Created wheel for python-Levenshtein: filename=python_Levenshtein-0.12.2-cp37-cp37m-linux_x86_64.whl size=149827 sha256=707fc80cb7cf335d0e2a67dce8817218583ec34831bd5c9ed1c2137c24b9aa4c
  Stored in directory: /root/.cache/pip/wheels/b3/26/73/4b48503bac73f01cf18e52cd250947049a7f339e940c5df8fc
Successfully built python-Levenshtein
Installing collect

In [None]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

**"Similaridade Total"**

Aplicando a FuzzyWuzzy em duas strings

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Doença Cardiovascular'

fuzz.ratio(s1,s2)

100

Observe que a taxa retornada é de 100, ou seja, as duas strings são idênticas.

Aplicando a FuzzyWuzzy em outras duas strings - com uma pequena diferença entre elas

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Doença Cardiovasculhar'

fuzz.ratio(s1, s2)

98

Essas duas strings possuem uma taxa de similaridade de 98.

Aplicando a FuzzyWuzzy em duas strings, com diferenças entre letras maiúsculas e minúsculas

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'doença Cardiovascular'

fuzz.ratio(s1,s2)

95

A similaridade entre essas duas strings foi ainda maior do que se ter um caracter a mais (como aconteceu no caso anterior a esse). Podemos concluir ter a letra maiúscula em uma string e ter a letra minúscula na outra string tem um peso maior do que ter uma letra a mais em uma das strings.

Aplicando a FuzzyWuzzy em duas strings, com diferenças de pontuação ou outros caracteres

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Doença Cardiovascular!'

fuzz.ratio(s1,s2)

98

Também perdemos similaridade entre strings se houver pontuação ou caracter especial em uma das strings e na outra não. Porém, aparentemente, perde-se similaridade na mesma taxa de se ter uma letra a mais na string.

**Similaridade Parcial**

*   Similaridade Parcial busca apenas a string em questão, de interesse, e descarta o resto.
*   Extremamente útil para se trabalhar com dados coletados da Web.

Consultando o score usando o método *ratio*, ou seja, sem usar a similaridade parcial

In [None]:
s1 = 'Doença Cardiovascular'
s2 = '###$$%$!Doença Cardiovascular#$#%#^^^^^!!'

fuzz.ratio(s1, s2)

68

Note que a taxa de "similaridade total" dessas duas strings é relativamente baixo.

Consultando agora o score usando o método *partial_ratio*, sem diferença na string de interesse

In [None]:
s1 = 'Doença Cardiovascular'
s2 = '###$$%$!Doença Cardiovascular#$#%#^^^^^!!'

fuzz.partial_ratio(s1, s2)

100

Note agora que avaliando apenas a string de interesse, sem considerar as pontuações e os caracteres especiais, ficamos com uma taxa de similaridade de 100. Ou seja, usando *partial_ratio* as strings são idênticas.

Consultando agora o score usando o método *partial_ratio*, com diferença na string de interesse

In [None]:
s1 = 'Doença Cardiovascular'
s2 = '###$$%$!Doença Cardiovasculhar#$#%#^^^^^!!'

fuzz.partial_ratio(s1, s2)

95

Com isso, devido a diferença na string de interesse, a taxa de similaridade foi de 95 e não de 100. Seria ainda mais baixa se usássemos o método *ratio* e não o método *partial_ratio*.

Verificando se a ordem das substrings na string interfere muito no score de similaridade.

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Cardiovascular Doença'

fuzz.partial_ratio(s1, s2)

67

Podemos ver que, sim, a ordem das substrings influencia na similaridade.

Para contornar essa situação, podemos usar o método ***partial_token_sort_ratio()***

*   O método **partial_token_sort_ratio()** separa os tokens por espaço e ordena por ordem alfabética.
*   Além disso, esse método coloca as strings em letras minúsculas.
*   E, também, considera apenas as strings de interesse.

Consultando o score usando o método *partial_token_sort_ratio*, com alteração na ordem das substrings de uma das strings

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'Cardiovascular Doença'

fuzz.partial_token_sort_ratio(s1, s2)

100

Observe agora que usando esse método e com as substrings invertidas em uma das strings, obtivemos taxa de similaridade 100.

Consultando o score usando o método *partial_token_sort_ratio*, com alteração na ordem das substrings em uma das strings e com letras minúsculas em uma das strings.

In [None]:
s1 = 'Doença Cardiovascular'
s2 = 'cardiovascular doença'

fuzz.partial_token_sort_ratio(s1, s2)

100

Observe que continuamos tendo um score de 100, ou seja, usando esse método, essas duas strings são idênticas.

In [None]:
s1 = 'Doença Cardiovascular'
s2 = '%%%%%cardiovascular doença&&&&****@@@'

fuzz.partial_token_sort_ratio(s1, s2)

100

Observe que continuamos tendo um score de 100, ou seja, usando esse método, essas duas strings são idênticas.

Tudo isso faz sentido, por conta do funcionamento desse método. Como colocado anteriormente, o método
*   Separa os tokens por espaço e ordena por ordem alfabética, portanto não importa se as palavras estão em ordens diferentes entre as duas strings. No final, ambas ficarão na mesma ordem, se forem de fato iguais.
*   Coloca as strings em letras minúsculas, portanto não importa se uma das strings está com letra maiúscula e a outra não. No final, ambas ficarão em letras minúsculas.
*   Leva em consideração apenas a string de interesse, sem levar em consideração pontuação e caracteres especiais.

**Processando uma lista de strings**

*   Aplicando o FuzzyWuzzy para corrigir strings em uma base de dados

Importando a biblioteca

In [None]:
from fuzzywuzzy import process

Criando uma lista de strings

In [None]:
l = ['Doença Cardiovascular.', 'doença cardiovascular!!', 'Doenca Cardiovascular', 'Doenc. Cardio']

Extraindo os scores de similaridade entre as strings da lista e uma string específica, usando o método *partial_ratio*

In [None]:
process.extract('Doença Cardiovascular', l, scorer=fuzz.partial_ratio)

[('Doença Cardiovascular.', 100),
 ('doença cardiovascular!!', 100),
 ('Doenca Cardiovascular', 95),
 ('Doenc. Cardio', 85)]

Limitando o retorno

In [None]:
#Suponha que eu queira retornar as 3 strings mais similares

process.extract('Doença Cardiovascular', l, scorer=fuzz.partial_ratio, limit=3)

[('Doença Cardiovascular.', 100),
 ('doença cardiovascular!!', 100),
 ('Doenca Cardiovascular', 95)]

Retornando apenas uma string com score acima de 95 -> ou seja, retorna a string mais similar com score acima de 95.

In [None]:
process.extractOne('Doença Cardiovascular', l, scorer=fuzz.partial_ratio, score_cutoff=95)

('Doença Cardiovascular.', 100)

Supondo que quisessemos substituir as palavras da lista pela palavra mais similar à string de interesse, caso a similaridade entre a palavra da lista e string de interesse seja maior do que 85.

In [None]:
more_similar = process.extractOne('Doença Cardiovascular', l, scorer=fuzz.partial_ratio, score_cutoff=95)
more_similar[0]

'Doença Cardiovascular.'

In [None]:
sims = process.extract('Doença Cardiovascular', l, scorer=fuzz.partial_ratio)
sims

[('Doença Cardiovascular.', 100),
 ('doença cardiovascular!!', 100),
 ('Doenca Cardiovascular', 95),
 ('Doenc. Cardio', 85)]

In [None]:
l2 = [i[0].replace(i[0], more_similar[0]) for i in sims if i[1] >=85]

In [None]:
l2

['Doença Cardiovascular.',
 'Doença Cardiovascular.',
 'Doença Cardiovascular.',
 'Doença Cardiovascular.']

**Data Cleaning em um DataFrame**

*   Aplicar o FuzzyWuzzy em uma base de dados
*   Medir a similaridade de strings e fazer Data Cleaning

Importando as bibliotecas

In [None]:
import pandas as pd
from collections import OrderedDict

Para fins didáticos, iremos criar uma pequena base de dados.

Criando um dicionário 

In [None]:
data = OrderedDict(
    {
        'codigo_produto': [10, 11, 12, 13, 14],
        'descricao': ['iphone 6ss', 'iphone 6s', 'iphoni 6s', 'ipone 6s', 'Iphone 6s,,,,']
    }
)

Convertendo o dicionário em um dataframe

In [None]:
dataset = pd.DataFrame(data)
dataset

Unnamed: 0,codigo_produto,descricao
0,10,iphone 6ss
1,11,iphone 6s
2,12,iphoni 6s
3,13,ipone 6s
4,14,"Iphone 6s,,,,"


Extraindo a melhor descrição presente em *dataset* em relação a string *Iphone 6s*.

Como se eu quisesse corrigir os erros de digitação presentes na coluna *descrição* do dataset. Para isso, vou extrair a string mais similar a string correta dessa coluna do dataframe.

In [None]:
process.extractOne('Iphone 6s', choices=dataset.descricao, scorer=fuzz.ratio, score_cutoff=95)

('iphone 6s', 100, 1)

Criando uma função que aplica o FuzzyWuzzy

In [None]:
def AplicaFuzzy(query, dados, metodo_ratio, score_corte):
    return process.extractOne(query, choices=dados, scorer=metodo_ratio, score_cutoff=score_corte)

Testando a função usando a mesma string de interesse usada anteriormente

In [None]:
AplicaFuzzy('Iphone 6s', dataset.descricao, fuzz.ratio, 95)

('iphone 6s', 100, 1)

Observe que obtivemos o mesmo resultado. Logo, nossa função está funcionando.

Criando uma nova coluna em *dataset* a partir das strings similares.

Essa nova coluna terá as strings da coluna *descricao* corrigidas.

In [None]:
dataset['descricao_corrigida'] = AplicaFuzzy('Iphone 6s', dataset.descricao, fuzz.ratio, 95)[0]
dataset

Unnamed: 0,codigo_produto,descricao,descricao_corrigida
0,10,iphone 6ss,iphone 6s
1,11,iphone 6s,iphone 6s
2,12,iphoni 6s,iphone 6s
3,13,ipone 6s,iphone 6s
4,14,"Iphone 6s,,,,",iphone 6s


Obs. Esse foi apenas um exemplo simples do funcionamento. Claro que em uma base de dados real teríamos muitos produtos diferentes e não apenas o Iphone 6s. Por isso, deve-se criar regras para a aplicação desse método para corrigir strings digitadas erradas.

Vejamos um exemplo um pouquinho mais elaborado, com outras marcas e modelos de celulares.

Criando um dicionário

In [None]:
data = OrderedDict(
    {
        'codigo_produto': [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
        'descricao': ['iphone 6ss', 'iphone 6s', 'iphoni 6s', 'ipone 6s', 'Iphone 6s,,,,', 'motorola G7.', 'motorola g7', 'motorola G7!', 'redmi note 8 pro', 'redimi note 8 pro']
    }
)

Convertendo o dicionário em um dataframe

In [None]:
df = pd.DataFrame(data)

In [None]:
df

Unnamed: 0,codigo_produto,descricao
0,10,iphone 6ss
1,11,iphone 6s
2,12,iphoni 6s
3,13,ipone 6s
4,14,"Iphone 6s,,,,"
5,15,motorola G7.
6,16,motorola g7
7,17,motorola G7!
8,18,redmi note 8 pro
9,19,redimi note 8 pro


Criando uma função que recebe o nome do dataframe, o nome da coluna que possui erros de digitação (ou seja, que deve ser corrigida) e uma lista de strings com as strings de interesse para cada marca-modelo de celular

In [None]:
def AplicaFuzzyDF(dados, coluna: str, string_match: list):
    results = []
    for i, row in dados.iterrows():
        for l in string_match:
            sims = process.extract(l, dados[f'{coluna}'], scorer=fuzz.ratio)
            sims2 = [j[0] for j in sims if j[1] >= 85]
            if row[f'{coluna}'] in sims2:
                results.append(sims[0][0])
            
    return results

Nesse caso, como é um exemplo pequeno, sabemos as marcas e modelos que possuímos no dataframe e como devemos corrigí-los. Num caso real, poderíamos ter uma lista pré-definida de strings corretas que já foram mapeadas ou podemos ter como ajuda um outro dataframe com valores já corretos para nos auxiliar (usando unique() para pegar os valores únicos que já em uma determinada coluna desse dataframe).

Aplicando a função

In [None]:
results = AplicaFuzzyDF(df,'descricao', ['Iphone 6s', 'Motorola G7', 'Redmi Note 8 PRO'])

Visualizando a lista retornada da função

In [None]:
results

['iphone 6s',
 'iphone 6s',
 'iphone 6s',
 'iphone 6s',
 'iphone 6s',
 'motorola G7.',
 'motorola G7.',
 'motorola G7.',
 'redmi note 8 pro',
 'redmi note 8 pro']

Aplicando a lista com os valores corrigidos no dataframe

In [None]:
df['descricao_corrigida'] = results
df

Unnamed: 0,codigo_produto,descricao,descricao_corrigida
0,10,iphone 6ss,iphone 6s
1,11,iphone 6s,iphone 6s
2,12,iphoni 6s,iphone 6s
3,13,ipone 6s,iphone 6s
4,14,"Iphone 6s,,,,",iphone 6s
5,15,motorola G7.,motorola G7.
6,16,motorola g7,motorola G7.
7,17,motorola G7!,motorola G7.
8,18,redmi note 8 pro,redmi note 8 pro
9,19,redimi note 8 pro,redmi note 8 pro
