# 1. Introdução

<div class = 'text-justify'>
Ao longo de processos de tratamento de dados, é comum nos depararmos com preenchimentos indevidos de colunas em arquivos Excel em meio a grande quantidade de linhas para análise. Como consequência, os resultados gerados podem ser inconsistentes com a realidade presente no DataFrame devido a contagem diferente de conteúdos referentes ao mesmo texto. Para solucionar este problema, iremos utilizar a distância de Levenshtein através da biblioteca <b>FuzzyWuzzy </b> para quantificar a diferença de grafia entre duas strings. Assim, iremos identificar valores que estão presentes em diferentes campos mesmo que escrito de maneira diferentes e substituí-lo por um valor igual sem erro de ortografia, possibilitando obter precisão em métodos como value_counts. </div>

# 2. Bibliotecas utilizadas

In [7]:
from fuzzywuzzy import *
from fuzzywuzzy import process
import pandas as pd

# 3. Entendendo como tudo funciona

Primeiramente, vamos substituir os erros de grafia presente em uma lista por uma string de referência salva em uma variável. Para isso, vamos criar uma função responsável por tratar os dados e retornar uma lista corrigida:

In [21]:
str_referencia = "APPLE"
empresas = ["Apple","apple.","Aple","APPLE"," Apple"]
primeiro_tratamento = []

# Criando uma função que faz um prévio tratamento
lista = ["Apple","apple.","Amazon","APPLE S/A"," Aple S.A",'Microsof','Microsoft']
for i in lista:
    primeiro_tratamento.append((i.strip().upper().replace('.','').replace('/','').replace(" ", "")))
print(primeiro_tratamento)

['APPLE', 'APPLE', 'AMAZON', 'APPLESA', 'APLESA', 'MICROSOF', 'MICROSOFT']


<div class = 'text-justify'>
Dessa forma, criamos uma lista previamente tratada que será utilizada para compararmos com nossa referência. Vamos aplicar esse método utilizando a função <i><b>process.extractOne</b></i>, que possui três argumentos: <b>String de referência, Lista de strings e a Medida de similaridade de Levenshtein.</b></div>


In [22]:
k = process.extractOne(str_referencia,primeiro_tratamento)
print(k)

('APPLE', 100)


<div class = 'text-justify'>Como resultado, temos uma tupla a qual o primeiro resultado é a melhor correspondência da lista comparada a string de refêrencia e o segundo sua pontuação. No caso, temos um elemento da nossa lista de empresas que possuí a mesma grafia. </div>
obs: A pontuação varia de 0 a 100, onde 0 indica nenhuma correspondência e 100 indica correspondência exata.

# 4. Substituindo strings de acordo com sua pontuação

In [28]:
empresa_tratado = []
for i in primeiro_tratamento:
    k = process.extractOne(str_referencia,[i])
    if k[1] > 70:
        empresa_tratado.append(str_referencia)
    else:
        empresa_tratado.append(k[0])
print(empresa_tratado)

['APPLE', 'APPLE', 'AMAZON', 'APPLE', 'APPLE', 'MICROSOF', 'MICROSOFT']


#### No exemplo acima, a distância mínima de Levenshtein aceita é de 70. Ou seja, se a similaridade for superior, a string será adicionada de maneira correta na nova lista, caso contrário, será mantida original. 

# 5. Aplicando em um DataFrame