# Data Cleaning with FuzzyWuzzy

In [3]:
#!pip install fuzzywuzzy



In [102]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
from collections import OrderedDict
import pandas as pd


In [26]:
#function for exact similarity
fuzz.ratio('São paulo','São paullo')

95

In [27]:
city1 = 'barretos'
city2 = 'baretos'
fuzz.ratio(city1,city2)

93

In [28]:
city3 = 'Barretos'
city4 = 'barretos'
fuzz.ratio(city3,city4)

88

In [29]:
fuzz.ratio('lincoln','fabiana')

29

In [30]:
#function for partial similarity

In [31]:
teste1 = 'lincoln'
teste2 = 'nlocnil'
fuzz.partial_ratio(teste1,teste2)

46

In [32]:
teste3 = '##@!Lincoln!!@##'
teste4 = 'lincoln'
fuzz.partial_ratio(teste3,teste4)

86

In [47]:
teste5 = 'São Paulo'
teste6 = 'Paulo São'
fuzz.partial_token_sort_ratio(teste5,teste6)

100

In [40]:
teste7 = 'brasil'
teste8 = 'BRASIL'
fuzz.partial_token_sort_ratio(teste7,teste8)

100

In [48]:
#Working with lists

In [49]:
lista = ['Mudança de endereço','Mud de end..','mudanca de endereco!','mudança de end']

In [50]:
lista

['Mudança de endereço', 'Mud de end', 'mudanca de endereco', 'mudança de end']

In [55]:
process.extract('Mudança de endereço',lista,scorer=fuzz.partial_ratio)

[('Mudança de endereço', 100),
 ('mudança de end', 100),
 ('mudanca de endereco', 89),
 ('Mud de end', 70)]

In [56]:
#limiting the return

In [57]:
process.extract('Mudança de endereço',lista,scorer=fuzz.partial_ratio,limit=2) #the two high value

[('Mudança de endereço', 100), ('mudança de end', 100)]

In [69]:
process.extractOne('Mudança de endereço',lista,scorer=fuzz.partial_ratio,score_cutoff=100) #the two high value

('Mudança de endereço', 100)

# Data cleaning in the data frame

In [77]:
#creating a dictionary
data = OrderedDict(
    {'descricao': ['Mudança de endereço','Mud de end..','mudanca de endereco!','mudança de end','Instalação Velox',
                   'Inst Vlx','Instacao Velox']  
    })

In [78]:
data

OrderedDict([('descricao',
              ['Mudança de endereço',
               'Mud de end..',
               'mudanca de endereco!',
               'mudança de end',
               'Instalação Velox',
               'Inst Vlx',
               'Instacao Velox'])])

In [95]:
#using lib pandas for create a dataframe
df = pd.DataFrame(data)

In [96]:
df

Unnamed: 0,descricao
0,Mudança de endereço
1,Mud de end..
2,mudanca de endereco!
3,mudança de end
4,Instalação Velox
5,Inst Vlx
6,Instacao Velox


In [97]:
lista_cidades = ['Mudança de endereço','Instalação Velox']

In [98]:
lista_cidades

['Mudança de endereço', 'Instalação Velox']

In [110]:
for cidade in lista_cidades:
    for i in df.descricao.items():
        print('{}, {}, similaridade: {}'.format(cidade, i[1], fuzz.partial_token_sort_ratio(cidade,i)))

Mudança de endereço, Mudança de endereço, similaridade: 100
Mudança de endereço, Mud de end.., similaridade: 67
Mudança de endereço, mudanca de endereco!, similaridade: 94
Mudança de endereço, mudança de end, similaridade: 73
Mudança de endereço, Instalação Velox, similaridade: 25
Mudança de endereço, Inst Vlx, similaridade: 30
Mudança de endereço, Instacao Velox, similaridade: 25
Instalação Velox, Mudança de endereço, similaridade: 21
Instalação Velox, Mud de end.., similaridade: 21
Instalação Velox, mudanca de endereco!, similaridade: 21
Instalação Velox, mudança de end, similaridade: 25
Instalação Velox, Instalação Velox, similaridade: 100
Instalação Velox, Inst Vlx, similaridade: 60
Instalação Velox, Instacao Velox, similaridade: 93


In [111]:
#Update the line to dataframe

In [118]:
for cidade in lista_cidades:
    for i in df.descricao.items():
        print('{}, {}, similaridade: {}'.format(cidade, i[1], fuzz.partial_token_sort_ratio(cidade,i)))
        if fuzz.partial_token_sort_ratio(cidade,i[1]) >= 60:
             df.loc[df['descricao'] == i[1], ['descricao']] = cidade

Mudança de endereço, Mudança de endereço, similaridade: 100
Mudança de endereço, Mudança de endereço, similaridade: 100
Mudança de endereço, Mudança de endereço, similaridade: 100
Mudança de endereço, Mudança de endereço, similaridade: 100
Mudança de endereço, Instalação Velox, similaridade: 25
Mudança de endereço, Inst Vlx, similaridade: 30
Mudança de endereço, Instalação Velox, similaridade: 25
Instalação Velox, Mudança de endereço, similaridade: 21
Instalação Velox, Mudança de endereço, similaridade: 21
Instalação Velox, Mudança de endereço, similaridade: 21
Instalação Velox, Mudança de endereço, similaridade: 21
Instalação Velox, Instalação Velox, similaridade: 100
Instalação Velox, Inst Vlx, similaridade: 60
Instalação Velox, Instalação Velox, similaridade: 100


In [119]:
df

Unnamed: 0,descricao
0,Mudança de endereço
1,Mudança de endereço
2,Mudança de endereço
3,Mudança de endereço
4,Instalação Velox
5,Instalação Velox
6,Instalação Velox
