In [22]:
import pandas as pd
import numpy as np
import re
import unicodedata

def normalize(text):
    text_normalized = unicodedata.normalize('NFD', text.lower())
    text_without_accents = text_normalized.encode('ascii', 'ignore').decode('utf-8')
    return re.sub(r'\W+', '', text_without_accents)

def normalize_word(word):
    if pd.isnull(word):
        return ""
    else :
        words = word.split()
        words = [normalize(word) for word in words]
        return ' '.join(words)

def fix_cell(cell):
    if pd.isnull(cell) or cell == np.nan:
        return
    cell = re.sub(r'\W+', '', cell)
    return cell
    
df = pd.read_csv('Base de Nomes do H8.csv')
df.head()

Unnamed: 0,Nome,Turma,Telefone
0,Abílio Davi Oliveira de Moura,2028,(86) 99960-5927
1,Abner Maia de Oliveira Junior,2026,(85) 99786-9628
2,Adriano Regis Cavalcante Lima Filho,2029,85999280376
3,Aécio Cardoso Monteiro,2028,(85) 99738-8596
4,Ahmed Ehab Fahmy El Tabey,2029,


In [25]:
fix_cell("(86) 99960-5927")
fix_cell(np.nan)


In [26]:
df_test = df.copy()

df_test['Nome'] = df_test['Nome'].apply(lambda x: normalize_word(x))
df_test['Telefone'] = df_test['Telefone'].apply(lambda x: fix_cell(x))

df_test

Unnamed: 0,Nome,Turma,Telefone
0,abilio davi oliveira de moura,2028,86999605927
1,abner maia de oliveira junior,2026,85997869628
2,adriano regis cavalcante lima filho,2029,85999280376
3,aecio cardoso monteiro,2028,85997388596
4,ahmed ehab fahmy el tabey,2029,
...,...,...,...
867,yuri ferreira marcal,2026,64981260759
868,yuri mendes de almeida,2024,85997737441
869,yuri miranda peres,2027,85985951956
870,yves gabriel queiroz de sousa,2026,88996425458


In [27]:
# Criando colunas com possíveis combinações de nomes. 
# Vamos criar a coluna com primeiro nome e sobrenome, e a coluna com primeiro nome e segundo nome.
df_test["Nome1_Nome2"] = df_test["Nome"].apply(lambda x: " ".join(x.split(" ")[:2]))
df_test["Nome1_Sobrenome"] = df_test["Nome"].apply(lambda x: " ".join([x.split(" ")[0], x.split(" ")[-1]]))
df_test["Nome1e2_Sobrenome"] = df_test["Nome"].apply(lambda x: " ".join(x.split(" ")[:2] + [x.split(" ")[-1]]))

df_test

Unnamed: 0,Nome,Turma,Telefone,Nome1_Nome2,Nome1_Sobrenome,Nome1e2_Sobrenome
0,abilio davi oliveira de moura,2028,86999605927,abilio davi,abilio moura,abilio davi moura
1,abner maia de oliveira junior,2026,85997869628,abner maia,abner junior,abner maia junior
2,adriano regis cavalcante lima filho,2029,85999280376,adriano regis,adriano filho,adriano regis filho
3,aecio cardoso monteiro,2028,85997388596,aecio cardoso,aecio monteiro,aecio cardoso monteiro
4,ahmed ehab fahmy el tabey,2029,,ahmed ehab,ahmed tabey,ahmed ehab tabey
...,...,...,...,...,...,...
867,yuri ferreira marcal,2026,64981260759,yuri ferreira,yuri marcal,yuri ferreira marcal
868,yuri mendes de almeida,2024,85997737441,yuri mendes,yuri almeida,yuri mendes almeida
869,yuri miranda peres,2027,85985951956,yuri miranda,yuri peres,yuri miranda peres
870,yves gabriel queiroz de sousa,2026,88996425458,yves gabriel,yves sousa,yves gabriel sousa


In [None]:
df_test.to_csv('base_normalizada.csv', index=False)
