### **1. Etapas**


#### **Etapa 1 — Carregamento e exploração**

* Ler o dataset.
* Observar o formato dos campos textuais (nomes, e-mails, CPFs, CNPJs, telefones).
* Identificar quais estão corretos, incompletos ou com ruído.

In [539]:
import pandas as pd 

df = pd.read_csv("dados.csv")

print (df.head())

print("")

df.sample(5)


                 nome                   email           telefone  \
0       Danielë Souza  o  ig8f_1c@example.com   (71) 959440-7816   
1  S  érgi8 Rodrigues                87a+u5b@   +55 71 57871ê331   
2      H  elena Costa       3uea3-.geû@ufc.br       3191824-4935   
3      Yasmin Martins      c1a7mx1e@gmail com    (98) 95777-3872   
4       Natan Azevedo     -8bz_.b@example.com  +55(92)90330-9232   

                cpf                cnpj           cep           data  \
0  999.9299.9999-99  86.379.402/6542-35     84959-310     331/07/203   
1      43039117b122    2  27824-9638308      09839301      33/6/1994   
2        5555555555      54278498084187      48740164    13//11/2005   
3    951.484.656-70  36.629.946/8044-38       4895343  3  9/088/2029   
4   272.0946.537-26      64641708053143  1  9374-5229   1  9/02/2005   

            valor                                          url  \
0    R$5 3.553,18                   http://site.org/3xkxw/rek8   
1         141.556  h  ttps

Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre
817,Marina Rodrigues,5gr+z3m+216t@mail.com,+ 55 98 0180990,941125173001,78.535.633/0980-60,589596635,01/08/2023,R $ 471.9,http://ite.orrg/32bb6,Cliente: Marina Rodrigues Contato: 5gr+z3m+216...
779,M arina Ribeiro,. aons6j0@mail.com,+55 86 938077358,240.057.357-38,9 5.270.795/1527-70,67á757-60,30/01/202ú2,559aa,https://empresa.com.br/vexaw6/pwdo3gg/23017,Cliente: M arina Ribeiro Contato: . aons6j0@ma...
250,Fernanda Almeida,eh916bhb+o1@outlook com,81996821156,4 9.0811.700-32,28.058.777/7014-26,64607735,02/04/20255,R$1858.47,https://empresa.com.br/cwhn,Cliente: Fernanda Almeida Contato: eh916bhb+o1...
361,Vinícius Carvalho,1lxs++@empresa.com.br,( 11) 93370-7367,3s3333333333,33.861.367/4616-36,2 7470695,23/10/007,R$3919.83,http://dùata.ufc.br/ay2i1/jdrf91/megy,Cliente: Vinícius Carvalho Contato: 1lxs++@emp...
741,Carllos Carvaílho,3mnlidzmo@ufc.br,81 96555-0446,41.034.555-86,53.073.002/2900-78,ô20369-995,27/02/223,f4560,https://exemplo.com/glbi7dk,Cliente: Carllos Carvaílho Contato: 3mnlidzmo@...


In [540]:
print(df.info())
print("")
print(df.shape) 
print("")      
print(df.isnull().sum())
print("")
print(df.nunique())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   nome         1000 non-null   object
 1   email        1000 non-null   object
 2   telefone     1000 non-null   object
 3   cpf          1000 non-null   object
 4   cnpj         1000 non-null   object
 5   cep          1000 non-null   object
 6   data         1000 non-null   object
 7   valor        1000 non-null   object
 8   url          1000 non-null   object
 9   texto_livre  1000 non-null   object
dtypes: object(10)
memory usage: 78.3+ KB
None

(1000, 10)

nome           0
email          0
telefone       0
cpf            0
cnpj           0
cep            0
data           0
valor          0
url            0
texto_livre    0
dtype: int64

nome            860
email          1000
telefone       1000
cpf             976
cnpj            966
cep            1000
data            994
valor           99

##### **Conclusão da Etapa 1**


##### **A análise inicial confirmou que o dataset contém campos textuais com ruído proposital, o que o torna ideal para o uso de expressões regulares para:**

* Extração de padrões válidos (e-mails, CPFs, CNPJs, etc.);
* Padronização e limpeza dos formatos;
* Validação dos campos para verificar conformidade com regras oficiais.

#### **Etapa 2 — Criação de padrões regex**

* Criar padrões para:
  * nome
  * CPF e CNPJ
  * E-mails
  * Telefones (formatos variados, com DDD)
  * CEPs
  * Datas (DD/MM/AAAA)
  * Valores monetários (ex: R$ 1.234,56)
* Testar os padrões com `re.findall()` e `re.search()` , por exemplo.

In [541]:
import re

def teste_findall_search(padrao, texto):

    findall_result = re.findall(padrao, str(texto))
    search_result = re.search(padrao, str(texto))
    search_result = search_result.group(0) if search_result else None
    return [findall_result, search_result]

def extrair_nome(texto):
    padrao = r"[A-Za-zÀ-ÖØ-öø-ÿ]+(?:\s+[A-Za-zÀ-ÖØ-öø-ÿ]+)*"
    return teste_findall_search(padrao, texto)

def extrair_email(texto):
    padrao = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"
    return teste_findall_search(padrao, texto)

def extrair_telefone(texto):
    padrao = r"(?:\+?55\s*[-.]?\s*)?(?:\(?\d{2}\)?\s*[-.]?\s*)?(?:9?\d{4})[-.]?\s?\d{4}"
    return teste_findall_search(padrao, texto)

def extrair_cpf(texto):
    padrao = r"(?<!\d)(\d{3}\.?\d{3}\.?\d{3}-?\d{2})(?!\d)"
    return teste_findall_search(padrao, texto)

def extrair_cnpj(texto):
    padrao = r"(?<!\d)(\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2})(?!\d)"
    return teste_findall_search(padrao, texto)

def extrair_cep(texto):
    padrao = r"(?<!\d)(\d{5}-?\d{3})(?!\d)"
    return teste_findall_search(padrao, texto)

def extrair_data(texto):
    padrao = r"(0?[1-9]|[12]\d|3[01])\s*/\s*(0?[1-9]|1[0-2])\s*/\s*(\d{4})"
    return teste_findall_search(padrao, texto)

def extrair_valor(texto):
    padrao = r"(?:R\$|BRL)?\s*\d{1,3}(?:[.,\s]?\d{3})*(?:[.,]\d{2})"
    return teste_findall_search(padrao, texto)

def extrair_url(texto):
    padrao = r"https?://[^\s/$.?#].[^\s]*"
    return teste_findall_search(padrao, texto)

"""
df['nome_limpo'] = df['nome'].apply(extrair_nome)
df['email_limpo'] = df['email'].apply(extrair_email)
df['telefone_limpo'] = df['telefone'].apply(extrair_telefone)
df['cpf_limpo'] = df['cpf'].apply(extrair_cpf)
df['cnpj_limpo'] = df['cnpj'].apply(extrair_cnpj)
df['cep_limpo'] = df['cep'].apply(extrair_cep)
df['data_limpa'] = df['data'].apply(extrair_data)
df['valor_limpo'] = df['valor'].apply(extrair_valor)
df['url_limpa'] = df['url'].apply(extrair_url)
"""

"""colunas_para_exibir = [
    'nome', 'nome_limpo',
    'email', 'email_limpo',
    'telefone', 'telefone_limpo',
    'cpf', 'cpf_limpo',
    'cnpj', 'cnpj_limpo',
    'cep', 'cep_limpo',
    'data', 'data_limpa',
    'valor', 'valor_limpo',
    'url', 'url_limpa'
]"""


"colunas_para_exibir = [\n    'nome', 'nome_limpo',\n    'email', 'email_limpo',\n    'telefone', 'telefone_limpo',\n    'cpf', 'cpf_limpo',\n    'cnpj', 'cnpj_limpo',\n    'cep', 'cep_limpo',\n    'data', 'data_limpa',\n    'valor', 'valor_limpo',\n    'url', 'url_limpa'\n]"

In [542]:
print(df['cep'])

0         84959-310
1          09839301
2          48740164
3           4895343
4      1  9374-5229
           ...     
995       83573-827
996       3  448049
997      5  2158724
998        57962-25
999       13349-168
Name: cep, Length: 1000, dtype: object


In [None]:

def normaliza_cpf(cpf_texto):

    digits = re.sub(r"\D", "", str(cpf_texto))
    
    if len(digits) == 11:
        return f"{digits[0:3]}.{digits[3:6]}.{digits[6:9]}-{digits[9:11]}"
    
    return None


def normaliza_cnpj(cnpj_texto):
    digits = re.sub(r"\D", "", str(cnpj_texto))
    
    if len(digits) == 14:
        return f"{digits[0:2]}.{digits[2:5]}.{digits[5:8]}/{digits[8:12]}-{digits[12:14]}"
    
    return None


def normaliza_fone(fone_texto):
    digits = re.sub(r"\D", "", str(fone_texto))

    if len(digits) == 11:
        return f"({digits[0:2]}) {digits[2]}{digits[3:7]}-{digits[7:11]}"
    elif len(digits) == 10:
        return f"({digits[0:2]}) {digits[2:6]}-{digits[6:10]}"

    return None

print(normaliza_cpf("12345678901"))    
df_normalizado = df
df_normalizado['cpf'] = df['cpf'].apply(normaliza_cpf)
print(normaliza_cnpj("12345678000195"))    
df_normalizado['cnpj'] = df['cnpj'].apply(normaliza_cnpj)
print(normaliza_fone("11987654321"))  
df_normalizado['telefone'] = df['telefone'].apply(normaliza_fone)     
print(normaliza_fone("1132654321"))      

df_normalizado.to_csv("df_normalizado.csv")


123.456.789-01
12.345.678/0001-95
(11) 98765-4321
(11) 3265-4321


In [544]:
df_normalizado.head()

Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre
0,Danielë Souza,o ig8f_1c@example.com,,,86.379.402/6542-35,84959-310,331/07/203,"R$5 3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...
1,S érgi8 Rodrigues,87a+u5b@,,430.391.171-22,,09839301,33/6/1994,141.556,h ttps://exemplo.com/n8i4p4/mgg1w11/3dgdzv,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...
2,H elena Costa,3uea3-.geû@ufc.br,(31) 91824-4935,,54.278.498/0841-87,48740164,13//11/2005,"_1,371.3",http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...
3,Yasmin Martins,c1a7mx1e@gmail com,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,4895343,3 9/088/2029,"R $ 3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...
4,Natan Azevedo,-8bz_.b@example.com,,,64.641.708/0531-43,1 9374-5229,1 9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...


In [545]:
df.head()

Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre
0,Danielë Souza,o ig8f_1c@example.com,,,86.379.402/6542-35,84959-310,331/07/203,"R$5 3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...
1,S érgi8 Rodrigues,87a+u5b@,,430.391.171-22,,09839301,33/6/1994,141.556,h ttps://exemplo.com/n8i4p4/mgg1w11/3dgdzv,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...
2,H elena Costa,3uea3-.geû@ufc.br,(31) 91824-4935,,54.278.498/0841-87,48740164,13//11/2005,"_1,371.3",http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...
3,Yasmin Martins,c1a7mx1e@gmail com,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,4895343,3 9/088/2029,"R $ 3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...
4,Natan Azevedo,-8bz_.b@example.com,,,64.641.708/0531-43,1 9374-5229,1 9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...


In [546]:
import numpy as np

def validar_cpf(cpf):
    
    cpf = re.sub(r'\D', '', str(cpf))
    if len(cpf) != 11 or cpf == cpf[0] * 11:
        return False
    
    soma = sum(int(cpf[i]) * (10 - i) for i in range(9))
    dig1 = (soma * 10 % 11) % 10
    
    soma = sum(int(cpf[i]) * (11 - i) for i in range(10))
    dig2 = (soma * 10 % 11) % 10

    return dig1 == int(cpf[9]) and dig2 == int(cpf[10])

def validar_cnpj(cnpj):

        cnpj = re.sub(r'\D', '', str(cnpj))
        if len(cnpj) != 14 or cnpj == cnpj[0] * 14:
            return False

        def calcular_digito(cnpj, pesos):
            soma = sum(int(a) * b for a, b in zip(cnpj, pesos))
            resto = soma % 11
            return 0 if resto < 2 else 11 - resto

        dig1 = calcular_digito(cnpj[:12], [5,4,3,2,9,8,7,6,5,4,3,2])
        dig2 = calcular_digito(cnpj[:12] + str(dig1), [6,5,4,3,2,9,8,7,6,5,4,3,2])

        return dig1 == int(cnpj[12]) and dig2 == int(cnpj[13])

df_normalizado['cpf_validado'] = df_normalizado['cpf'].apply(validar_cpf)
df_normalizado['cnpj_validado'] = df_normalizado['cnpj'].apply(validar_cnpj)


In [547]:
extracoes = {
    'nome': extrair_nome,
    'email': extrair_email,
    'telefone': extrair_telefone,
    'cpf': extrair_cpf,
    'cnpj': extrair_cnpj,
    'cep': extrair_cep,
    'data': extrair_data,
    'valor': extrair_valor,
    'url': extrair_url
}

for coluna, func in extracoes.items():
    # Aplica a função que retorna [findall, search]
    resultados = df_normalizado[coluna].apply(func)
    
    # Desempacota a lista em duas colunas separadas
    df_normalizado[f'{coluna}'] = resultados.apply(lambda x: x[0])
    df_normalizado[f'{coluna}'] = resultados.apply(lambda x: x[1])


In [548]:
# Lista todas as colunas que contêm 'search'
colunas_search = [col for col in df_normalizado.columns if 'search' in col]

# Dropa todas essas colunas de uma vez
df_findall = df_normalizado.drop(columns=colunas_search)

# Confere o resultado
df_findall.head()


Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre,cpf_validado,cnpj_validado
0,Danielë Souza,ig8f_1c@example.com,,,86.379.402/6542-35,84959-310,,"3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...,False,False
1,S érgi,,,430.391.171-22,,09839301,3/6/1994,141.55,,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...,True,False
2,H elena Costa,,(31) 91824-4935,,54.278.498/0841-87,48740164,,137,http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...,False,True
3,Yasmin Martins,,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,,,"3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...,True,True
4,Natan Azevedo,-8bz_.b@example.com,,,64.641.708/0531-43,,9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...,False,True


In [549]:
colunas_findall = [col for col in df_normalizado.columns if 'findall' in col]

df_search = df_normalizado.drop(columns=colunas_findall)

df_search.head()


Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre,cpf_validado,cnpj_validado
0,Danielë Souza,ig8f_1c@example.com,,,86.379.402/6542-35,84959-310,,"3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...,False,False
1,S érgi,,,430.391.171-22,,09839301,3/6/1994,141.55,,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...,True,False
2,H elena Costa,,(31) 91824-4935,,54.278.498/0841-87,48740164,,137,http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...,False,True
3,Yasmin Martins,,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,,,"3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...,True,True
4,Natan Azevedo,-8bz_.b@example.com,,,64.641.708/0531-43,,9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...,False,True


In [550]:
df_search.to_csv('df_search.csv')
df_findall.to_csv('df_findall.csv')

In [551]:
extracoes = {
    'nome': extrair_nome,
    'email': extrair_email,
    'telefone': extrair_telefone,
    'cpf': extrair_cpf,
    'cnpj': extrair_cnpj,
    'cep': extrair_cep,
    'data': extrair_data,
    'valor': extrair_valor,
    'url': extrair_url
}
findall = []
search = []

for coluna, func in extracoes.items():
    df_normalizado[f'{coluna}'] = df_normalizado[coluna].apply(func)
    

In [552]:
#vamos usar esse:
df_search.head()

Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre,cpf_validado,cnpj_validado
0,Danielë Souza,ig8f_1c@example.com,,,86.379.402/6542-35,84959-310,,"3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...,False,False
1,S érgi,,,430.391.171-22,,09839301,3/6/1994,141.55,,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...,True,False
2,H elena Costa,,(31) 91824-4935,,54.278.498/0841-87,48740164,,137,http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...,False,True
3,Yasmin Martins,,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,,,"3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...,True,True
4,Natan Azevedo,-8bz_.b@example.com,,,64.641.708/0531-43,,9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...,False,True


# ETAPA 5

In [None]:
df_final = df_search.dropna()
df_final.head()

141     (92) 7649-7974
201     (99) 0059-3257
231    (98) 94033-4884
297     (98) 2611-3534
328    (85) 91562-3067
329     (85) 0437-4126
372    (71) 93905-1011
412    (31) 98392-9025
423          3801-0701
445     (98) 2174-5658
467     (51) 9416-3164
586    (71) 99432-0130
589          0502-1192
980    (95) 94160-6201
Name: telefone, dtype: object

Contando registros incorretos e corrigidos

In [572]:
numero_corrigidos = len(df_final)
print(numero_corrigidos)

numero_antigo = len(df_search)
print(numero_antigo)

erradas = numero_antigo - numero_corrigidos
print(f"O número de valores que estavam incorretos (não foi possível concertar para o padrão): {erradas}")
print(f"O número de corrigidos: {numero_corrigidos}")

14
1000
O número de valores que estavam incorretos (não foi possível concertar para o padrão): 986
O número de corrigidos: 14


contando numero total de registros 

In [573]:
registros_validos_num = numero_corrigidos
registros_invalidos_num = erradas 
registros_total = numero_antigo
print(f'O número total de registros foi: {registros_total}')

O número total de registros foi: 1000
