In [None]:
import re
from datetime import datetime

print(" Módulos importados com sucesso!")

 Módulos importados com sucesso!


In [None]:
# ============================================================
# 1. CONCEITOS BÁSICOS
# ============================================================

texto = "ID: 123-45-6789; outro: 987-65-4321"
padrao = r"\d{3}-\d{2}-\d{4}"

print("\n=== Busca básica ===")
print("search:", re.search(padrao, texto))
print("findall:", re.findall(padrao, texto))
print("substituição:", re.sub(padrao, "***-**-****", texto))

# Compilar regex melhora performance
rx = re.compile(padrao)
m = rx.search(texto)
resp = rx.findall(texto)
print("\nCompilado:", m.group())
print("\nCompilado 2 :", resp)



=== Busca básica ===
search: <re.Match object; span=(4, 15), match='123-45-6789'>
findall: ['123-45-6789', '987-65-4321']
substituição: ID: ***-**-****; outro: ***-**-****

Compilado: 123-45-6789

Compilado 2 : ['123-45-6789', '987-65-4321']


In [None]:
# ============================================================
# 2. GRUPOS
# ============================================================

m = re.search(r"(\d{3})-(\d{2})-(\d{4})", texto)
if m:
    inicio,meio, fim = m.groups()
    print("\nGrupos:", inicio, meio, fim)





Grupos: 123 45 6789


In [None]:
m

<re.Match object; span=(4, 15), match='123-45-6789'>

In [None]:
# ============================================================
# 3. PRINCIPAIS CLASSES E QUANTIFICADORES
# ============================================================

print("\nClasses de caracteres:")
print(re.findall(r"\w+", "um dois 3_tres"))
print(re.findall(r"\d{2,4}", "9 11 123 12345 12345"))


Classes de caracteres:
['um', 'dois', '3_tres']
['11', '123', '1234', '1234']


| Parte        | Significado                            | Descrição                                                                                                              |
| ------------ | -------------------------------------- | ---------------------------------------------------------------------------------------------------------------------- |
| `\b`         | **limite de palavra (word boundary)**  | Marca o ponto onde uma palavra começa ou termina. Não consome caractere; é uma "fronteira" lógica.                     |
| `\w+`        | **sequência de caracteres de palavra** | Equivale a `[A-Za-z0-9_]`, ou seja, letras, números e `_` (underscore). O `+` indica **um ou mais** desses caracteres. |
| `\b` (final) | **outro limite de palavra**            | Indica o fim da palavra.                                                                                               |


| Parte   | Significado                    | descrição                                                                                  |
| ------- | ------------------------------ | ------------------------------------------------------------------------------------------ |
| `\d`    | **dígito**                     | Corresponde a qualquer caractere numérico de `0` a `9`. Equivalente a `[0-9]`.             |
| `{2,4}` | **quantificador de repetição** | Diz que o padrão anterior (`\d`) deve aparecer **pelo menos 2 vezes e no máximo 4 vezes**. |


In [None]:
# ============================================================
# 4. FLAGS ÚTEIS
# ============================================================

rx_email = re.compile(r"""
    ^[A-Za-z0-9._%+-]+      # parte local
    @
    [A-Za-z0-9.-]+          # domínio
    \.[A-Za-z]{2,}$         # TLD
""", re.X)

emails_teste = ["abc@dominio.com", "inválido@@x", "123@asidjha,com"]
print("\nEmails válidos:")
for e in emails_teste:
    print(f"{e:20} ->", bool(rx_email.match(e)))



Emails válidos:
abc@dominio.com      -> True
inválido@@x          -> False
123@asidjha,comhjk   -> False


| Símbolo             | Significado                | Exemplo válido         |
| ------------------- | -------------------------- | ---------------------- |
| `^` / `$`           | Início e fim da string     | força o padrão inteiro |
| `[A-Za-z0-9._%+-]+` | Parte local (antes do `@`) | `joao.silva`           |
| `@`                 | Separador                  | —                      |
| `[A-Za-z0-9.-]+`    | Domínio                    | `empresa`              |
| `\.`                | Ponto literal              | `.com`                 |
| `[A-Za-z]{2,}`      | Sufixo (TLD)               | `com`, `br`, `org`     |


In [None]:
# ============================================================
# 5. LOOKAHEADS E LOOKBEHINDS
# ============================================================

print("\nLookahead positivo (números seguidos de 'kg'):")
print(re.findall(r"\d+(?=\s*kg)", "10kg, 5 kg, 7g"))



Lookahead positivo (números seguidos de 'kg'):
['10', '5']


| Parte       | Significado              | Explicação                                                   |
| ----------- | ------------------------ | ------------------------------------------------------------ |
| `\d+`       | **um ou mais dígitos**   | captura o número (ex: `10`, `5`, `7`)                        |
| `(?= ... )` | **lookahead positivo**   | verifica se logo após há um certo padrão, **sem consumi-lo** |
| `\s*`       | **zero ou mais espaços** | permite "10kg" ou "5 kg"                                     |
| `kg`        | **literal “kg”**         | a unidade que estamos checando                               |


In [None]:
# ============================================================
# 6. PADRÕES PRÁTICOS (BRASIL)
# ============================================================

RX_CPF = re.compile(r"(?<!\d)(?:\d{3}\.?\d{3}\.?\d{3}-?\d{2})(?!\d)")
RX_CNPJ = re.compile(r"(?<!\d)(?:\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2})(?!\d)")
RX_CEP = re.compile(r"(?<!\d)\d{5}-?\d{3}(?!\d)")
RX_DATA = re.compile(r"(?<!\d)(0?[1-9]|[12]\d|3[01])/(0?[1-9]|1[0-2])/\d{4}(?!\d)")
RX_FONE = re.compile(r"(?x)(?:\+?55\s*)?(?:\(?\d{2}\)?\s*)?(?:9?\d{4})-?\s?\d{4}")
RX_EMAIL = rx_email
RX_URL = re.compile(r"https?://[^\s/$.?#].[^\s]*", re.I)
RX_NOME = re.compile(r"[A-Za-zÀ-ÖØ-öø-ÿ]+(?:\s+[A-Za-zÀ-ÖØ-öø-ÿ]+)+")

print("\nValidação de padrões BR:")
texto_doc = """
Nome: Ana Beatriz de Souza
CPF: 529.982.247-25
CNPJ: 12.345.678/0001-95
CEP: 60440-000
E-mail: ana.souza@example.com
Telefone: +55 (85) 99876-5432
"""

campos = {
    "nome": RX_NOME.search(texto_doc),
    "cpf": RX_CPF.search(texto_doc),
    "cnpj": RX_CNPJ.search(texto_doc),
    "cep": RX_CEP.search(texto_doc),
    "email": RX_EMAIL.search("ana.souza@example.com"),
    "telefone": RX_FONE.search(texto_doc),
}
extraidos = {k: (m.group(0) if m else None) for k, m in campos.items()}
print(extraidos)



Validação de padrões BR:
{'nome': 'Ana Beatriz de Souza\nCPF', 'cpf': '529.982.247-25', 'cnpj': '12.345.678/0001-95', 'cep': '60440-000', 'email': 'ana.souza@example.com', 'telefone': '+55 (85) 99876-5432'}


| Parte       | Tipo                 | Função                               |
| ----------- | -------------------- | ------------------------------------ |
| `(?<!\d)`   | Lookbehind negativo  | impede casar se houver dígito antes  |
| `(?: ... )` | Grupo não capturante | agrupa sem criar subcaptura          |
| `\d{3}`     | 3 dígitos            | início do CPF                        |
| `\.?`       | ponto opcional       | aceita pontuação                     |
| `-?`        | hífen opcional       | idem                                 |
| `(?!\d)`    | Lookahead negativo   | impede casar se houver dígito depois |


| Símbolo       | Tipo                   | Significado                                 |
| ------------- | ---------------------- | ------------------------------------------- |
| `(?x)`        | Flag                   | Modo legível (ignora espaços e comentários) |
| `(?: ... )`   | Grupo não capturante   | Agrupa sem criar subgrupo                   |
| `\+?55`       | DDI                    | “+55” opcional                              |
| `\(?\d{2}\)?` | DDD                    | “(85)” ou “85”                              |
| `9?`          | Prefixo móvel opcional | Pode ter ou não o “9”                       |
| `-?\s?`       | Separador opcional     | hífen e/ou espaço                           |
| `\d{4}`       | Final                  | Últimos 4 dígitos obrigatórios              |


In [None]:
# ============================================================
# 7. FUNÇÕES DE VALIDAÇÃO CPF/CNPJ/DATA
# ============================================================

def cpf_valido(cpf: str) -> bool:
    nums = re.sub(r"\D", "", cpf)
    if len(nums) != 11 or len(set(nums)) == 1:
        return False
    def digito(parcial):
        soma = sum(int(d)*w for d, w in zip(parcial, range(len(parcial)+1, 1, -1)))
        r = (soma * 10) % 11
        return '0' if r == 10 else str(r)
    d1 = digito(nums[:9])
    d2 = digito(nums[:9] + d1)
    return nums[-2:] == d1 + d2

def cnpj_valido(cnpj: str) -> bool:
    nums = re.sub(r"\D", "", cnpj)
    if len(nums) != 14 or len(set(nums)) == 1:
        return False
    pesos1 = [5,4,3,2,9,8,7,6,5,4,3,2]
    pesos2 = [6] + pesos1
    def calc(parcial, pesos):
        s = sum(int(d)*p for d, p in zip(parcial, pesos))
        r = s % 11
        return '0' if r < 2 else str(11 - r)
    d1 = calc(nums[:12], pesos1)
    d2 = calc(nums[:12] + d1, pesos2)
    return nums[-2:] == d1 + d2

def data_br_valida(s: str) -> bool:
    m = RX_DATA.fullmatch(s)
    if not m:
        return False
    d, M, a = map(int, s.split("/"))
    try:
        datetime(a, M, d)
        return True
    except ValueError:
        return False

print("\nValidação prática:")
print("CPF válido?", cpf_valido("529.982.247-25"))
print("CNPJ válido?", cnpj_valido("12.345.678/0001-95"))
print("Data válida?", data_br_valida("29/02/2024"))


Validação prática:
CPF válido? True
CNPJ válido? True
Data válida? True


In [None]:
# ============================================================
# 8. NORMALIZAÇÃO DE CAMPOS
# ============================================================

def normaliza_cpf(texto: str) -> list[str]:
    cpfs_norm = []
    for m in RX_CPF.finditer(texto):
        nums = re.sub(r"\D", "", m.group())
        cpfs_norm.append(f"{nums[:3]}.{nums[3:6]}.{nums[6:9]}-{nums[9:]}")
    return cpfs_norm

def extrai_campos(texto: str) -> dict:
    cpf_m = RX_CPF.search(texto)
    cnpj_m = RX_CNPJ.search(texto)
    cep_m  = RX_CEP.search(texto)

    out = {}
    if cpf_m:
        cpf = cpf_m.group()
        out["cpf"] = {
            "valor": cpf,
            "normalizado": normaliza_cpf(cpf)[0],
            "valido": cpf_valido(cpf),
        }
    if cnpj_m:
        cnpj = cnpj_m.group()
        out["cnpj"] = {
            "valor": cnpj,
            "valido": cnpj_valido(cnpj),
        }
    if cep_m:
        cep = re.sub(r"\D", "", cep_m.group())
        out["cep"] = cep[:5] + "-" + cep[5:]
    return out

print("\nExtração e normalização:")
print(extrai_campos(texto_doc))



Extração e normalização:
{'cpf': {'valor': '529.982.247-25', 'normalizado': '529.982.247-25', 'valido': True}, 'cnpj': {'valor': '12.345.678/0001-95', 'valido': True}, 'cep': '60440-000'}


In [None]:
# ============================================================
# 9. LOOKAROUNDS AVANÇADOS E SENHAS
# ============================================================

RX_SENHA = re.compile(r"^(?=.*[a-z])(?=.*[A-Z])(?=.*\d).{8,}$")
senhas = ["abc", "Abc12345", "senhaSemNumero", "12345678aA"]
print("\nValidação de senhas:")
for s in senhas:
    print(f"{s:20} ->", bool(RX_SENHA.match(s)))



Validação de senhas:
abc                  -> False
Abc12345             -> True
senhaSemNumero       -> False
12345678aA           -> True


| Parte         | Nome               | Função principal                                |
| ------------- | ------------------ | ----------------------------------------------- |
| `^`           | âncora de início   | garante que o padrão começa no início da string |
| `(?=.*[a-z])` | lookahead positivo | exige pelo menos uma letra minúscula            |
| `(?=.*[A-Z])` | lookahead positivo | exige pelo menos uma letra maiúscula            |
| `(?=.*\d)`    | lookahead positivo | exige pelo menos um número                      |
| `.{8,}`       | corpo da senha     | exige no mínimo 8 caracteres de qualquer tipo   |
| `$`           | âncora de fim      | garante que o padrão termina no final da string |


In [None]:
# ============================================================
# 10. MINI TESTES AUTOMÁTICOS
# ============================================================

def testa():
    assert RX_EMAIL.match("a+b.c-d@dominio.com.br")
    assert not RX_EMAIL.match("inválido@@x")
    assert cpf_valido("529.982.247-25")
    assert not cpf_valido("111.111.111-11")
    assert data_br_valida("29/02/2024")
    assert not data_br_valida("31/11/2024")
    print("\nTodos os testes automáticos passaram!")

testa()



Todos os testes automáticos passaram!



## **Projeto: Extração e Limpeza de Dados e ajustes Textuais com Expressões Regulares**


Aplicar expressões regulares em Python para extrair, validar e normalizar informações estruturadas (como e-mails, telefones, CPFs, CNPJs, CEPs, URLs, datas, valores monetários etc.) a partir de um dataset textual real.


### **1. Dataset**


- Dados sintéticos, com campos como CNPJ, CPF, e-mails, endereços e telefones com ruídos.
https://drive.google.com/file/d/1511u4Hl99JTD2tlkQlIcp77HPNhn3sNE/view?usp=sharing

### **3. Etapas**


#### **Etapa 1 — Carregamento e exploração**

* Ler o dataset.
* Observar o formato dos campos textuais (nomes, e-mails, CPFs, CNPJs, telefones).
* Identificar quais estão corretos, incompletos ou com ruído.

#### **Etapa 2 — Criação de padrões regex**

* Criar padrões para:
  * nome
  * CPF e CNPJ
  * E-mails
  * Telefones (formatos variados, com DDD)
  * CEPs
  * Datas (DD/MM/AAAA)
  * Valores monetários (ex: R$ 1.234,56)
* Testar os padrões com `re.findall()` e `re.search()` , por exemplo.

#### **Etapa 3 — Normalização**

* Padronizar todos os CPFs para o formato `XXX.XXX.XXX-YY`.
* Padronizar telefones para o formato `(XX) 9XXXX-XXXX`.
* Corrigir CNPJs para `XX.XXX.XXX/0001-YY`.
* Criar funções `normaliza_cpf()`, `normaliza_cnpj()`, `normaliza_fone()` etc.

#### **Etapa 4 — Validação**

* Implementar funções de validação de CPF e CNPJ.
* Marcar no DataFrame quais registros são válidos/inválidos.

#### **Etapa 5 —  relatório**

* Contar quantos registros estavam incorretos e quantos foram normalizados.
* Gerar um pequeno relatório com:

  * Número total de registros.
  * Percentual de registros válidos e inválidos.
  * Campos com mais inconsistências.
  * Exemplos antes/depois da limpeza.
  * Metodologia de correção


In [20]:
import pandas as pd
import re
import numpy
import os

pd.set_option("display.max_colwidth", 120)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 120)

### Etapa 1 - Carregamento e exploração

In [21]:
df = pd.read_csv("../dataset/dataset_sintetico_regex_ruidos.csv")
print(df.head())
print(df.columns)
print(df.info())

for col in ["nome", "email", "cpf", "cnpj","telefone"]:
    if col in df.columns:
        print(f"\n-- {col.upper()} ---")
        print(df[col].sample(10, random_state=42))

                 nome                   email           telefone               cpf                cnpj           cep  \
0       Danielë Souza  o  ig8f_1c@example.com   (71) 959440-7816  999.9299.9999-99  86.379.402/6542-35     84959-310   
1  S  érgi8 Rodrigues                87a+u5b@   +55 71 57871ê331      43039117b122    2  27824-9638308      09839301   
2      H  elena Costa       3uea3-.geû@ufc.br       3191824-4935        5555555555      54278498084187      48740164   
3      Yasmin Martins      c1a7mx1e@gmail com    (98) 95777-3872    951.484.656-70  36.629.946/8044-38       4895343   
4       Natan Azevedo     -8bz_.b@example.com  +55(92)90330-9232   272.0946.537-26      64641708053143  1  9374-5229   

            data           valor                                          url  \
0     331/07/203    R$5 3.553,18                   http://site.org/3xkxw/rek8   
1      33/6/1994         141.556  h  ttps://exemplo.com/n8i4p4/mgg1w11/3dgdzv   
2    13//11/2005        _1,371.3    

In [22]:

def validar_nome(nome):
    return bool(re.match(r"^[A-Za-zÀ-ÿ' ]+$", str(nome).strip()))

def validar_email(email):
    return bool(re.match(r"^[\w\.-]+@[\w\.-]+\.\w+$", str(email).strip()))

def validar_cpf(cpf):
    return bool(re.match(r"^\d{3}\.\d{3}\.\d{3}-\d{2}$", str(cpf).strip()))

def validar_cnpj(cnpj):
    return bool(re.match(r"^\d{2}\.\d{3}\.\d{3}/\d{4}-\d{2}$", str(cnpj).strip()))

def validar_telefone(tel):
    return bool(re.match(r"^\(?\d{2}\)? ?9?\d{4}-?\d{4}$", str(tel).strip()))

df["nome_valido"] = df["nome"].apply(validar_nome)
df["email_valido"] = df["email"].apply(validar_email)
df["cpf_valido"] = df["cpf"].apply(validar_cpf)
df["cnpj_valido"] = df["cnpj"].apply(validar_cnpj)
df["telefone_valido"] = df["telefone"].apply(validar_telefone)

valid_counts = {
    col: df[f"{col}_valido"].value_counts()
    for col in ["nome", "email", "cpf", "cnpj", "telefone"]
    if f"{col}_valido" in df.columns
}

for campo, contagem in valid_counts.items():
    print(f"\n--- {campo.upper()} ---")
    print(contagem)



--- NOME ---
nome_valido
True     935
False     65
Name: count, dtype: int64

--- EMAIL ---
email_valido
False    547
True     453
Name: count, dtype: int64

--- CPF ---
cpf_valido
False    779
True     221
Name: count, dtype: int64

--- CNPJ ---
cnpj_valido
False    767
True     233
Name: count, dtype: int64

--- TELEFONE ---
telefone_valido
False    774
True     226
Name: count, dtype: int64


### Etapa 2 - Criação de padrões regex 

In [23]:
col_nome     = "nome"
col_email    = "email"
col_cpf      = "cpf"
col_cnpj     = "cnpj"
col_telefone = "telefone"
col_cep      = "cep"
col_data     = "data"        
col_valor    = "valor" 

PAT_NOME      = r"\b(?:[A-ZÀ-Ý][a-zà-ÿ']+(?:-[A-ZÀ-Ý][a-zà-ÿ']+)?(?:\s+(?:da|de|do|dos|das|e))?)+(?:\s+[A-ZÀ-Ý][a-zà-ÿ']+(?:-[A-ZÀ-Ý][a-zà-ÿ']+)?)\b"
PAT_CPF       = r"\b(?:\d{3}\.\d{3}\.\d{3}-\d{2}|\d{11})\b"
PAT_CNPJ      = r"\b(?:\d{2}\.\d{3}\.\d{3}/\d{4}-\d{2}|\d{14})\b"
PAT_EMAIL     = r"\b[a-zA-Z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b"
PAT_TELEFONE  = r"\b(?:\+?55\s*)?(?:\(?\d{2}\)?[\s-]*)?(?:9?\d{4}[\s-]?\d{4})\b"
PAT_CEP       = r"\b\d{5}-?\d{3}\b"
PAT_DATA_BR   = r"\b(?:0[1-9]|[12]\d|3[01])/(?:0[1-9]|1[0-2])/(?:19|20)\d{2}\b"
PAT_VALOR_BRL = r"\b-?\s*R\$\s*(?:\d{1,3}(?:\.\d{3})*|\d+)(?:,\d{2})?\b"

def show_regex_tests(df, col, pattern, n=5):
    if col in df.columns:
        print(f"\nTestando regex em: {col}")
        sample = df[col].astype(str).head(n).tolist()
        for i, txt in enumerate(sample, 1):
            found_all = re.findall(pattern, txt)
            first = re.search(pattern, txt)
            print(f"- Linha {i}:")
            print("  Texto:", txt)
            print("  findall:", found_all)
            print("  search :", first.group(0) if first else None)

for col, pat in [
    (col_nome, PAT_NOME),
    (col_email, PAT_EMAIL),
    (col_cpf, PAT_CPF),
    (col_cnpj, PAT_CNPJ),
    (col_telefone, PAT_TELEFONE),
    (col_cep, PAT_CEP),
    (col_data, PAT_DATA_BR),
    (col_valor, PAT_VALOR_BRL),
]:
    if isinstance(col, str) and col in df.columns:
        show_regex_tests(df, col, pat, n=5)



Testando regex em: nome
- Linha 1:
  Texto: Danielë Souza
  findall: ['Danielë Souza']
  search : Danielë Souza
- Linha 2:
  Texto: S  érgi8 Rodrigues
  findall: []
  search : None
- Linha 3:
  Texto: H  elena Costa
  findall: []
  search : None
- Linha 4:
  Texto: Yasmin Martins
  findall: ['Yasmin Martins']
  search : Yasmin Martins
- Linha 5:
  Texto: Natan Azevedo
  findall: ['Natan Azevedo']
  search : Natan Azevedo

Testando regex em: email
- Linha 1:
  Texto: o  ig8f_1c@example.com
  findall: ['ig8f_1c@example.com']
  search : ig8f_1c@example.com
- Linha 2:
  Texto: 87a+u5b@
  findall: []
  search : None
- Linha 3:
  Texto: 3uea3-.geû@ufc.br
  findall: []
  search : None
- Linha 4:
  Texto: c1a7mx1e@gmail com
  findall: []
  search : None
- Linha 5:
  Texto:  -8bz_.b@example.com
  findall: ['8bz_.b@example.com']
  search : 8bz_.b@example.com

Testando regex em: cpf
- Linha 1:
  Texto: 999.9299.9999-99
  findall: []
  search : None
- Linha 2:
  Texto: 43039117b122
  findall: []


### Etapa 3 - Normalização

In [None]:
def only_digits(s: str) -> str:
    return re.sub(r"\D+", "", str(s) if s is not None else "")

def normaliza_cpf(s: str):
    if not isinstance(s, str) or not re.search(PAT_CPF, s):
        return None
    d = only_digits(s)
    if len(d) != 11:
        return None
    return f"{d[0:3]}.{d[3:6]}.{d[6:9]}-{d[9:11]}"

def normaliza_cnpj(s: str):
    if not isinstance(s, str) or not re.search(PAT_CNPJ, s):
        return None
    d = only_digits(s)
    if len(d) != 14:
        return None
    return f"{d[0:2]}.{d[2:5]}.{d[5:8]}/{d[8:12]}-{d[12:14]}"

def normaliza_fone(s: str):
    if not isinstance(s, str) or not re.search(PAT_TELEFONE, s):
        return None
    d = only_digits(s)
    if d.startswith("55") and len(d) >= 12:
        d = d[2:]
    if len(d) == 10:
        d = d[:2] + "9" + d[2:]
    if len(d) != 11:
        return None
    ddd, p1, p2 = d[:2], d[2:7], d[7:]
    return f"({ddd}) {p1}-{p2}"

if "cpf" in df.columns:
    df["cpf_normalizado"] = df["cpf"].apply(normaliza_cpf)

if "cnpj" in df.columns:
    df["cnpj_normalizado"] = df["cnpj"].apply(normaliza_cnpj)

if "telefone" in df.columns:
    df["telefone_normalizado"] = df["telefone"].apply(normaliza_fone)

display(df[[ "cpf", "cpf_normalizado", 
             "cnpj", "cnpj_normalizado", 
             "telefone", "telefone_normalizado" ]].head(10))


Unnamed: 0,cpf,cpf_normalizado,cnpj,cnpj_normalizado,telefone,telefone_normalizado
0,999.9299.9999-99,,86.379.402/6542-35,86.379.402/6542-35,(71) 959440-7816,
1,43039117b122,,2 27824-9638308,,+55 71 57871ê331,
2,5555555555,,54278498084187,54.278.498/0841-87,3191824-4935,(31) 91824-4935
3,951.484.656-70,951.484.656-70,36.629.946/8044-38,36.629.946/8044-38,(98) 95777-3872,(98) 95777-3872
4,272.0946.537-26,,64641708053143,64.641.708/0531-43,+55(92)90330-9232,(92) 90330-9232
5,989.413.435-18,989.413.435-18,40.084.271/0947-77,40.084.271/0947-77,1 1 97116-7190,
6,876.038.597-94,876.038.597-94,3 4.824.771/0322-96,,11913171274,(11) 91317-1274
7,379.237.474-90,379.237.474-90,74821759464755-,,+55 41 713695594,
8,351.585064-34,,7 1.390.053/293j1-83,,41 92904-ô2284,
9,333333333333,,99.809.402/4ã455-67,,+65(31)96120-1836,


### Etapa 4 - Validação

In [None]:
def valida_cpf(cpf: str) -> bool:
    d = only_digits(cpf)
    if len(d) != 11 or d == d[0]*11:
        return False
    s = sum(int(d[i]) * (10 - i) for i in range(9))
    r = (s * 10) % 11
    dv1 = 0 if r == 10 else r
    if dv1 != int(d[9]): 
        return False
    s = sum(int(d[i]) * (11 - i) for i in range(10))
    r = (s * 10) % 11
    dv2 = 0 if r == 10 else r
    return dv2 == int(d[10])

def valida_cnpj(cnpj: str) -> bool:
    d = only_digits(cnpj)
    if len(d) != 14 or d == d[0]*14:
        return False
    def dv_calc(nums, pesos):
        s = sum(int(n)*p for n,p in zip(nums, pesos))
        r = s % 11
        return 0 if r < 2 else 11 - r
    dv1 = dv_calc(d[:12], [5,4,3,2,9,8,7,6,5,4,3,2])
    if dv1 != int(d[12]): 
        return False
    dv2 = dv_calc(d[:12] + str(dv1), [6,5,4,3,2,9,8,7,6,5,4,3,2])
    return dv2 == int(d[13])

# Marcar no DataFrame
if isinstance(col_cpf, str) and col_cpf in df.columns:
    df["cpf_valido"] = df[col_cpf].apply(valida_cpf)

if isinstance(col_cnpj, str) and col_cnpj in df.columns:
    df["cnpj_valido"] = df[col_cnpj].apply(valida_cnpj)

display(df.head(10))


Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre,nome_valido,email_valido,cpf_valido,cnpj_valido,telefone_valido,cpf_normalizado,cnpj_normalizado,telefone_normalizado
0,Danielë Souza,o ig8f_1c@example.com,(71) 959440-7816,999.9299.9999-99,86.379.402/6542-35,84959-310,331/07/203,"R$5 3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@example.com | (71) 959440-7816 Identificação: CPF 999.9299.9999-99 / CNPJ ...,True,False,False,False,False,,86.379.402/6542-35,
1,S érgi8 Rodrigues,87a+u5b@,+55 71 57871ê331,43039117b122,2 27824-9638308,09839301,33/6/1994,141.556,h ttps://exemplo.com/n8i4p4/mgg1w11/3dgdzv,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ | +55 71 57871ê331 Identificação: CPF 43039117b122 / CNPJ 2 27824-96383...,False,False,True,False,False,,,
2,H elena Costa,3uea3-.geû@ufc.br,3191824-4935,5555555555,54278498084187,48740164,13//11/2005,"_1,371.3",http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc.br | 3191824-4935 Identificação: CPF 5555555555 / CNPJ 54278498084187...,True,True,False,True,True,,54.278.498/0841-87,(31) 91824-4935
3,Yasmin Martins,c1a7mx1e@gmail com,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,4895343,3 9/088/2029,"R $ 3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmail com | (98) 95777-3872 Identificação: CPF 951.484.656-70 / CNPJ 36.62...,True,False,True,True,True,951.484.656-70,36.629.946/8044-38,(98) 95777-3872
4,Natan Azevedo,-8bz_.b@example.com,+55(92)90330-9232,272.0946.537-26,64641708053143,1 9374-5229,1 9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@example.com | +55(92)90330-9232 Identificação: CPF 272.0946.537-26 / CNPJ 64...,True,True,False,True,False,,64.641.708/0531-43,(92) 90330-9232
5,Paulo osta,hmuh8lmn@mail.com,1 1 97116-7190,989.413.435-18,40.084.271/0947-77,2941ì3-186,14/02/2010,2756.94 BRL,http://csite.org/t1tdgn/qfkp,Cliente: Paulo osta Contato: hmuh8lmn@mail.com | 1 1 97116-7190 Identificação: CPF 989.413.435-18 / CNPJ 40.084.271/...,True,True,True,False,False,989.413.435-18,40.084.271/0947-77,
6,Fernanda Ribeiro,sz9c3fuquhz6@outlook.com,11913171274,876.038.597-94,3 4.824.771/0322-96,46773-782,19/10/20õ22,R$ 2462.93,https://empresacom.br/0v6ra,Cliente: Fernanda Ribeiro Contato: sz9c3fuquhz6@outlook.com | 11913171274 Identificação: CPF 876.038.597-94 / CNPJ 3...,True,True,True,False,True,876.038.597-94,,(11) 91317-1274
7,M arin Ribeiro,70.lkklf-@outlook.com,+55 41 713695594,379.237.474-90,74821759464755-,06409097,2 8/04/2010,1070.65,h ttps://empresa.com.br/qigc,Cliente: M arin Ribeiro Contato: 70.lkklf-@outlook.com | +55 41 713695594 Identificação: CPF 379.237.474-90 / CNPJ 7...,True,True,True,True,False,379.237.474-90,,
8,P aulo Ribeeiro,_j0g5-0rcxn@dominio.org,41 92904-ô2284,351.585064-34,7 1.390.053/293j1-83,1 0205-395,07/09/2005,R$2417.18,https://contato.me/42x,Cliente: P aulo Ribeeiro Contato: _j0g5-0rcxn@dominio.org | 41 92904-ô2284 Identificação: CPF 351.585064-34 / CNPJ 7...,True,True,True,False,False,,,
9,Beatriz Costa,g.6nj4ogw@mail.comh,+65(31)96120-1836,333333333333,99.809.402/4ã455-67,7 5254-599,56/10v/1993,1739..69,https:///emresa.comö.br/520rn6/w1h,Cliente: Beatriz Costa Contato: g.6nj4ogw@mail.comh | +65(31)96120-1836 Identificação: CPF 333333333333 / CNPJ 99.80...,True,True,False,True,False,,,


### Etapa 5 - Relatório

In [None]:
total = len(df)

relatorio = {}

if "cpf_normalizado" in df.columns:
    relatorio["cpf_normalizados"] = int(df["cpf_normalizado"].notna().sum())
if "cpf_valido" in df.columns:
    relatorio["cpf_validos"] = int(df["cpf_valido"].sum())
    relatorio["cpf_invalidos"] = int((~df["cpf_valido"]).sum())

if "cnpj_normalizado" in df.columns:
    relatorio["cnpj_normalizados"] = int(df["cnpj_normalizado"].notna().sum())
if "cnpj_valido" in df.columns:
    relatorio["cnpj_validos"] = int(df["cnpj_valido"].sum())
    relatorio["cnpj_invalidos"] = int((~df["cnpj_valido"]).sum())

if "telefone_normalizado" in df.columns:
    relatorio["telefone_normalizados"] = int(df["telefone_normalizado"].notna().sum())

percentuais = {}
if "cpf_valido" in df.columns:
    percentuais["%cpf_validos"] = round(100 * df["cpf_valido"].mean(), 2)
    percentuais["%cpf_invalidos"] = round(100 * (1 - df["cpf_valido"].mean()), 2)
if "cnpj_valido" in df.columns:
    percentuais["%cnpj_validos"] = round(100 * df["cnpj_valido"].mean(), 2)
    percentuais["%cnpj_invalidos"] = round(100 * (1 - df["cnpj_valido"].mean()), 2)

print(f"Número total de registros: {total}")
print("\nContagens:")
for k, v in relatorio.items():
    print(f"- {k}: {v}")
print("\nPercentuais:")
for k, v in percentuais.items():
    print(f"- {k}: {v}%")

print("\nExemplos antes/depois:")
if "cpf_normalizado" in df.columns:
    print("\nCPF:")
    display(df[[col_cpf, "cpf_normalizado", "cpf_valido"]].head(10) if "cpf_valido" in df.columns else df[[col_cpf, "cpf_normalizado"]].head(10))

if "cnpj_normalizado" in df.columns:
    print("\nCNPJ:")
    display(df[[col_cnpj, "cnpj_normalizado", "cnpj_valido"]].head(10) if "cnpj_valido" in df.columns else df[[col_cnpj, "cnpj_normalizado"]].head(10))

if "telefone_normalizado" in df.columns:
    print("\nTelefone:")
    display(df[[col_telefone, "telefone_normalizado"]].head(10))

print("\nMetodologia de correção (resumo):")
print("- Regex para observar formato (Etapa 2).")
print("- Normalização de CPF, CNPJ e Telefone para formatos padrão (Etapa 3).")
print("- Validação de CPF/CNPJ por dígitos verificadores (Etapa 4).")
print("- Relatório com contagens/percentuais e exemplos (Etapa 5).")


Número total de registros: 1000

Contagens:
- cpf_normalizados: 331
- cpf_validos: 465
- cpf_invalidos: 535
- cnpj_normalizados: 341
- cnpj_validos: 475
- cnpj_invalidos: 525
- telefone_normalizados: 390

Percentuais:
- %cpf_validos: 46.5%
- %cpf_invalidos: 53.5%
- %cnpj_validos: 47.5%
- %cnpj_invalidos: 52.5%

Exemplos antes/depois:

CPF:


Unnamed: 0,cpf,cpf_normalizado,cpf_valido
0,999.9299.9999-99,,False
1,43039117b122,,True
2,5555555555,,False
3,951.484.656-70,951.484.656-70,True
4,272.0946.537-26,,False
5,989.413.435-18,989.413.435-18,True
6,876.038.597-94,876.038.597-94,True
7,379.237.474-90,379.237.474-90,True
8,351.585064-34,,True
9,333333333333,,False



CNPJ:


Unnamed: 0,cnpj,cnpj_normalizado,cnpj_valido
0,86.379.402/6542-35,86.379.402/6542-35,False
1,2 27824-9638308,,False
2,54278498084187,54.278.498/0841-87,True
3,36.629.946/8044-38,36.629.946/8044-38,True
4,64641708053143,64.641.708/0531-43,True
5,40.084.271/0947-77,40.084.271/0947-77,False
6,3 4.824.771/0322-96,,False
7,74821759464755-,,True
8,7 1.390.053/293j1-83,,False
9,99.809.402/4ã455-67,,True



Telefone:


Unnamed: 0,telefone,telefone_normalizado
0,(71) 959440-7816,
1,+55 71 57871ê331,
2,3191824-4935,(31) 91824-4935
3,(98) 95777-3872,(98) 95777-3872
4,+55(92)90330-9232,(92) 90330-9232
5,1 1 97116-7190,
6,11913171274,(11) 91317-1274
7,+55 41 713695594,
8,41 92904-ô2284,
9,+65(31)96120-1836,



Metodologia de correção (resumo):
- Regex para observar formato (Etapa 2).
- Normalização de CPF, CNPJ e Telefone para formatos padrão (Etapa 3).
- Validação de CPF/CNPJ por dígitos verificadores (Etapa 4).
- Relatório com contagens/percentuais e exemplos (Etapa 5).


# Relatório — Extração e Limpeza de Dados com Expressões Regulares

### Estatísticas gerais
**Número total de registros:** 1000  

---

### Contagens
| Campo | Normalizados | Válidos | Inválidos |
|:------|:-------------:|:--------:|:-----------:|
| **CPF** | 331 | 465 | 535 |
| **CNPJ** | 341 | 475 | 525 |
| **Telefone** | 390 | — | — |

---

### Percentuais
| Métrica | Percentual |
|:--------|:------------:|
| % CPF válidos | **46,5 %** |
| % CPF inválidos | **53,5 %** |
| % CNPJ válidos | **47,5 %** |
| % CNPJ inválidos | **52,5 %** |

---

### Exemplos — antes e depois da limpeza

#### **CPF**
| Original | Normalizado | Válido |
|:----------|:-------------|:-------|
| 999.9299.9999-99 | — | ❌ |
| 43039117b122 | — | ✅ *(formato incorreto, mas passou na validação de dígito)* |
| 5555555555 | — | ❌ |
| 951.484.656-70 | 951.484.656-70 | ✅ |
| 272.0946.537-26 | — | ❌ |
| 989.413.435-18 | 989.413.435-18 | ✅ |
| 876.038.597-94 | 876.038.597-94 | ✅ |
| 379.237.474-90 | 379.237.474-90 | ✅ |
| 351.585064-34 | — | ✅ *(faltando ponto, formato incorreto)* |
| 333333333333 | — | ❌ |

#### **CNPJ**
| Original | Normalizado | Válido |
|:----------|:-------------|:-------|
| 86.379.402/6542-35 | 86.379.402/6542-35 | ❌ |
| 2  27824-9638308 | — | ❌ |
| 54278498084187 | 54.278.498/0841-87 | ✅ |
| 36.629.946/8044-38 | 36.629.946/8044-38 | ✅ |
| 64641708053143 | 64.641.708/0531-43 | ✅ |
| 40.084.271/0947-77 | 40.084.271/0947-77 | ❌ |
| 3  4.824.771/0322-96 | — | ❌ |
| 74821759464755- | — | ✅ *(formato incorreto, passou na validação)* |
| 7  1.390.053/293j1-83 | — | ❌ |
| 99.809.402/4ã455-67 | — | ✅ *(ruído, mas passou na validação)* |

#### **Telefone**
| Original | Normalizado |
|:----------|:-------------|
| (71) 959440-7816 | — |
| +55 71 57871ê331 | — |
| 3191824-4935 | (31) 91824-4935 |
| (98) 95777-3872 | (98) 95777-3872 |
| +55(92)90330-9232 | (92) 90330-9232 |
| 1  1 97116-7190 | — |
| 11913171274 | (11) 91317-1274 |
| +55 41 713695594 | — |
| 41 92904-ô2284 | — |
| +65(31)96120-1836 | — |

---

### Interpretação dos resultados

- A **maior parte dos erros** vem de **formatação incorreta ou caracteres inválidos** (como letras ou símbolos).
- Em **CPF e CNPJ**, alguns ruídos textuais ainda passam na validação dos dígitos verificadores — mostram a necessidade de combinar regex + validação lógica.
- A **normalização de telefone** eliminou casos com letras (“ê”, “ô”) e símbolos, mantendo apenas números formatáveis.
- No geral, o processo atingiu cerca de **46–47 % de dados válidos**, o que reflete bem o nível de ruído esperado em dados sintéticos.

---

### Metodologia de correção
1. **Regex (Etapa 2):** identificar formatos esperados (CPF, CNPJ, e-mail, telefone, CEP, data, valor).  
2. **Normalização (Etapa 3):** padronizar apenas os campos que seguem o formato correto.  
3. **Validação (Etapa 4):** verificar CPFs e CNPJs pelos dígitos verificadores oficiais.  
4. **Relatório (Etapa 5):** calcular totais, percentuais e exemplos antes/depois.  

> *A limpeza permitiu quantificar o ruído do dataset e evidenciar quais campos precisam de validação adicional antes de uso analítico.*
