In [1]:
import re
from datetime import datetime

print(" Módulos importados com sucesso!")

 Módulos importados com sucesso!


In [2]:
# ============================================================
# 1. CONCEITOS BÁSICOS
# ============================================================

texto = "ID: 123-45-6789; outro: 987-65-4321"
padrao = r"\d{3}-\d{2}-\d{4}"

print("\n=== Busca básica ===")
print("search:", re.search(padrao, texto))
print("findall:", re.findall(padrao, texto))
print("substituição:", re.sub(padrao, "***-**-****", texto))

# Compilar regex melhora performance
rx = re.compile(padrao)
m = rx.search(texto)
resp = rx.findall(texto)
print("\nCompilado:", m.group())
print("\nCompilado 2 :", resp)



=== Busca básica ===
search: <re.Match object; span=(4, 15), match='123-45-6789'>
findall: ['123-45-6789', '987-65-4321']
substituição: ID: ***-**-****; outro: ***-**-****

Compilado: 123-45-6789

Compilado 2 : ['123-45-6789', '987-65-4321']


In [3]:
# ============================================================
# 2. GRUPOS
# ============================================================

m = re.search(r"(\d{3})-(\d{2})-(\d{4})", texto)
if m:
    inicio,meio, fim = m.groups()
    print("\nGrupos:", inicio, meio, fim)





Grupos: 123 45 6789


In [4]:
m

<re.Match object; span=(4, 15), match='123-45-6789'>

In [5]:
# ============================================================
# 3. PRINCIPAIS CLASSES E QUANTIFICADORES
# ============================================================

print("\nClasses de caracteres:")
print(re.findall(r"\w+", "um dois 3_tres"))
print(re.findall(r"\d{2,4}", "9 11 123 12345 12345"))


Classes de caracteres:
['um', 'dois', '3_tres']
['11', '123', '1234', '1234']


| Parte        | Significado                            | Descrição                                                                                                              |
| ------------ | -------------------------------------- | ---------------------------------------------------------------------------------------------------------------------- |
| `\b`         | **limite de palavra (word boundary)**  | Marca o ponto onde uma palavra começa ou termina. Não consome caractere; é uma "fronteira" lógica.                     |
| `\w+`        | **sequência de caracteres de palavra** | Equivale a `[A-Za-z0-9_]`, ou seja, letras, números e `_` (underscore). O `+` indica **um ou mais** desses caracteres. |
| `\b` (final) | **outro limite de palavra**            | Indica o fim da palavra.                                                                                               |


| Parte   | Significado                    | descrição                                                                                  |
| ------- | ------------------------------ | ------------------------------------------------------------------------------------------ |
| `\d`    | **dígito**                     | Corresponde a qualquer caractere numérico de `0` a `9`. Equivalente a `[0-9]`.             |
| `{2,4}` | **quantificador de repetição** | Diz que o padrão anterior (`\d`) deve aparecer **pelo menos 2 vezes e no máximo 4 vezes**. |


In [6]:
# ============================================================
# 4. FLAGS ÚTEIS
# ============================================================

rx_email = re.compile(r"""
    ^[A-Za-z0-9._%+-]+      # parte local
    @
    [A-Za-z0-9.-]+          # domínio
    \.[A-Za-z]{2,}$         # TLD
""", re.X)

emails_teste = ["abc@dominio.com", "inválido@@x", "123@asidjha,com"]
print("\nEmails válidos:")
for e in emails_teste:
    print(f"{e:20} ->", bool(rx_email.match(e)))



Emails válidos:
abc@dominio.com      -> True
inválido@@x          -> False
123@asidjha,com      -> False


| Símbolo             | Significado                | Exemplo válido         |
| ------------------- | -------------------------- | ---------------------- |
| `^` / `$`           | Início e fim da string     | força o padrão inteiro |
| `[A-Za-z0-9._%+-]+` | Parte local (antes do `@`) | `joao.silva`           |
| `@`                 | Separador                  | —                      |
| `[A-Za-z0-9.-]+`    | Domínio                    | `empresa`              |
| `\.`                | Ponto literal              | `.com`                 |
| `[A-Za-z]{2,}`      | Sufixo (TLD)               | `com`, `br`, `org`     |


In [7]:
# ============================================================
# 5. LOOKAHEADS E LOOKBEHINDS
# ============================================================

print("\nLookahead positivo (números seguidos de 'kg'):")
print(re.findall(r"\d+(?=\s*kg)", "10kg, 5 kg, 7g"))



Lookahead positivo (números seguidos de 'kg'):
['10', '5']


| Parte       | Significado              | Explicação                                                   |
| ----------- | ------------------------ | ------------------------------------------------------------ |
| `\d+`       | **um ou mais dígitos**   | captura o número (ex: `10`, `5`, `7`)                        |
| `(?= ... )` | **lookahead positivo**   | verifica se logo após há um certo padrão, **sem consumi-lo** |
| `\s*`       | **zero ou mais espaços** | permite "10kg" ou "5 kg"                                     |
| `kg`        | **literal “kg”**         | a unidade que estamos checando                               |


In [58]:
# ============================================================
# 6. PADRÕES PRÁTICOS (BRASIL)
# ============================================================

RX_CPF = re.compile(r"(?<!\d)(?:\d{3}\.?\d{3}\.?\d{3}-?\d{2})(?!\d)")
RX_CNPJ = re.compile(r"(?<!\d)(?:\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2})(?!\d)")
RX_CEP = re.compile(r"(?<!\d)\d{5}-?\d{3}(?!\d)")
RX_DATA = re.compile(r"(?<!\d)(0?[1-9]|[12]\d|3[01])/(0?[1-9]|1[0-2])/\d{4}(?!\d)")
RX_FONE = re.compile(r"(?x)(?:\+?55\s*)?(?:\(?\d{2}\)?\s*)?(?:9?\d{4})-?\s?\d{4}")
RX_EMAIL = rx_email
RX_URL = re.compile(r"https?://[^\s/$.?#].[^\s]*", re.I)
RX_NOME = re.compile(r"[A-Za-zÀ-ÖØ-öø-ÿ]+(?:\s+[A-Za-zÀ-ÖØ-öø-ÿ]+)+")

print("\nValidação de padrões BR:")
texto_doc = """
Nome: Ana Beatriz de Souza
CPF: 529.982.247-25
CNPJ: 12.345.678/0001-95
CEP: 60440-000
E-mail: ana.souza@example.com
Telefone: +55 (85) 99876-5432
"""

campos = {
    "nome": RX_NOME.search(texto_doc),
    "cpf": RX_CPF.search(texto_doc),
    "cnpj": RX_CNPJ.search(texto_doc),
    "cep": RX_CEP.search(texto_doc),
    "email": RX_EMAIL.search("ana.souza@example.com"),
    "telefone": RX_FONE.search(texto_doc),
}
extraidos = {k: (m.group(0) if m else None) for k, m in campos.items()}
print(extraidos)



Validação de padrões BR:
{'nome': 'Ana Beatriz de Souza\nCPF', 'cpf': None, 'cnpj': '12.345.678/0001-95', 'cep': '60440-000', 'email': 'ana.souza@example.com', 'telefone': '+55 (85) 99876-5432'}


| Parte       | Tipo                 | Função                               |
| ----------- | -------------------- | ------------------------------------ |
| `(?<!\d)`   | Lookbehind negativo  | impede casar se houver dígito antes  |
| `(?: ... )` | Grupo não capturante | agrupa sem criar subcaptura          |
| `\d{3}`     | 3 dígitos            | início do CPF                        |
| `\.?`       | ponto opcional       | aceita pontuação                     |
| `-?`        | hífen opcional       | idem                                 |
| `(?!\d)`    | Lookahead negativo   | impede casar se houver dígito depois |


| Símbolo       | Tipo                   | Significado                                 |
| ------------- | ---------------------- | ------------------------------------------- |
| `(?x)`        | Flag                   | Modo legível (ignora espaços e comentários) |
| `(?: ... )`   | Grupo não capturante   | Agrupa sem criar subgrupo                   |
| `\+?55`       | DDI                    | “+55” opcional                              |
| `\(?\d{2}\)?` | DDD                    | “(85)” ou “85”                              |
| `9?`          | Prefixo móvel opcional | Pode ter ou não o “9”                       |
| `-?\s?`       | Separador opcional     | hífen e/ou espaço                           |
| `\d{4}`       | Final                  | Últimos 4 dígitos obrigatórios              |


In [9]:
# ============================================================
# 7. FUNÇÕES DE VALIDAÇÃO CPF/CNPJ/DATA
# ============================================================

def cpf_valido(cpf: str) -> bool:
    nums = re.sub(r"\D", "", cpf)
    if len(nums) != 11 or len(set(nums)) == 1:
        return False
    def digito(parcial):
        soma = sum(int(d)*w for d, w in zip(parcial, range(len(parcial)+1, 1, -1)))
        r = (soma * 10) % 11
        return '0' if r == 10 else str(r)
    d1 = digito(nums[:9])
    d2 = digito(nums[:9] + d1)
    return nums[-2:] == d1 + d2

def cnpj_valido(cnpj: str) -> bool:
    nums = re.sub(r"\D", "", cnpj)
    if len(nums) != 14 or len(set(nums)) == 1:
        return False
    pesos1 = [5,4,3,2,9,8,7,6,5,4,3,2]
    pesos2 = [6] + pesos1
    def calc(parcial, pesos):
        s = sum(int(d)*p for d, p in zip(parcial, pesos))
        r = s % 11
        return '0' if r < 2 else str(11 - r)
    d1 = calc(nums[:12], pesos1)
    d2 = calc(nums[:12] + d1, pesos2)
    return nums[-2:] == d1 + d2

def data_br_valida(s: str) -> bool:
    m = RX_DATA.fullmatch(s)
    if not m:
        return False
    d, M, a = map(int, s.split("/"))
    try:
        datetime(a, M, d)
        return True
    except ValueError:
        return False

print("\nValidação prática:")
print("CPF válido?", cpf_valido("529.982.247-25"))
print("CNPJ válido?", cnpj_valido("12.345.678/0001-95"))
print("Data válida?", data_br_valida("29/02/2024"))


Validação prática:
CPF válido? True
CNPJ válido? True
Data válida? True


In [10]:
# ============================================================
# 8. NORMALIZAÇÃO DE CAMPOS
# ============================================================

def normaliza_cpf(texto: str) -> list[str]:
    cpfs_norm = []
    for m in RX_CPF.finditer(texto):
        nums = re.sub(r"\D", "", m.group())
        cpfs_norm.append(f"{nums[:3]}.{nums[3:6]}.{nums[6:9]}-{nums[9:]}")
    return cpfs_norm

def extrai_campos(texto: str) -> dict:
    cpf_m = RX_CPF.search(texto)
    cnpj_m = RX_CNPJ.search(texto)
    cep_m  = RX_CEP.search(texto)

    out = {}
    if cpf_m:
        cpf = cpf_m.group()
        out["cpf"] = {
            "valor": cpf,
            "normalizado": normaliza_cpf(cpf)[0],
            "valido": cpf_valido(cpf),
        }
    if cnpj_m:
        cnpj = cnpj_m.group()
        out["cnpj"] = {
            "valor": cnpj,
            "valido": cnpj_valido(cnpj),
        }
    if cep_m:
        cep = re.sub(r"\D", "", cep_m.group())
        out["cep"] = cep[:5] + "-" + cep[5:]
    return out

print("\nExtração e normalização:")
print(extrai_campos(texto_doc))



Extração e normalização:
{'cpf': {'valor': '529.982.247-25', 'normalizado': '529.982.247-25', 'valido': True}, 'cnpj': {'valor': '12.345.678/0001-95', 'valido': True}, 'cep': '60440-000'}


In [11]:
# ============================================================
# 9. LOOKAROUNDS AVANÇADOS E SENHAS
# ============================================================

RX_SENHA = re.compile(r"^(?=.*[a-z])(?=.*[A-Z])(?=.*\d).{8,}$")
senhas = ["abc", "Abc12345", "senhaSemNumero", "12345678aA"]
print("\nValidação de senhas:")
for s in senhas:
    print(f"{s:20} ->", bool(RX_SENHA.match(s)))



Validação de senhas:
abc                  -> False
Abc12345             -> True
senhaSemNumero       -> False
12345678aA           -> True


| Parte         | Nome               | Função principal                                |
| ------------- | ------------------ | ----------------------------------------------- |
| `^`           | âncora de início   | garante que o padrão começa no início da string |
| `(?=.*[a-z])` | lookahead positivo | exige pelo menos uma letra minúscula            |
| `(?=.*[A-Z])` | lookahead positivo | exige pelo menos uma letra maiúscula            |
| `(?=.*\d)`    | lookahead positivo | exige pelo menos um número                      |
| `.{8,}`       | corpo da senha     | exige no mínimo 8 caracteres de qualquer tipo   |
| `$`           | âncora de fim      | garante que o padrão termina no final da string |


In [12]:
# ============================================================
# 10. MINI TESTES AUTOMÁTICOS
# ============================================================

def testa():
    assert RX_EMAIL.match("a+b.c-d@dominio.com.br")
    assert not RX_EMAIL.match("inválido@@x")
    assert cpf_valido("529.982.247-25")
    assert not cpf_valido("111.111.111-11")
    assert data_br_valida("29/02/2024")
    assert not data_br_valida("31/11/2024")
    print("\nTodos os testes automáticos passaram!")

testa()



Todos os testes automáticos passaram!



## **Projeto: Extração e Limpeza de Dados e ajustes Textuais com Expressões Regulares**


Aplicar expressões regulares em Python para extrair, validar e normalizar informações estruturadas (como e-mails, telefones, CPFs, CNPJs, CEPs, URLs, datas, valores monetários etc.) a partir de um dataset textual real.


### **1. Dataset**


- Dados sintéticos, com campos como CNPJ, CPF, e-mails, endereços e telefones com ruídos.
https://drive.google.com/file/d/1511u4Hl99JTD2tlkQlIcp77HPNhn3sNE/view?usp=sharing

### **3. Etapas**


#### **Etapa 1 — Carregamento e exploração**

* Ler o dataset.
* Observar o formato dos campos textuais (nomes, e-mails, CPFs, CNPJs, telefones).
* Identificar quais estão corretos, incompletos ou com ruído.

#### **Etapa 2 — Criação de padrões regex**

* Criar padrões para:
  * nome
  * CPF e CNPJ
  * E-mails
  * Telefones (formatos variados, com DDD)
  * CEPs
  * Datas (DD/MM/AAAA)
  * Valores monetários (ex: R$ 1.234,56)
* Testar os padrões com `re.findall()` e `re.search()` , por exemplo.

#### **Etapa 3 — Normalização**

* Padronizar todos os CPFs para o formato `XXX.XXX.XXX-YY`.
* Padronizar telefones para o formato `(XX) 9XXXX-XXXX`.
* Corrigir CNPJs para `XX.XXX.XXX/0001-YY`.
* Criar funções `normaliza_cpf()`, `normaliza_cnpj()`, `normaliza_fone()` etc.

#### **Etapa 4 — Validação**

* Implementar funções de validação de CPF e CNPJ.
* Marcar no DataFrame quais registros são válidos/inválidos.

#### **Etapa 5 —  relatório**

* Contar quantos registros estavam incorretos e quantos foram normalizados.
* Gerar um pequeno relatório com:

  * Número total de registros.
  * Percentual de registros válidos e inválidos.
  * Campos com mais inconsistências.
  * Exemplos antes/depois da limpeza.
  * Metodologia de correção


In [1]:
import pandas as pd
import re
from IPython.display import display

In [2]:
# =====================
# ETAPA 1 — CARREGAMENTO E EXPLORAÇÃO
# =====================

df = pd.read_csv("/content/dataset_sintetico_regex_ruidos.csv", sep=",", encoding="utf-8")

print("Total de registros:", len(df))
display(df.head())

# ------------------------------------------------------------
# Funções auxiliares para checar integridade dos campos
# ------------------------------------------------------------

def eh_valido(padrao, texto):
    """Retorna True se o texto casa com o padrão regex."""
    if pd.isna(texto):
        return False
    return bool(re.fullmatch(padrao, str(texto).strip()))

def contem_ruido(texto):
    """Verifica se o texto contém caracteres não alfabéticos excessivos."""
    if pd.isna(texto):
        return False
    return bool(re.search(r'[^A-Za-zÀ-ÖØ-öø-ÿ\s]', str(texto)))  # letras e acentos ok

# ------------------------------------------------------------
# Padrões simples (não ainda os finais de normalização)
# ------------------------------------------------------------
regex_email_simples = r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$"
regex_cpf_simples = r"^\d{3}\.?\d{3}\.?\d{3}-?\d{2}$"
regex_cnpj_simples = r"^\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2}$"
regex_tel_simples = r"^\+?\d{0,2}\s?\(?\d{2}\)?\s?\d{4,5}-?\d{4}$"
regex_cep_simples = r"^\d{5}-?\d{3}$"

# ------------------------------------------------------------
# Criar novas colunas com o status de cada campo
# ------------------------------------------------------------
df['nome_status'] = df['nome'].apply(
    lambda x: 'ruído' if contem_ruido(x) else ('incompleto' if len(str(x).strip()) < 5 else 'ok')
)
df['email_status'] = df['email'].apply(
    lambda x: 'ok' if eh_valido(regex_email_simples, x) else ('incompleto' if '@' in str(x) else 'ruído')
)
df['cpf_status'] = df['cpf'].apply(
    lambda x: 'ok' if eh_valido(regex_cpf_simples, x) else ('incompleto' if re.search(r'\d', str(x)) else 'ruído')
)
df['cnpj_status'] = df['cnpj'].apply(
    lambda x: 'ok' if eh_valido(regex_cnpj_simples, x) else ('incompleto' if re.search(r'\d', str(x)) else 'ruído')
)
df['telefone_status'] = df['telefone'].apply(
    lambda x: 'ok' if eh_valido(regex_tel_simples, x) else ('incompleto' if re.search(r'\d', str(x)) else 'ruído')
)
df['cep_status'] = df['cep'].apply(
    lambda x: 'ok' if eh_valido(regex_cep_simples, x) else ('incompleto' if re.search(r'\d', str(x)) else 'ruído')
)

# ------------------------------------------------------------
# Exibir amostra com os status
# ------------------------------------------------------------
print("\n Amostra de status dos campos:")
display(df[['nome', 'nome_status', 'email', 'email_status',
            'cpf', 'cpf_status', 'cnpj', 'cnpj_status',
            'telefone', 'telefone_status', 'cep', 'cep_status']].head(10))

# ------------------------------------------------------------
# Contagem geral de problemas
# ------------------------------------------------------------
def resumo_status(campo):
    contagem = df[campo].value_counts()
    total = contagem.sum()
    return {
        'ok': contagem.get('ok', 0),
        'incompleto': contagem.get('incompleto', 0),
        'ruído': contagem.get('ruído', 0),
        'percentual_ok': contagem.get('ok', 0) / total * 100
    }

resumo = {
    'nome': resumo_status('nome_status'),
    'email': resumo_status('email_status'),
    'cpf': resumo_status('cpf_status'),
    'cnpj': resumo_status('cnpj_status'),
    'telefone': resumo_status('telefone_status'),
    'cep': resumo_status('cep_status'),
}

print("\n RESUMO DE QUALIDADE DOS CAMPOS:")
for campo, dados in resumo.items():
    print(f"{campo.upper()}: {dados['percentual_ok']:.1f}% corretos | "
          f"{dados['incompleto']} incompletos | {dados['ruído']} com ruído")

Total de registros: 1000


Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre
0,Danielë Souza,o ig8f_1c@example.com,(71) 959440-7816,999.9299.9999-99,86.379.402/6542-35,84959-310,331/07/203,"R$5 3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...
1,S érgi8 Rodrigues,87a+u5b@,+55 71 57871ê331,43039117b122,2 27824-9638308,09839301,33/6/1994,141.556,h ttps://exemplo.com/n8i4p4/mgg1w11/3dgdzv,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...
2,H elena Costa,3uea3-.geû@ufc.br,3191824-4935,5555555555,54278498084187,48740164,13//11/2005,"_1,371.3",http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...
3,Yasmin Martins,c1a7mx1e@gmail com,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,4895343,3 9/088/2029,"R $ 3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...
4,Natan Azevedo,-8bz_.b@example.com,+55(92)90330-9232,272.0946.537-26,64641708053143,1 9374-5229,1 9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...



 Amostra de status dos campos:


Unnamed: 0,nome,nome_status,email,email_status,cpf,cpf_status,cnpj,cnpj_status,telefone,telefone_status,cep,cep_status
0,Danielë Souza,ok,o ig8f_1c@example.com,incompleto,999.9299.9999-99,incompleto,86.379.402/6542-35,ok,(71) 959440-7816,incompleto,84959-310,ok
1,S érgi8 Rodrigues,ruído,87a+u5b@,incompleto,43039117b122,incompleto,2 27824-9638308,incompleto,+55 71 57871ê331,incompleto,09839301,ok
2,H elena Costa,ok,3uea3-.geû@ufc.br,incompleto,5555555555,incompleto,54278498084187,ok,3191824-4935,ok,48740164,ok
3,Yasmin Martins,ok,c1a7mx1e@gmail com,incompleto,951.484.656-70,ok,36.629.946/8044-38,ok,(98) 95777-3872,ok,4895343,incompleto
4,Natan Azevedo,ok,-8bz_.b@example.com,ok,272.0946.537-26,incompleto,64641708053143,ok,+55(92)90330-9232,ok,1 9374-5229,incompleto
5,Paulo osta,ok,hmuh8lmn@mail.com,ok,989.413.435-18,ok,40.084.271/0947-77,ok,1 1 97116-7190,incompleto,2941ì3-186,incompleto
6,Fernanda Ribeiro,ok,sz9c3fuquhz6@outlook.com,ok,876.038.597-94,ok,3 4.824.771/0322-96,incompleto,11913171274,ok,46773-782,ok
7,M arin Ribeiro,ok,70.lkklf-@outlook.com,ok,379.237.474-90,ok,74821759464755-,incompleto,+55 41 713695594,ok,06409097,ok
8,P aulo Ribeeiro,ok,_j0g5-0rcxn@dominio.org,ok,351.585064-34,ok,7 1.390.053/293j1-83,incompleto,41 92904-ô2284,incompleto,1 0205-395,incompleto
9,Beatriz Costa,ok,g.6nj4ogw@mail.comh,ok,333333333333,incompleto,99.809.402/4ã455-67,incompleto,+65(31)96120-1836,ok,7 5254-599,incompleto



 RESUMO DE QUALIDADE DOS CAMPOS:
NOME: 93.5% corretos | 0 incompletos | 65 com ruído
EMAIL: 51.0% corretos | 409 incompletos | 81 com ruído
CPF: 34.5% corretos | 655 incompletos | 0 com ruído
CNPJ: 35.8% corretos | 642 incompletos | 0 com ruído
TELEFONE: 44.7% corretos | 553 incompletos | 0 com ruído
CEP: 33.1% corretos | 669 incompletos | 0 com ruído


In [3]:
# =====================
# ETAPA 2 — PADRÕES
# =====================

regex_email = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"
regex_cpf = r"\b\d{3}\.?\d{3}\.?\d{3}-?\d{2}\b"
regex_cnpj = r"\b\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2}\b"
regex_tel = r"(\(?\d{2}\)?\s?9?\d{4}-?\d{4})"
regex_cep = r"\b\d{5}-?\d{3}\b"
regex_data = r"\b\d{1,2}/\d{1,2}/\d{2,4}\b"
regex_valor = r"(R?\$?\s?\d{1,3}(?:[\.,]\d{3})*[\.,]\d{2})"
regex_url = r"(https?://[^\s]+)"


exemplo = df['texto_livre'].iloc[0]
print("\n===== TESTE DE EXTRAÇÃO EM TEXTO LIVRE =====")
print("Texto:", exemplo)
print("Emails:", re.findall(regex_email, exemplo))
print("CPFs:", re.findall(regex_cpf, exemplo))
print("CNPJs:", re.findall(regex_cnpj, exemplo))
print("Telefones:", re.findall(regex_tel, exemplo))
print("CEPs:", re.findall(regex_cep, exemplo))
print("Datas:", re.findall(regex_data, exemplo))
print("Valores:", re.findall(regex_valor, exemplo))
print("URLs:", re.findall(regex_url, exemplo))


===== TESTE DE EXTRAÇÃO EM TEXTO LIVRE =====
Texto: Cliente: Danielë Souza Contato: o ig8f_1c@example.com | (71) 959440-7816 Identificação: CPF 999.9299.9999-99 / CNPJ 86.379.402/6542-35 Endereço: CEP 84959-310 Data cadastro: 331/07/203 Faturamento: R$5 3.553,18 Site: http://site.org/3xkxw/rek8 Observação: öëçrôvhsàkãaûûqèçlègòtò
Emails: ['ig8f_1c@example.com']
CPFs: []
CNPJs: ['86.379.402/6542-35']
Telefones: ['959440-7816']
CEPs: ['84959-310']
Datas: []
Valores: [' 999.92', '99.99', ' 86.379.40', ' 3.553,18']
URLs: ['http://site.org/3xkxw/rek8']


In [4]:
# ========================================================
# Etapa 2 — Criação de padrões regex e teste
# ========================================================

regex_email = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"
regex_cpf = r"\b\d{3}\.?\d{3}\.?\d{3}-?\d{2}\b"
regex_cnpj = r"\b\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2}\b"
regex_tel = r"(\(?\d{2}\)?\s?9?\d{4}-?\d{4})"
regex_cep = r"\b\d{5}-?\d{3}\b"
regex_data = r"\b\d{1,2}/\d{1,2}/\d{2,4}\b"
regex_valor = r"(R?\$?\s?\d{1,3}(?:[\.,]\d{3})*[\.,]\d{2})"
regex_url = r"(https?://[^\s]+)"


exemplo = df['texto_livre'].iloc[0]
print("\n===== TESTE DE EXTRAÇÃO EM TEXTO LIVRE =====")
print("Texto:", exemplo)
print("Emails:", re.findall(regex_email, exemplo))
print("CPFs:", re.findall(regex_cpf, exemplo))
print("CNPJs:", re.findall(regex_cnpj, exemplo))
print("Telefones:", re.findall(regex_tel, exemplo))
print("CEPs:", re.findall(regex_cep, exemplo))
print("Datas:", re.findall(regex_data, exemplo))
print("Valores:", re.findall(regex_valor, exemplo))
print("URLs:", re.findall(regex_url, exemplo))



===== TESTE DE EXTRAÇÃO EM TEXTO LIVRE =====
Texto: Cliente: Danielë Souza Contato: o ig8f_1c@example.com | (71) 959440-7816 Identificação: CPF 999.9299.9999-99 / CNPJ 86.379.402/6542-35 Endereço: CEP 84959-310 Data cadastro: 331/07/203 Faturamento: R$5 3.553,18 Site: http://site.org/3xkxw/rek8 Observação: öëçrôvhsàkãaûûqèçlègòtò
Emails: ['ig8f_1c@example.com']
CPFs: []
CNPJs: ['86.379.402/6542-35']
Telefones: ['959440-7816']
CEPs: ['84959-310']
Datas: []
Valores: [' 999.92', '99.99', ' 86.379.40', ' 3.553,18']
URLs: ['http://site.org/3xkxw/rek8']


In [5]:
# ============================
# Etapa 3 — Funções de Normalização e Validação
# ============================

def normaliza_cpf(cpf):
    numeros = re.sub(r'\D', '', str(cpf))
    if len(numeros) == 11:
        return f"{numeros[:3]}.{numeros[3:6]}.{numeros[6:9]}-{numeros[9:]}"
    return None

def normaliza_cnpj(cnpj):
    numeros = re.sub(r'\D', '', str(cnpj))
    if len(numeros) == 14:
        return f"{numeros[:2]}.{numeros[2:5]}.{numeros[5:8]}/{numeros[8:12]}-{numeros[12:]}"
    return None

def normaliza_fone(fone):
    numeros = re.sub(r'\D', '', str(fone))
    if len(numeros) >= 10:
        ddd = numeros[:2]
        numero = numeros[2:]
        if len(numero) == 9:
            return f"({ddd}) {numero[:5]}-{numero[5:]}"
        else:
            return f"({ddd}) {numero[:4]}-{numero[4:]}"
    return None

def normaliza_cep(cep):
    numeros = re.sub(r'\D', '', str(cep))
    if len(numeros) == 8:
        return f"{numeros[:5]}-{numeros[5:]}"
    return None

def normaliza_valor(valor):
    if pd.isna(valor): return None
    valor = re.sub(r'[^\d,\.]', '', str(valor))
    valor = valor.replace('.', '').replace(',', '.')
    try:
        return round(float(valor), 2)
    except:
        return None

df['cpf_normalizado'] = df['cpf'].apply(normaliza_cpf)
df['cnpj_normalizado'] = df['cnpj'].apply(normaliza_cnpj)
df['fone_normalizado'] = df['telefone'].apply(normaliza_fone)
df['cep_normalizado'] = df['cep'].apply(normaliza_cep)
df['valor_normalizado'] = df['valor'].apply(normaliza_valor)

In [6]:
# ============================
# Etapa 4 — Aplicar ao DataFrame e Validar
# ============================

def valida_cpf(cpf):
    cpf = re.sub(r'\D', '', str(cpf))
    if len(cpf) != 11 or cpf == cpf[0] * 11:
        return False
    for i in range(9, 11):
        soma = sum(int(cpf[num]) * ((i+1) - num) for num in range(0, i))
        digito = ((soma * 10) % 11) % 10
        if digito != int(cpf[i]):
            return False
    return True

def valida_cnpj(cnpj):
    cnpj = re.sub(r'\D', '', str(cnpj))
    if len(cnpj) != 14:
        return False
    pesos1 = [5,4,3,2,9,8,7,6,5,4,3,2]
    pesos2 = [6] + pesos1
    for i, pesos in enumerate([pesos1, pesos2], start=1):
        soma = sum(int(cnpj[num]) * pesos[num] for num in range(len(pesos)))
        digito = 11 - soma % 11
        digito = 0 if digito >= 10 else digito
        if digito != int(cnpj[12 if i == 1 else 13]):
            return False
    return True

df['cpf_valido'] = df['cpf_normalizado'].apply(lambda x: valida_cpf(x) if x else False)
df['cnpj_valido'] = df['cnpj_normalizado'].apply(lambda x: valida_cnpj(x) if x else False)

In [7]:
# ============================
# Etapa 5 — Relatório Final
# ============================

total = len(df)
cpf_validos = df['cpf_valido'].sum()
cnpj_validos = df['cnpj_valido'].sum()

print("\n===== RELATÓRIO DE QUALIDADE =====")
print(f"Total de registros: {total}")
print(f"CPFs válidos: {cpf_validos} ({cpf_validos/total:.1%})")
print(f"CNPJs válidos: {cnpj_validos} ({cnpj_validos/total:.1%})")

inconsistencias = {
    'CPF inválido': (~df['cpf_valido']).sum(),
    'CNPJ inválido': (~df['cnpj_valido']).sum(),
    'Telefone ausente': df['fone_normalizado'].isna().sum(),
    'CEP ausente': df['cep_normalizado'].isna().sum(),
    'Valor ausente': df['valor_normalizado'].isna().sum()
}

print("\nCampos com mais inconsistências:")
for k, v in inconsistencias.items():
    print(f"  - {k}: {v} ({v/total:.1%})")

print("\nExemplos antes/depois da limpeza:")
display(df[['cpf', 'cpf_normalizado', 'telefone', 'fone_normalizado', 'valor', 'valor_normalizado']].head(5))


===== RELATÓRIO DE QUALIDADE =====
Total de registros: 1000
CPFs válidos: 465 (46.5%)
CNPJs válidos: 480 (48.0%)

Campos com mais inconsistências:
  - CPF inválido: 535 (53.5%)
  - CNPJ inválido: 520 (52.0%)
  - Telefone ausente: 26 (2.6%)
  - CEP ausente: 381 (38.1%)
  - Valor ausente: 7 (0.7%)

Exemplos antes/depois da limpeza:


Unnamed: 0,cpf,cpf_normalizado,telefone,fone_normalizado,valor,valor_normalizado
0,999.9299.9999-99,,(71) 959440-7816,(71) 9594-407816,"R$5 3.553,18",53553.18
1,43039117b122,430.391.171-22,+55 71 57871ê331,(55) 7157-871331,141.556,141556.0
2,5555555555,,3191824-4935,(31) 91824-4935,"_1,371.3",1.37
3,951.484.656-70,951.484.656-70,(98) 95777-3872,(98) 95777-3872,"R $ 3.497,38",3497.38
4,272.0946.537-26,,+55(92)90330-9232,(55) 9290-3309232,R$ 777.92,77792.0
