In [None]:
import re
from datetime import datetime

print(" Módulos importados com sucesso!")

 Módulos importados com sucesso!


In [None]:
# ============================================================
# 1. CONCEITOS BÁSICOS
# ============================================================

texto = "ID: 123-45-6789; outro: 987-65-4321"
padrao = r"\d{3}-\d{2}-\d{4}"

print("\n=== Busca básica ===")
print("search:", re.search(padrao, texto))
print("findall:", re.findall(padrao, texto))
print("substituição:", re.sub(padrao, "***-**-****", texto))

# Compilar regex melhora performance
rx = re.compile(padrao)
m = rx.search(texto)
resp = rx.findall(texto)
print("\nCompilado:", m.group())
print("\nCompilado 2 :", resp)



=== Busca básica ===
search: <re.Match object; span=(4, 15), match='123-45-6789'>
findall: ['123-45-6789', '987-65-4321']
substituição: ID: ***-**-****; outro: ***-**-****

Compilado: 123-45-6789

Compilado 2 : ['123-45-6789', '987-65-4321']


In [None]:
# ============================================================
# 2. GRUPOS
# ============================================================

m = re.search(r"(\d{3})-(\d{2})-(\d{4})", texto)
if m:
    inicio,meio, fim = m.groups()
    print("\nGrupos:", inicio, meio, fim)





Grupos: 123 45 6789


In [None]:
m

<re.Match object; span=(4, 15), match='123-45-6789'>

In [None]:
# ============================================================
# 3. PRINCIPAIS CLASSES E QUANTIFICADORES
# ============================================================

print("\nClasses de caracteres:")
print(re.findall(r"\w+", "um dois 3_tres"))
print(re.findall(r"\d{2,4}", "9 11 123 12345 12345"))


Classes de caracteres:
['um', 'dois', '3_tres']
['11', '123', '1234', '1234']


| Parte        | Significado                            | Descrição                                                                                                              |
| ------------ | -------------------------------------- | ---------------------------------------------------------------------------------------------------------------------- |
| `\b`         | **limite de palavra (word boundary)**  | Marca o ponto onde uma palavra começa ou termina. Não consome caractere; é uma "fronteira" lógica.                     |
| `\w+`        | **sequência de caracteres de palavra** | Equivale a `[A-Za-z0-9_]`, ou seja, letras, números e `_` (underscore). O `+` indica **um ou mais** desses caracteres. |
| `\b` (final) | **outro limite de palavra**            | Indica o fim da palavra.                                                                                               |


| Parte   | Significado                    | descrição                                                                                  |
| ------- | ------------------------------ | ------------------------------------------------------------------------------------------ |
| `\d`    | **dígito**                     | Corresponde a qualquer caractere numérico de `0` a `9`. Equivalente a `[0-9]`.             |
| `{2,4}` | **quantificador de repetição** | Diz que o padrão anterior (`\d`) deve aparecer **pelo menos 2 vezes e no máximo 4 vezes**. |


In [None]:
# ============================================================
# 4. FLAGS ÚTEIS
# ============================================================

rx_email = re.compile(r"""
    ^[A-Za-z0-9._%+-]+      # parte local
    @
    [A-Za-z0-9.-]+          # domínio
    \.[A-Za-z]{2,}$         # TLD
""", re.X)

emails_teste = ["abc@dominio.com", "inválido@@x", "123@asidjha,com"]
print("\nEmails válidos:")
for e in emails_teste:
    print(f"{e:20} ->", bool(rx_email.match(e)))



Emails válidos:
abc@dominio.com      -> True
inválido@@x          -> False
123@asidjha,comhjk   -> False


| Símbolo             | Significado                | Exemplo válido         |
| ------------------- | -------------------------- | ---------------------- |
| `^` / `$`           | Início e fim da string     | força o padrão inteiro |
| `[A-Za-z0-9._%+-]+` | Parte local (antes do `@`) | `joao.silva`           |
| `@`                 | Separador                  | —                      |
| `[A-Za-z0-9.-]+`    | Domínio                    | `empresa`              |
| `\.`                | Ponto literal              | `.com`                 |
| `[A-Za-z]{2,}`      | Sufixo (TLD)               | `com`, `br`, `org`     |


In [None]:
# ============================================================
# 5. LOOKAHEADS E LOOKBEHINDS
# ============================================================

print("\nLookahead positivo (números seguidos de 'kg'):")
print(re.findall(r"\d+(?=\s*kg)", "10kg, 5 kg, 7g"))



Lookahead positivo (números seguidos de 'kg'):
['10', '5']


| Parte       | Significado              | Explicação                                                   |
| ----------- | ------------------------ | ------------------------------------------------------------ |
| `\d+`       | **um ou mais dígitos**   | captura o número (ex: `10`, `5`, `7`)                        |
| `(?= ... )` | **lookahead positivo**   | verifica se logo após há um certo padrão, **sem consumi-lo** |
| `\s*`       | **zero ou mais espaços** | permite "10kg" ou "5 kg"                                     |
| `kg`        | **literal “kg”**         | a unidade que estamos checando                               |


In [None]:
# ============================================================
# 6. PADRÕES PRÁTICOS (BRASIL)
# ============================================================

RX_CPF = re.compile(r"(?<!\d)(?:\d{3}\.?\d{3}\.?\d{3}-?\d{2})(?!\d)")
RX_CNPJ = re.compile(r"(?<!\d)(?:\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2})(?!\d)")
RX_CEP = re.compile(r"(?<!\d)\d{5}-?\d{3}(?!\d)")
RX_DATA = re.compile(r"(?<!\d)(0?[1-9]|[12]\d|3[01])/(0?[1-9]|1[0-2])/\d{4}(?!\d)")
RX_FONE = re.compile(r"(?x)(?:\+?55\s*)?(?:\(?\d{2}\)?\s*)?(?:9?\d{4})-?\s?\d{4}")
RX_EMAIL = rx_email
RX_URL = re.compile(r"https?://[^\s/$.?#].[^\s]*", re.I)
RX_NOME = re.compile(r"[A-Za-zÀ-ÖØ-öø-ÿ]+(?:\s+[A-Za-zÀ-ÖØ-öø-ÿ]+)+")

print("\nValidação de padrões BR:")
texto_doc = """
Nome: Ana Beatriz de Souza
CPF: 529.982.247-25
CNPJ: 12.345.678/0001-95
CEP: 60440-000
E-mail: ana.souza@example.com
Telefone: +55 (85) 99876-5432
"""

campos = {
    "nome": RX_NOME.search(texto_doc),
    "cpf": RX_CPF.search(texto_doc),
    "cnpj": RX_CNPJ.search(texto_doc),
    "cep": RX_CEP.search(texto_doc),
    "email": RX_EMAIL.search("ana.souza@example.com"),
    "telefone": RX_FONE.search(texto_doc),
}
extraidos = {k: (m.group(0) if m else None) for k, m in campos.items()}
print(extraidos)



Validação de padrões BR:
{'nome': 'Ana Beatriz de Souza\nCPF', 'cpf': '529.982.247-25', 'cnpj': '12.345.678/0001-95', 'cep': '60440-000', 'email': 'ana.souza@example.com', 'telefone': '+55 (85) 99876-5432'}


| Parte       | Tipo                 | Função                               |
| ----------- | -------------------- | ------------------------------------ |
| `(?<!\d)`   | Lookbehind negativo  | impede casar se houver dígito antes  |
| `(?: ... )` | Grupo não capturante | agrupa sem criar subcaptura          |
| `\d{3}`     | 3 dígitos            | início do CPF                        |
| `\.?`       | ponto opcional       | aceita pontuação                     |
| `-?`        | hífen opcional       | idem                                 |
| `(?!\d)`    | Lookahead negativo   | impede casar se houver dígito depois |


| Símbolo       | Tipo                   | Significado                                 |
| ------------- | ---------------------- | ------------------------------------------- |
| `(?x)`        | Flag                   | Modo legível (ignora espaços e comentários) |
| `(?: ... )`   | Grupo não capturante   | Agrupa sem criar subgrupo                   |
| `\+?55`       | DDI                    | “+55” opcional                              |
| `\(?\d{2}\)?` | DDD                    | “(85)” ou “85”                              |
| `9?`          | Prefixo móvel opcional | Pode ter ou não o “9”                       |
| `-?\s?`       | Separador opcional     | hífen e/ou espaço                           |
| `\d{4}`       | Final                  | Últimos 4 dígitos obrigatórios              |


In [None]:
# ============================================================
# 7. FUNÇÕES DE VALIDAÇÃO CPF/CNPJ/DATA
# ============================================================

def cpf_valido(cpf: str) -> bool:
    nums = re.sub(r"\D", "", cpf)
    if len(nums) != 11 or len(set(nums)) == 1:
        return False
    def digito(parcial):
        soma = sum(int(d)*w for d, w in zip(parcial, range(len(parcial)+1, 1, -1)))
        r = (soma * 10) % 11
        return '0' if r == 10 else str(r)
    d1 = digito(nums[:9])
    d2 = digito(nums[:9] + d1)
    return nums[-2:] == d1 + d2

def cnpj_valido(cnpj: str) -> bool:
    nums = re.sub(r"\D", "", cnpj)
    if len(nums) != 14 or len(set(nums)) == 1:
        return False
    pesos1 = [5,4,3,2,9,8,7,6,5,4,3,2]
    pesos2 = [6] + pesos1
    def calc(parcial, pesos):
        s = sum(int(d)*p for d, p in zip(parcial, pesos))
        r = s % 11
        return '0' if r < 2 else str(11 - r)
    d1 = calc(nums[:12], pesos1)
    d2 = calc(nums[:12] + d1, pesos2)
    return nums[-2:] == d1 + d2

def data_br_valida(s: str) -> bool:
    m = RX_DATA.fullmatch(s)
    if not m:
        return False
    d, M, a = map(int, s.split("/"))
    try:
        datetime(a, M, d)
        return True
    except ValueError:
        return False

print("\nValidação prática:")
print("CPF válido?", cpf_valido("529.982.247-25"))
print("CNPJ válido?", cnpj_valido("12.345.678/0001-95"))
print("Data válida?", data_br_valida("29/02/2024"))


Validação prática:
CPF válido? True
CNPJ válido? True
Data válida? True


In [None]:
# ============================================================
# 8. NORMALIZAÇÃO DE CAMPOS
# ============================================================

def normaliza_cpf(texto: str) -> list[str]:
    cpfs_norm = []
    for m in RX_CPF.finditer(texto):
        nums = re.sub(r"\D", "", m.group())
        cpfs_norm.append(f"{nums[:3]}.{nums[3:6]}.{nums[6:9]}-{nums[9:]}")
    return cpfs_norm

def extrai_campos(texto: str) -> dict:
    cpf_m = RX_CPF.search(texto)
    cnpj_m = RX_CNPJ.search(texto)
    cep_m  = RX_CEP.search(texto)

    out = {}
    if cpf_m:
        cpf = cpf_m.group()
        out["cpf"] = {
            "valor": cpf,
            "normalizado": normaliza_cpf(cpf)[0],
            "valido": cpf_valido(cpf),
        }
    if cnpj_m:
        cnpj = cnpj_m.group()
        out["cnpj"] = {
            "valor": cnpj,
            "valido": cnpj_valido(cnpj),
        }
    if cep_m:
        cep = re.sub(r"\D", "", cep_m.group())
        out["cep"] = cep[:5] + "-" + cep[5:]
    return out

print("\nExtração e normalização:")
print(extrai_campos(texto_doc))



Extração e normalização:
{'cpf': {'valor': '529.982.247-25', 'normalizado': '529.982.247-25', 'valido': True}, 'cnpj': {'valor': '12.345.678/0001-95', 'valido': True}, 'cep': '60440-000'}


In [None]:
# ============================================================
# 9. LOOKAROUNDS AVANÇADOS E SENHAS
# ============================================================

RX_SENHA = re.compile(r"^(?=.*[a-z])(?=.*[A-Z])(?=.*\d).{8,}$")
senhas = ["abc", "Abc12345", "senhaSemNumero", "12345678aA"]
print("\nValidação de senhas:")
for s in senhas:
    print(f"{s:20} ->", bool(RX_SENHA.match(s)))



Validação de senhas:
abc                  -> False
Abc12345             -> True
senhaSemNumero       -> False
12345678aA           -> True


| Parte         | Nome               | Função principal                                |
| ------------- | ------------------ | ----------------------------------------------- |
| `^`           | âncora de início   | garante que o padrão começa no início da string |
| `(?=.*[a-z])` | lookahead positivo | exige pelo menos uma letra minúscula            |
| `(?=.*[A-Z])` | lookahead positivo | exige pelo menos uma letra maiúscula            |
| `(?=.*\d)`    | lookahead positivo | exige pelo menos um número                      |
| `.{8,}`       | corpo da senha     | exige no mínimo 8 caracteres de qualquer tipo   |
| `$`           | âncora de fim      | garante que o padrão termina no final da string |


In [None]:
# ============================================================
# 10. MINI TESTES AUTOMÁTICOS
# ============================================================

def testa():
    assert RX_EMAIL.match("a+b.c-d@dominio.com.br")
    assert not RX_EMAIL.match("inválido@@x")
    assert cpf_valido("529.982.247-25")
    assert not cpf_valido("111.111.111-11")
    assert data_br_valida("29/02/2024")
    assert not data_br_valida("31/11/2024")
    print("\nTodos os testes automáticos passaram!")

testa()



Todos os testes automáticos passaram!



## **Projeto: Extração e Limpeza de Dados e ajustes Textuais com Expressões Regulares**


Aplicar expressões regulares em Python para extrair, validar e normalizar informações estruturadas (como e-mails, telefones, CPFs, CNPJs, CEPs, URLs, datas, valores monetários etc.) a partir de um dataset textual real.


### **1. Dataset**


- Dados sintéticos, com campos como CNPJ, CPF, e-mails, endereços e telefones com ruídos.
https://drive.google.com/file/d/1511u4Hl99JTD2tlkQlIcp77HPNhn3sNE/view?usp=sharing

### **3. Etapas**


#### **Etapa 1 — Carregamento e exploração**

* Ler o dataset.
* Observar o formato dos campos textuais (nomes, e-mails, CPFs, CNPJs, telefones).
* Identificar quais estão corretos, incompletos ou com ruído.

#### **Etapa 2 — Criação de padrões regex**

* Criar padrões para:
  * nome
  * CPF e CNPJ
  * E-mails
  * Telefones (formatos variados, com DDD)
  * CEPs
  * Datas (DD/MM/AAAA)
  * Valores monetários (ex: R$ 1.234,56)
* Testar os padrões com `re.findall()` e `re.search()` , por exemplo.

#### **Etapa 3 — Normalização**

* Padronizar todos os CPFs para o formato `XXX.XXX.XXX-YY`.
* Padronizar telefones para o formato `(XX) 9XXXX-XXXX`.
* Corrigir CNPJs para `XX.XXX.XXX/0001-YY`.
* Criar funções `normaliza_cpf()`, `normaliza_cnpj()`, `normaliza_fone()` etc.

#### **Etapa 4 — Validação**

* Implementar funções de validação de CPF e CNPJ.
* Marcar no DataFrame quais registros são válidos/inválidos.

#### **Etapa 5 —  relatório**

* Contar quantos registros estavam incorretos e quantos foram normalizados.
* Gerar um pequeno relatório com:

  * Número total de registros.
  * Percentual de registros válidos e inválidos.
  * Campos com mais inconsistências.
  * Exemplos antes/depois da limpeza.
  * Metodologia de correção
