In [196]:
import re
from datetime import datetime

print(" Módulos importados com sucesso!")

 Módulos importados com sucesso!


In [197]:
# ============================================================
# 1. CONCEITOS BÁSICOS
# ============================================================

texto = "ID: 123-45-6789; outro: 987-65-4321"
padrao = r"\d{3}-\d{2}-\d{4}"

print("\n=== Busca básica ===")
print("search:", re.search(padrao, texto))
print("findall:", re.findall(padrao, texto))
print("substituição:", re.sub(padrao, "***-**-****", texto))

# Compilar regex melhora performance
rx = re.compile(padrao)
m = rx.search(texto)
resp = rx.findall(texto)
print("\nCompilado:", m.group())
print("\nCompilado 2 :", resp)



=== Busca básica ===
search: <re.Match object; span=(4, 15), match='123-45-6789'>
findall: ['123-45-6789', '987-65-4321']
substituição: ID: ***-**-****; outro: ***-**-****

Compilado: 123-45-6789

Compilado 2 : ['123-45-6789', '987-65-4321']


In [198]:
# ============================================================
# 2. GRUPOS
# ============================================================

m = re.search(r"(\d{3})-(\d{2})-(\d{4})", texto)
if m:
    inicio,meio, fim = m.groups()
    print("\nGrupos:", inicio, meio, fim)





Grupos: 123 45 6789


In [199]:
m

<re.Match object; span=(4, 15), match='123-45-6789'>

In [200]:
# ============================================================
# 3. PRINCIPAIS CLASSES E QUANTIFICADORES
# ============================================================

print("\nClasses de caracteres:")
print(re.findall(r"\w+", "um dois 3_tres"))
print(re.findall(r"\d{2,4}", "9 11 123 12345 12345"))


Classes de caracteres:
['um', 'dois', '3_tres']
['11', '123', '1234', '1234']


| Parte        | Significado                            | Descrição                                                                                                              |
| ------------ | -------------------------------------- | ---------------------------------------------------------------------------------------------------------------------- |
| `\b`         | **limite de palavra (word boundary)**  | Marca o ponto onde uma palavra começa ou termina. Não consome caractere; é uma "fronteira" lógica.                     |
| `\w+`        | **sequência de caracteres de palavra** | Equivale a `[A-Za-z0-9_]`, ou seja, letras, números e `_` (underscore). O `+` indica **um ou mais** desses caracteres. |
| `\b` (final) | **outro limite de palavra**            | Indica o fim da palavra.                                                                                               |


| Parte   | Significado                    | descrição                                                                                  |
| ------- | ------------------------------ | ------------------------------------------------------------------------------------------ |
| `\d`    | **dígito**                     | Corresponde a qualquer caractere numérico de `0` a `9`. Equivalente a `[0-9]`.             |
| `{2,4}` | **quantificador de repetição** | Diz que o padrão anterior (`\d`) deve aparecer **pelo menos 2 vezes e no máximo 4 vezes**. |


In [201]:
# ============================================================
# 4. FLAGS ÚTEIS
# ============================================================

rx_email = re.compile(r"""
    ^[A-Za-z0-9._%+-]+      # parte local
    @
    [A-Za-z0-9.-]+          # domínio
    \.[A-Za-z]{2,}$         # TLD
""", re.X)

emails_teste = ["abc@dominio.com", "inválido@@x", "123@asidjha,com"]
print("\nEmails válidos:")
for e in emails_teste:
    print(f"{e:20} ->", bool(rx_email.match(e)))



Emails válidos:
abc@dominio.com      -> True
inválido@@x          -> False
123@asidjha,com      -> False


| Símbolo             | Significado                | Exemplo válido         |
| ------------------- | -------------------------- | ---------------------- |
| `^` / `$`           | Início e fim da string     | força o padrão inteiro |
| `[A-Za-z0-9._%+-]+` | Parte local (antes do `@`) | `joao.silva`           |
| `@`                 | Separador                  | —                      |
| `[A-Za-z0-9.-]+`    | Domínio                    | `empresa`              |
| `\.`                | Ponto literal              | `.com`                 |
| `[A-Za-z]{2,}`      | Sufixo (TLD)               | `com`, `br`, `org`     |


In [202]:
# ============================================================
# 5. LOOKAHEADS E LOOKBEHINDS
# ============================================================

print("\nLookahead positivo (números seguidos de 'kg'):")
print(re.findall(r"\d+(?=\s*kg)", "10kg, 5 kg, 7g"))



Lookahead positivo (números seguidos de 'kg'):
['10', '5']


| Parte       | Significado              | Explicação                                                   |
| ----------- | ------------------------ | ------------------------------------------------------------ |
| `\d+`       | **um ou mais dígitos**   | captura o número (ex: `10`, `5`, `7`)                        |
| `(?= ... )` | **lookahead positivo**   | verifica se logo após há um certo padrão, **sem consumi-lo** |
| `\s*`       | **zero ou mais espaços** | permite "10kg" ou "5 kg"                                     |
| `kg`        | **literal “kg”**         | a unidade que estamos checando                               |


In [203]:
# ============================================================
# 6. PADRÕES PRÁTICOS (BRASIL)
# ============================================================

RX_CPF = re.compile(r"(?<!\d)(?:\d{3}\.?\d{3}\.?\d{3}-?\d{2})(?!\d)")
RX_CNPJ = re.compile(r"(?<!\d)(?:\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2})(?!\d)")
RX_CEP = re.compile(r"(?<!\d)\d{5}-?\d{3}(?!\d)")
RX_DATA = re.compile(r"(?<!\d)(0?[1-9]|[12]\d|3[01])/(0?[1-9]|1[0-2])/\d{4}(?!\d)")
RX_FONE = re.compile(r"(?x)(?:\+?55\s*)?(?:\(?\d{2}\)?\s*)?(?:9?\d{4})-?\s?\d{4}")
RX_EMAIL = rx_email
RX_URL = re.compile(r"https?://[^\s/$.?#].[^\s]*", re.I)
RX_NOME = re.compile(r"[A-Za-zÀ-ÖØ-öø-ÿ]+(?:\s+[A-Za-zÀ-ÖØ-öø-ÿ]+)+")

print("\nValidação de padrões BR:")
texto_doc = """
Nome: Ana Beatriz de Souza
CPF: 529.982.247-25
CNPJ: 12.345.678/0001-95
CEP: 60440-000
E-mail: ana.souza@example.com
Telefone: +55 (85) 99876-5432
"""

campos = {
    "nome": RX_NOME.search(texto_doc),
    "cpf": RX_CPF.search(texto_doc),
    "cnpj": RX_CNPJ.search(texto_doc),
    "cep": RX_CEP.search(texto_doc),
    "email": RX_EMAIL.search("ana.souza@example.com"),
    "telefone": RX_FONE.search(texto_doc),
}
extraidos = {k: (m.group(0) if m else None) for k, m in campos.items()}
print(extraidos)



Validação de padrões BR:
{'nome': 'Ana Beatriz de Souza\nCPF', 'cpf': '529.982.247-25', 'cnpj': '12.345.678/0001-95', 'cep': '60440-000', 'email': 'ana.souza@example.com', 'telefone': '+55 (85) 99876-5432'}


| Parte       | Tipo                 | Função                               |
| ----------- | -------------------- | ------------------------------------ |
| `(?<!\d)`   | Lookbehind negativo  | impede casar se houver dígito antes  |
| `(?: ... )` | Grupo não capturante | agrupa sem criar subcaptura          |
| `\d{3}`     | 3 dígitos            | início do CPF                        |
| `\.?`       | ponto opcional       | aceita pontuação                     |
| `-?`        | hífen opcional       | idem                                 |
| `(?!\d)`    | Lookahead negativo   | impede casar se houver dígito depois |


| Símbolo       | Tipo                   | Significado                                 |
| ------------- | ---------------------- | ------------------------------------------- |
| `(?x)`        | Flag                   | Modo legível (ignora espaços e comentários) |
| `(?: ... )`   | Grupo não capturante   | Agrupa sem criar subgrupo                   |
| `\+?55`       | DDI                    | “+55” opcional                              |
| `\(?\d{2}\)?` | DDD                    | “(85)” ou “85”                              |
| `9?`          | Prefixo móvel opcional | Pode ter ou não o “9”                       |
| `-?\s?`       | Separador opcional     | hífen e/ou espaço                           |
| `\d{4}`       | Final                  | Últimos 4 dígitos obrigatórios              |


In [204]:
# ============================================================
# 7. FUNÇÕES DE VALIDAÇÃO CPF/CNPJ/DATA
# ============================================================

def cpf_valido(cpf: str) -> bool:
    nums = re.sub(r"\D", "", cpf)
    if len(nums) != 11 or len(set(nums)) == 1:
        return False
    def digito(parcial):
        soma = sum(int(d)*w for d, w in zip(parcial, range(len(parcial)+1, 1, -1)))
        r = (soma * 10) % 11
        return '0' if r == 10 else str(r)
    d1 = digito(nums[:9])
    d2 = digito(nums[:9] + d1)
    return nums[-2:] == d1 + d2

def cnpj_valido(cnpj: str) -> bool:
    nums = re.sub(r"\D", "", cnpj)
    if len(nums) != 14 or len(set(nums)) == 1:
        return False
    pesos1 = [5,4,3,2,9,8,7,6,5,4,3,2]
    pesos2 = [6] + pesos1
    def calc(parcial, pesos):
        s = sum(int(d)*p for d, p in zip(parcial, pesos))
        r = s % 11
        return '0' if r < 2 else str(11 - r)
    d1 = calc(nums[:12], pesos1)
    d2 = calc(nums[:12] + d1, pesos2)
    return nums[-2:] == d1 + d2

def data_br_valida(s: str) -> bool:
    m = RX_DATA.fullmatch(s)
    if not m:
        return False
    d, M, a = map(int, s.split("/"))
    try:
        datetime(a, M, d)
        return True
    except ValueError:
        return False

print("\nValidação prática:")
print("CPF válido?", cpf_valido("529.982.247-25"))
print("CNPJ válido?", cnpj_valido("12.345.678/0001-95"))
print("Data válida?", data_br_valida("29/02/2024"))


Validação prática:
CPF válido? True
CNPJ válido? True
Data válida? True


In [205]:
# ============================================================
# 8. NORMALIZAÇÃO DE CAMPOS
# ============================================================

def normaliza_cpf(texto: str) -> list[str]:
    cpfs_norm = []
    for m in RX_CPF.finditer(texto):
        nums = re.sub(r"\D", "", m.group())
        cpfs_norm.append(f"{nums[:3]}.{nums[3:6]}.{nums[6:9]}-{nums[9:]}")
    return cpfs_norm

def extrai_campos(texto: str) -> dict:
    cpf_m = RX_CPF.search(texto)
    cnpj_m = RX_CNPJ.search(texto)
    cep_m  = RX_CEP.search(texto)

    out = {}
    if cpf_m:
        cpf = cpf_m.group()
        out["cpf"] = {
            "valor": cpf,
            "normalizado": normaliza_cpf(cpf)[0],
            "valido": cpf_valido(cpf),
        }
    if cnpj_m:
        cnpj = cnpj_m.group()
        out["cnpj"] = {
            "valor": cnpj,
            "valido": cnpj_valido(cnpj),
        }
    if cep_m:
        cep = re.sub(r"\D", "", cep_m.group())
        out["cep"] = cep[:5] + "-" + cep[5:]
    return out

print("\nExtração e normalização:")
print(extrai_campos(texto_doc))



Extração e normalização:
{'cpf': {'valor': '529.982.247-25', 'normalizado': '529.982.247-25', 'valido': True}, 'cnpj': {'valor': '12.345.678/0001-95', 'valido': True}, 'cep': '60440-000'}


In [206]:
# ============================================================
# 9. LOOKAROUNDS AVANÇADOS E SENHAS
# ============================================================

RX_SENHA = re.compile(r"^(?=.*[a-z])(?=.*[A-Z])(?=.*\d).{8,}$")
senhas = ["abc", "Abc12345", "senhaSemNumero", "12345678aA"]
print("\nValidação de senhas:")
for s in senhas:
    print(f"{s:20} ->", bool(RX_SENHA.match(s)))



Validação de senhas:
abc                  -> False
Abc12345             -> True
senhaSemNumero       -> False
12345678aA           -> True


| Parte         | Nome               | Função principal                                |
| ------------- | ------------------ | ----------------------------------------------- |
| `^`           | âncora de início   | garante que o padrão começa no início da string |
| `(?=.*[a-z])` | lookahead positivo | exige pelo menos uma letra minúscula            |
| `(?=.*[A-Z])` | lookahead positivo | exige pelo menos uma letra maiúscula            |
| `(?=.*\d)`    | lookahead positivo | exige pelo menos um número                      |
| `.{8,}`       | corpo da senha     | exige no mínimo 8 caracteres de qualquer tipo   |
| `$`           | âncora de fim      | garante que o padrão termina no final da string |


In [207]:
# ============================================================
# 10. MINI TESTES AUTOMÁTICOS
# ============================================================

def testa():
    assert RX_EMAIL.match("a+b.c-d@dominio.com.br")
    assert not RX_EMAIL.match("inválido@@x")
    assert cpf_valido("529.982.247-25")
    assert not cpf_valido("111.111.111-11")
    assert data_br_valida("29/02/2024")
    assert not data_br_valida("31/11/2024")
    print("\nTodos os testes automáticos passaram!")

testa()



Todos os testes automáticos passaram!



## **Projeto: Extração e Limpeza de Dados e ajustes Textuais com Expressões Regulares**


Aplicar expressões regulares em Python para extrair, validar e normalizar informações estruturadas (como e-mails, telefones, CPFs, CNPJs, CEPs, URLs, datas, valores monetários etc.) a partir de um dataset textual real.


### **1. Dataset**


- Dados sintéticos, com campos como CNPJ, CPF, e-mails, endereços e telefones com ruídos.
https://drive.google.com/file/d/1511u4Hl99JTD2tlkQlIcp77HPNhn3sNE/view?usp=sharing

### **3. Etapas**


#### **Etapa 1 — Carregamento e exploração**

* Ler o dataset.
* Observar o formato dos campos textuais (nomes, e-mails, CPFs, CNPJs, telefones).
* Identificar quais estão corretos, incompletos ou com ruído.

#### **Etapa 2 — Criação de padrões regex**

* Criar padrões para:
  * nome
  * CPF e CNPJ
  * E-mails
  * Telefones (formatos variados, com DDD)
  * CEPs
  * Datas (DD/MM/AAAA)
  * Valores monetários (ex: R$ 1.234,56)
* Testar os padrões com `re.findall()` e `re.search()` , por exemplo.

#### **Etapa 3 — Normalização**

* Padronizar todos os CPFs para o formato `XXX.XXX.XXX-YY`.
* Padronizar telefones para o formato `(XX) 9XXXX-XXXX`.
* Corrigir CNPJs para `XX.XXX.XXX/0001-YY`.
* Criar funções `normaliza_cpf()`, `normaliza_cnpj()`, `normaliza_fone()` etc.

#### **Etapa 4 — Validação**

* Implementar funções de validação de CPF e CNPJ.
* Marcar no DataFrame quais registros são válidos/inválidos.

#### **Etapa 5 —  relatório**

* Contar quantos registros estavam incorretos e quantos foram normalizados.
* Gerar um pequeno relatório com:

  * Número total de registros.
  * Percentual de registros válidos e inválidos.
  * Campos com mais inconsistências.
  * Exemplos antes/depois da limpeza.
  * Metodologia de correção


#### **Etapa 1 — Carregamento e exploração**

* Ler o dataset.
* Observar o formato dos campos textuais (nomes, e-mails, CPFs, CNPJs, telefones).
* Identificar quais estão corretos, incompletos ou com ruído.

In [208]:
import pandas as pd
import numpy as np

In [209]:
df = pd.read_csv("dataset_sintetico_regex_ruidos.csv")

print(df.head())

                 nome                   email           telefone  \
0       Danielë Souza  o  ig8f_1c@example.com   (71) 959440-7816   
1  S  érgi8 Rodrigues                87a+u5b@   +55 71 57871ê331   
2      H  elena Costa       3uea3-.geû@ufc.br       3191824-4935   
3      Yasmin Martins      c1a7mx1e@gmail com    (98) 95777-3872   
4       Natan Azevedo     -8bz_.b@example.com  +55(92)90330-9232   

                cpf                cnpj           cep           data  \
0  999.9299.9999-99  86.379.402/6542-35     84959-310     331/07/203   
1      43039117b122    2  27824-9638308      09839301      33/6/1994   
2        5555555555      54278498084187      48740164    13//11/2005   
3    951.484.656-70  36.629.946/8044-38       4895343  3  9/088/2029   
4   272.0946.537-26      64641708053143  1  9374-5229   1  9/02/2005   

            valor                                          url  \
0    R$5 3.553,18                   http://site.org/3xkxw/rek8   
1         141.556  h  ttps

In [210]:
print(df.info())
print(df.describe(include='all'))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   nome         1000 non-null   object
 1   email        1000 non-null   object
 2   telefone     1000 non-null   object
 3   cpf          1000 non-null   object
 4   cnpj         1000 non-null   object
 5   cep          1000 non-null   object
 6   data         1000 non-null   object
 7   valor        1000 non-null   object
 8   url          1000 non-null   object
 9   texto_livre  1000 non-null   object
dtypes: object(10)
memory usage: 78.2+ KB
None
                   nome                   email          telefone  \
count              1000                    1000              1000   
unique              860                    1000              1000   
top     Helena Carvalho  o  ig8f_1c@example.com  (71) 959440-7816   
freq                  5                       1                 1   

         

#### **Etapa 2 — Criação de padrões regex**

* Criar padrões para:
  * nome
  * CPF e CNPJ
  * E-mails
  * Telefones (formatos variados, com DDD)
  * CEPs
  * Datas (DD/MM/AAAA)
  * Valores monetários (ex: R$ 1.234,56)
* Testar os padrões com `re.findall()` e `re.search()` , por exemplo.

In [211]:
rx_nome = re.compile(r"[A-Za-zÀ-ÖØ-öø-ÿ]+(?:\s+[A-Za-zÀ-ÖØ-öø-ÿ]+)+")

rx_cpf = re.compile(r"(?<!\d)(?:\d{3}\.?\d{3}\.?\d{3}-?\d{2})(?!\d)")

rx_cnpj = re.compile(r"(?<!\d)(?:\d{2}\.?\d{3}\.?\d{3}/?\d{4}-?\d{2})(?!\d)")

rx_emails = rx_email

rx_fone = re.compile(r"(?x)(?:\+?55\s*)?(?:\(?\d{2}\)?\s*)?(?:9?\d{4})-?\s?\d{4}")

rx_cep = re.compile(r"(?<!\d)\d{5}-?\d{3}(?!\d)")

rx_data = re.compile(r"(?<!\d)(0?[1-9]|[12]\d|3[01])/(0?[1-9]|1[0-2])/\d{4}(?!\d)")

rx_valor = r"R\$ ?\d{1,3}(?:\.\d{3})*,\d{2}"


In [212]:
texto = "Cliente: Arielly Gonçalves, CPF 123.456.789-09, e-mail ari@lima.com, tel (85) 91234-5678"
print(re.findall(rx_cpf, texto))
print(re.search(rx_nome, texto))

['123.456.789-09']
<re.Match object; span=(9, 26), match='Arielly Gonçalves'>


#### **Etapa 3 — Normalização**

* Padronizar todos os CPFs para o formato `XXX.XXX.XXX-YY`.
* Padronizar telefones para o formato `(XX) 9XXXX-XXXX`.
* Corrigir CNPJs para `XX.XXX.XXX/0001-YY`.
* Criar funções `normaliza_cpf()`, `normaliza_cnpj()`, `normaliza_fone()` etc.

In [213]:
def normaliza_cpf(cpf):
    cpf = re.sub(r"\D", "", cpf)
    return f"{cpf[:3]}.{cpf[3:6]}.{cpf[6:9]}-{cpf[9:]}" if len(cpf) == 11 else "---"

def normaliza_cnpj(cnpj):
    cnpj = re.sub(r"\D", "", cnpj)
    return f"{cnpj[:2]}.{cnpj[2:5]}.{cnpj[5:8]}/{cnpj[8:12]}-{cnpj[12:]}" if len(cnpj) == 14 else "---"

def normaliza_fone(fone):
    fone = fone.strip()
    if fone.startswith("+55"):
        fone = fone.replace("+55", '')
    fone = re.sub(r"\D", "", fone)

    if len(fone) == 11:
        return f"({fone[:2]}) {fone[2:7]}-{fone[7:]}"
    elif len(fone) == 10:
        return f"({fone[:2]}) 9{fone[2:6]}-{fone[6:]}"
    else:
        return "---"


In [214]:
df['CPF_normalizado'] = df['cpf'].apply(normaliza_cpf)
df['CNPJ_normalizado'] = df['cnpj'].apply(normaliza_cnpj)
df['Telefone_normalizado'] = df['telefone'].apply(normaliza_fone)

#### **Etapa 4 — Validação**

* Implementar funções de validação de CPF e CNPJ.
* Marcar no DataFrame quais registros são válidos/inválidos.


In [215]:
def cpf_valido(cpf: str) -> bool:
    nums = re.sub(r"\D", "", cpf)
    if len(nums) != 11 or len(set(nums)) == 1:
        return False
    def digito(parcial):
        soma = sum(int(d)*w for d, w in zip(parcial, range(len(parcial)+1, 1, -1)))
        r = (soma * 10) % 11
        return '0' if r == 10 else str(r)
    d1 = digito(nums[:9])
    d2 = digito(nums[:9] + d1)
    return nums[-2:] == d1 + d2

def cnpj_valido(cnpj: str) -> bool:
    nums = re.sub(r"\D", "", cnpj)
    if len(nums) != 14 or len(set(nums)) == 1:
        return False
    pesos1 = [5,4,3,2,9,8,7,6,5,4,3,2]
    pesos2 = [6] + pesos1
    def calc(parcial, pesos):
        s = sum(int(d)*p for d, p in zip(parcial, pesos))
        r = s % 11
        return '0' if r < 2 else str(11 - r)
    d1 = calc(nums[:12], pesos1)
    d2 = calc(nums[:12] + d1, pesos2)
    return nums[-2:] == d1 + d2

In [216]:
df['CPF_valido'] = df['CPF_normalizado'].apply(cpf_valido)
df['CNPJ_valido'] = df['CNPJ_normalizado'].apply(cnpj_valido)

In [217]:
display(df.head(10))

Unnamed: 0,nome,email,telefone,cpf,cnpj,cep,data,valor,url,texto_livre,CPF_normalizado,CNPJ_normalizado,Telefone_normalizado,CPF_valido,CNPJ_valido
0,Danielë Souza,o ig8f_1c@example.com,(71) 959440-7816,999.9299.9999-99,86.379.402/6542-35,84959-310,331/07/203,"R$5 3.553,18",http://site.org/3xkxw/rek8,Cliente: Danielë Souza Contato: o ig8f_1c@exam...,---,86.379.402/6542-35,---,False,False
1,S érgi8 Rodrigues,87a+u5b@,+55 71 57871ê331,43039117b122,2 27824-9638308,09839301,33/6/1994,141.556,h ttps://exemplo.com/n8i4p4/mgg1w11/3dgdzv,Cliente: S érgi8 Rodrigues Contato: 87a+u5b@ |...,430.391.171-22,---,(71) 95787-1331,True,False
2,H elena Costa,3uea3-.geû@ufc.br,3191824-4935,5555555555,54278498084187,48740164,13//11/2005,"_1,371.3",http://sitee.org/919ah,Cliente: H elena Costa Contato: 3uea3-.geû@ufc...,---,54.278.498/0841-87,(31) 91824-4935,False,True
3,Yasmin Martins,c1a7mx1e@gmail com,(98) 95777-3872,951.484.656-70,36.629.946/8044-38,4895343,3 9/088/2029,"R $ 3.497,38",http://site.orrg/my5zpj/g1o,Cliente: Yasmin Martins Contato: c1a7mx1e@gmai...,951.484.656-70,36.629.946/8044-38,(98) 95777-3872,True,True
4,Natan Azevedo,-8bz_.b@example.com,+55(92)90330-9232,272.0946.537-26,64641708053143,1 9374-5229,1 9/02/2005,R$ 777.92,https://contato.me/bty/mepgth,Cliente: Natan Azevedo Contato: -8bz_.b@exampl...,---,64.641.708/0531-43,(92) 90330-9232,False,True
5,Paulo osta,hmuh8lmn@mail.com,1 1 97116-7190,989.413.435-18,40.084.271/0947-77,2941ì3-186,14/02/2010,2756.94 BRL,http://csite.org/t1tdgn/qfkp,Cliente: Paulo osta Contato: hmuh8lmn@mail.com...,989.413.435-18,40.084.271/0947-77,(11) 97116-7190,True,False
6,Fernanda Ribeiro,sz9c3fuquhz6@outlook.com,11913171274,876.038.597-94,3 4.824.771/0322-96,46773-782,19/10/20õ22,R$ 2462.93,https://empresacom.br/0v6ra,Cliente: Fernanda Ribeiro Contato: sz9c3fuquhz...,876.038.597-94,34.824.771/0322-96,(11) 91317-1274,True,False
7,M arin Ribeiro,70.lkklf-@outlook.com,+55 41 713695594,379.237.474-90,74821759464755-,06409097,2 8/04/2010,1070.65,h ttps://empresa.com.br/qigc,Cliente: M arin Ribeiro Contato: 70.lkklf-@out...,379.237.474-90,74.821.759/4647-55,(41) 71369-5594,True,True
8,P aulo Ribeeiro,_j0g5-0rcxn@dominio.org,41 92904-ô2284,351.585064-34,7 1.390.053/293j1-83,1 0205-395,07/09/2005,R$2417.18,https://contato.me/42x,Cliente: P aulo Ribeeiro Contato: _j0g5-0rcxn@...,351.585.064-34,71.390.053/2931-83,(41) 92904-2284,True,False
9,Beatriz Costa,g.6nj4ogw@mail.comh,+65(31)96120-1836,333333333333,99.809.402/4ã455-67,7 5254-599,56/10v/1993,1739..69,https:///emresa.comö.br/520rn6/w1h,Cliente: Beatriz Costa Contato: g.6nj4ogw@mail...,---,99.809.402/4455-67,---,False,True


#### **Etapa 5 —  relatório**

* Contar quantos registros estavam incorretos e quantos foram normalizados.
* Gerar um pequeno relatório com:

  * Número total de registros.
  * Percentual de registros válidos e inválidos.
  * Campos com mais inconsistências.
  * Exemplos antes/depois da limpeza.
  * Metodologia de correção

In [219]:
total = len(df)
cpf_validos = df['CPF_valido'].sum()
cnpj_validos = df['CNPJ_valido'].sum()

#resumo
print("RELATÓRIO")
print(f"• Total de registros analisados: {total}")
print(f"• CPFs válidos:  {cpf_validos}  ({cpf_validos/total:.1%})")
print(f"• CNPJs válidos: {cnpj_validos} ({cnpj_validos/total:.1%})")


#Inconsistências por campo
inconsistencias = {
    'CPF inválido': (~df['CPF_valido']).sum(),
    'CNPJ inválido': (~df['CNPJ_valido']).sum()
}

print("\nCAMPOS COM INCONSISTÊNCIAS(dos analisados)")
for campo, qtd in inconsistencias.items():
    print(f"• {campo:<20} → {qtd:>3} registros  ({qtd/total:6.2%})")

#limpeza de dados

print("\n EXEMPLO DE LIMPEZA DE DADOS\n")

verificacao = [
    'cpf', 'CPF_normalizado',
    'telefone', 'Telefone_normalizado',
    'cnpj', 'CNPJ_normalizado'
]

print(df[verificacao].head(5).to_string(index=False))


print("\n METODOLOGIA DE CORREÇÃO\n")
print("""- Identificação de padrões incorretos via expressões regulares;
- Normalização de CPFs, CNPJs, telefones e valores monetários...;
- Validação de CPFs e CNPJs;
- Substituição de valores inválidos por '---' ou NaN quando não recuperáveis.""")


RELATÓRIO
• Total de registros analisados: 1000
• CPFs válidos:  465  (46.5%)
• CNPJs válidos: 475 (47.5%)

CAMPOS COM INCONSISTÊNCIAS(dos analisados)
• CPF inválido         → 535 registros  (53.50%)
• CNPJ inválido        → 525 registros  (52.50%)

 EXEMPLO DE LIMPEZA DE DADOS

             cpf CPF_normalizado          telefone Telefone_normalizado               cnpj   CNPJ_normalizado
999.9299.9999-99             ---  (71) 959440-7816                  --- 86.379.402/6542-35 86.379.402/6542-35
    43039117b122  430.391.171-22  +55 71 57871ê331      (71) 95787-1331   2  27824-9638308                ---
      5555555555             ---      3191824-4935      (31) 91824-4935     54278498084187 54.278.498/0841-87
  951.484.656-70  951.484.656-70   (98) 95777-3872      (98) 95777-3872 36.629.946/8044-38 36.629.946/8044-38
 272.0946.537-26             --- +55(92)90330-9232      (92) 90330-9232     64641708053143 64.641.708/0531-43

 METODOLOGIA DE CORREÇÃO

- Identificação de padrões incorr