---

<a id="etapas-78"></a>Etapas 7/8 — Tipagem, detecção e perfil

1. Uso de retorno de função inconsistente (detect_numeric)
🔎 Buscar por: as_num = detect_numeric(s)
Linhas aprox.: 1–6 (da célula de inferência antiga)
Link direto: (colar link da célula aqui)


2. Linha truncada em semantic_type
🔎 Buscar por: url_ratio = (vals.str.match(URL_RX)).
Linhas aprox.: 38–44
Link direto: (colar link da célula aqui)


3. Funções redefinidas em células diferentes (detect_datetime, semantic_type)
🔎 Buscar por: def detect_datetime(
Linhas aprox. (versão íntegra): 19–33
🔎 Buscar por: def semantic_type(
Linhas aprox. (variante): 12–20 (+ sequência)
Links diretos: (colar link da(s) célula(s) aqui)


4. Hotspots de memória/performance
🔎 Buscar por: pd.read_csv( e dtype=str
Linhas aprox. (leitura): 47–49
🔎 Buscar por: .value_counts()
Linhas aprox. (profiling): 34–38
Links diretos: (colar link da(s) célula(s) aqui)


5. Warning do to_datetime
🔎 Buscar por: SettingWithCopyWarning ou to_datetime
Linhas aprox. (warning): 1–4
Link direto: (colar link da célula aqui)




---

<a id="etapa-9"></a>Etapa 9 — Geração de relatórios (TXT/HTML/PNGs/PDF)

1. Blocos de geração de relatórios duplicados
🔎 Buscar por: geração de relatórios: TXT, HTML, PNGs e PDF
Linhas aprox.: 2–7 e 41–50
Links diretos: (colar links das células aqui)


2. Resumo final duplicado
🔎 Buscar por: Relatórios gerados em
Linhas aprox.: 22–26 e 3–7
Links diretos: (colar links das células aqui)



#**Licença de Uso**


This repository uses a **dual-license model** to distinguish between source code and creative/documental content.

**Code** (Python scripts, modules, utilities):
Licensed under the MIT License.

→ You may freely use, modify, and redistribute the code, including for commercial purposes, provided that you preserve the copyright notice.

**Content** (Jupyter notebooks, documentation, reports, datasets, and generated outputs):
Licensed under the Creative Commons Attribution–NonCommercial 4.0 International License.

→ You may share and adapt the content for non-commercial purposes, provided that proper credit is given to the original author.


**© 2025 Leandro Bernardo Rodrigues**


#**Utilitário:** verificação da formatação de código

Black [88] + Isort, desconsiderando células mágicas

In [None]:
# @title
#ID0001
#pré-visualizar/aplicar (pula magics) — isort(profile=black)+black(88) { display-mode: "form" }
import sys, subprocess, os, re, difflib, textwrap, time
from typing import List, Tuple

# ===== CONFIG =====
NOTEBOOK = "/content/drive/MyDrive/Notebooks/data-analysis/notebooks/main_DataTools.ipynb"  # <- ajuste
LINE_LENGTH = 88
# ==================

# 1) Instalar libs no MESMO Python do kernel
subprocess.check_call([sys.executable, "-m", "pip", "install", "-q", "black", "isort", "nbformat"])

import nbformat
import black
import isort

BLACK_MODE = black.Mode(line_length=LINE_LENGTH)
ISORT_CFG  = isort.Config(profile="black", line_length=LINE_LENGTH)

# 2) Regras para pular células com magics/shell
#   - linhas começando com %, %%, !
#   - chamadas a get_ipython(
MAGIC_LINE = re.compile(r"^\s*(%{1,2}|!)", re.M)
GET_IPY    = re.compile(r"get_ipython\s*\(")

def has_magics(code: str) -> bool:
    return bool(MAGIC_LINE.search(code) or GET_IPY.search(code))

def format_code(code: str) -> str:
    # isort primeiro, depois black
    sorted_code = isort.api.sort_code_string(code, config=ISORT_CFG)
    return black.format_str(sorted_code, mode=BLACK_MODE)

def summarize_diff(diff_lines: List[str]) -> Tuple[int, int]:
    added = removed = 0
    for ln in diff_lines:
        # ignorar cabeçalhos do diff
        if ln.startswith(("---", "+++", "@@")):
            continue
        if ln.startswith("+"):
            added += 1
        elif ln.startswith("-"):
            removed += 1
    return added, removed

def header(title: str):
    print("\n" + "=" * 100)
    print(title)
    print("=" * 100)

if not os.path.exists(NOTEBOOK):
    raise FileNotFoundError(f"Notebook não encontrado:\n{NOTEBOOK}")

# 3) Leitura do .ipynb
with open(NOTEBOOK, "r", encoding="utf-8") as f:
    nb = nbformat.read(f, as_version=4)

changed_cells = []  # (idx, added, removed, diff_text, preview_snippet, new_code)

# 4) Pré-visualização célula a célula
header("Pré-visualização (NÃO grava) — somente células com mudanças")
for i, cell in enumerate(nb.cells):
    if cell.get("cell_type") != "code":
        continue

    original = cell.get("source", "")
    if not original.strip():
        continue

    # Pular células com magics/shell
    if has_magics(original):
        continue

    try:
        formatted = format_code(original)
    except Exception as e:
        print(f"[Aviso] célula {i}: erro no formatador — pulando ({e})")
        continue

    if original.strip() != formatted.strip():
        # Gerar diff unificado legível
        diff = list(difflib.unified_diff(
            original.splitlines(), formatted.splitlines(),
            fromfile=f"cell_{i}:before", tofile=f"cell_{i}:after", lineterm=""
        ))
        add, rem = summarize_diff(diff)
        snippet = original.strip().splitlines()[0][:120] if original.strip().splitlines() else "<célula vazia>"
        changed_cells.append((i, add, rem, "\n".join(diff), snippet, formatted))

# 5) Exibição dos diffs por célula (se houver)
if not changed_cells:
    print("✔ Nada a alterar: todas as células (não mágicas) já estão conforme isort/black.")
else:
    total_add = total_rem = 0
    for (idx, add, rem, diff_text, snippet, _new) in changed_cells:
        total_add += add
        total_rem += rem
        header(f"Diff — Célula #{idx}  (+{add}/-{rem})")
        print(f"Primeira linha da célula: {snippet!r}\n")
        print(diff_text)

    header("Resumo")
    print(f"Células com mudanças: {len(changed_cells)}")
    print(f"Linhas adicionadas:   {total_add}")
    print(f"Linhas removidas:     {total_rem}")

# 6) Perguntar se aplica
if changed_cells:
    print("\nDigite 'p' para **Proceder** e gravar as mudanças nessas células, ou 'c' para **Cancelar**.")
    try:
        choice = input("Proceder (p) / Cancelar (c): ").strip().lower()
    except Exception:
        choice = "c"

    if choice == "p":
        # Backup antes de escrever
        backup = NOTEBOOK + ".bak"
        if not os.path.exists(backup):
            with open(backup, "w", encoding="utf-8") as bf:
                nbformat.write(nb, bf)

        # Aplicar somente nas células com mudanças
        idx_to_new = {idx: new for (idx, _a, _r, _d, _s, new) in changed_cells}
        for i, cell in enumerate(nb.cells):
            if i in idx_to_new and cell.get("cell_type") == "code":
                cell["source"] = idx_to_new[i]

        # Escrever no .ipynb
        with open(NOTEBOOK, "w", encoding="utf-8") as f:
            nbformat.write(nb, f)

        # Sync delay (Drive)
        time.sleep(1.0)

        header("Concluído")
        print(f"✔ Mudanças aplicadas em {len(changed_cells)} célula(s).")
        print(f"Backup criado em: {backup}")
        print("Dica: recarregue o notebook no Colab para ver a formatação atualizada.")
    else:
        print("\nOperação cancelada. Nada foi gravado.")

#**Sincronizar alterações no código do projeto**
Comandos para sincronizar código (Google Drive, Git, GitHub) e realizar versionamento

---
Google Drive é considerado o ponto de verdade

In [None]:
# @title
#ID0002
#push do Drive -> GitHub (Drive é a fonte da verdade)
#respeita .gitignore do Drive
#sempre em 'main', sem pull, commit + push imediato
#mensagem de commit padronizada com timestamp SP
#bump de versão (M/m/n) + tag anotada
#force push (branch e tags), silencioso; só 1 print final
#PAT lido de segredo do Colab: GITHUB_PAT_DA (fallback: env; último caso: prompt)

from pathlib import Path
import subprocess, os, re, shutil, sys, getpass
from urllib.parse import quote as urlquote
from datetime import datetime, timezone, timedelta

#configurações do projeto
author_name    = "Leandro Bernardo Rodrigues"
owner          = "LeoBR84p"         # dono do repositório no GitHub
repo_name      = "data-analysis"    # nome do repositório
default_branch = "main"
repo_dir       = Path("/content/drive/MyDrive/Notebooks/data-analysis")
remote_base    = f"https://github.com/{owner}/{repo_name}.git"
author_email   = f"bernardo.leandro@gmail.com"  # evita erro de identidade

#nbstripout: "install" para limpar outputs; "disable" para versionar outputs
nbstripout_mode = "install"
import shutil
exe = shutil.which("nbstripout")
git("config", "--local", "filter.nbstripout.clean", exe if exe else "nbstripout", cwd=repo_dir)

#utilitários silenciosos
def sh(cmd, cwd=None, check=True):
    """
    Executa comando silencioso. Em erro, levanta RuntimeError com rc e UM rascunho de causa,
    mascarando URLs com credenciais (ex.: https://***:***@github.com/...).
    """
    safe_cmd = []
    for x in cmd:
        if isinstance(x, str) and "github.com" in x and "@" in x:
            #mascara credenciais: https://user:token@ -> https://***:***@
            x = re.sub(r"https://[^:/]+:[^@]+@", "https://***:***@", x)
        safe_cmd.append(x)

    r = subprocess.run(cmd, cwd=cwd, text=True, capture_output=True)
    if check and r.returncode != 0:
        #heurística curtinha p/ tornar rc=128 mais informativo sem vazar nada
        stderr = (r.stderr or "").strip().lower()
        if "authentication failed" in stderr or "permission" in stderr or "not found" in stderr:
            hint = "auth/permissões/URL"
        elif "not a git repository" in stderr:
            hint = "repo local inválido"
        else:
            hint = "git falhou"
        cmd_hint = " ".join(safe_cmd[:3])
        raise RuntimeError(f"rc={r.returncode}; {hint}; cmd={cmd_hint}")
    return r.stdout

def git(*args, cwd=None, check=True):
    return sh(["git", *args], cwd=cwd, check=check)

#ambiente: Colab + Drive
def ensure_drive():
    try:
        from google.colab import drive  # type: ignore
        base = Path("/content/drive/MyDrive")
        if not base.exists():
            drive.mount("/content/drive")
        if not base.exists():
            raise RuntimeError("Google Drive não montado.")
    except Exception as e:
        raise RuntimeError(f"Falha ao montar o Drive: {e}")

#repo local no Drive
def is_empty_dir(p: Path) -> bool:
    try:
        return p.exists() and not any(p.iterdir())
    except Exception:
        return True

def init_or_recover_repo():
    repo_dir.mkdir(parents=True, exist_ok=True)
    git_dir = repo_dir / ".git"

    def _fresh_init():
        if git_dir.exists():
            shutil.rmtree(git_dir, ignore_errors=True)
        git("init", cwd=repo_dir)

    #caso .git no Colab ausente ou vazia -> init limpo
    if not git_dir.exists() or is_empty_dir(git_dir):
        _fresh_init()
    else:
        #valida se é um work-tree git funcional no Colab; se falhar -> init limpo
        try:
            git("rev-parse", "--is-inside-work-tree", cwd=repo_dir)
        except Exception:
            _fresh_init()

    #aborta operações pendentes (não apaga histórico)
    for args in (("rebase", "--abort"), ("merge", "--abort"), ("cherry-pick", "--abort")):
        try:
            git(*args, cwd=repo_dir, check=False)
        except Exception:
            pass

    #força branch main
    try:
        sh(["git", "switch", "-C", default_branch], cwd=repo_dir)
    except Exception:
        sh(["git", "checkout", "-B", default_branch], cwd=repo_dir)

    #configura identidade local
    try:
        git("config", "user.name", author_name, cwd=repo_dir)
        git("config", "user.email", author_email, cwd=repo_dir)
    except Exception:
        pass

    #marca o diretório como safe
    try:
        sh(["git","config","--global","--add","safe.directory", str(repo_dir)])
    except Exception:
        pass

    #sanity check final (falha cedo se algo ainda estiver errado)
    git("status", "--porcelain", cwd=repo_dir)


#nbstripout (opcional)
def setup_nbstripout():
    if nbstripout_mode == "disable":
        #remove configs do filtro
        sh(["git","config","--local","--unset-all","filter.nbstripout.clean"], cwd=repo_dir, check=False)
        sh(["git","config","--local","--unset-all","filter.nbstripout.smudge"], cwd=repo_dir, check=False)
        sh(["git","config","--local","--unset-all","filter.nbstripout.required"], cwd=repo_dir, check=False)
        gat = repo_dir / ".gitattributes"
        if gat.exists():
            lines = gat.read_text(encoding="utf-8", errors="ignore").splitlines()
            new_lines = [ln for ln in lines if "filter=nbstripout" not in ln]
            gat.write_text("\n".join(new_lines) + ("\n" if new_lines else ""), encoding="utf-8")
        return

    #instala nbstripout (se necessário)
    try:
        import nbstripout  #noqa: F401
    except Exception:
        sh([sys.executable, "-m", "pip", "install", "--quiet", "nbstripout"])

    py = sys.executable
    #configurar filtro sem aspas extras
    git("config", "--local", "filter.nbstripout.clean", "nbstripout", cwd=repo_dir)
    git("config", "--local", "filter.nbstripout.smudge", "cat", cwd=repo_dir)
    git("config", "--local", "filter.nbstripout.required", "true", cwd=repo_dir)
    gat = repo_dir / ".gitattributes"
    line = "*.ipynb filter=nbstripout"
    if gat.exists():
        txt = gat.read_text(encoding="utf-8", errors="ignore")
        if line not in txt:
            gat.write_text((txt.rstrip() + "\n" + line + "\n"), encoding="utf-8")
    else:
        gat.write_text(line + "\n", encoding="utf-8")

#.gitignore normalização
def normalize_tracked_ignored():
    """
    Se houver arquivos já rastreados que hoje são ignorados pelo .gitignore,
    limpa o índice e re-adiciona respeitando o .gitignore.
    Retorna True se normalizou algo; False caso contrário.
    """
    #remove lock de índice, se houver
    lock = repo_dir / ".git/index.lock"
    try:
        if lock.exists():
            lock.unlink()
    except Exception:
        pass

    #garante que o índice existe (ou se recupera)
    idx = repo_dir / ".git/index"
    if not idx.exists():
        try:
            sh(["git", "reset", "--mixed"], cwd=repo_dir)
        except Exception:
            try:
                sh(["git", "init"], cwd=repo_dir)
            except Exception:
                pass

    #detecta arquivos ignorados que estão rastreados e normaliza
    normalized = False
    try:
        out = git("ls-files", "-z", "--ignored", "--exclude-standard", "--cached", cwd=repo_dir)
        tracked_ignored = [p for p in out.split("\x00") if p]
        if tracked_ignored:
            git("rm", "-r", "--cached", ".", cwd=repo_dir)
            git("add", "-A", cwd=repo_dir)
            normalized = True
    except Exception:
        #falhou a detecção? segue o fluxo sem travar
        pass

    return normalized

#semVer e bump de versão
_semver = re.compile(r"^(\d+)\.(\d+)\.(\d+)$")

def parse_semver(s):
    m = _semver.match((s or "").strip())
    return tuple(map(int, m.groups())) if m else None

def current_version():
    try:
        tags = [t for t in git("tag", "--list", cwd=repo_dir).splitlines() if parse_semver(t)]
        if tags:
            return sorted(tags, key=lambda x: parse_semver(x))[-1]
    except Exception:
        pass
    vf = repo_dir / "VERSION"
    if vf.exists():
        v = vf.read_text(encoding="utf-8").strip()
        if parse_semver(v):
            return v
    return "1.0.0"

def bump(v, kind):
    M, m, p = parse_semver(v) or (1, 0, 0)
    k = (kind or "").strip()
    if k == "m":
        return f"{M}.{m+1}.0"
    if k == "n":
        return f"{M}.{m}.{p+1}"
    return f"{M+1}.0.0"  #default major

#timestamp SP
def now_sp():
    #tenta usar zoneinfo; fallback fixo -03:00 (Brasil sem DST atualmente)
    try:
        from zoneinfo import ZoneInfo  # Py3.9+
        tz = ZoneInfo("America/Sao_Paulo")
        dt = datetime.now(tz)
    except Exception:
        dt = datetime.now(timezone(timedelta(hours=-3)))
    #formato legível + offset
    return dt.strftime("%Y-%m-%d %H:%M:%S%z")  # ex.: 2025-10-08 02:34:00-0300

#autenticação (PAT)
def get_pat():
    #Colab Secrets
    token = None
    try:
        from google.colab import userdata  #type: ignore
        token = userdata.get('GITHUB_PAT_DA')  #nome do segredo criado no Colab
    except Exception:
        token = None
    #fallback1 - variável de ambiente
    if not token:
        token = os.environ.get("GITHUB_PAT_DA") or os.environ.get("GITHUB_PAT")
    #fallback2 - interativo
    if not token:
        token = getpass.getpass("Informe seu GitHub PAT: ").strip()
    if not token:
        raise RuntimeError("PAT ausente.")
    return token

#listas de força
FORCE_UNTRACK = ["input/", "output/", "data/", "runs/", "logs/", "figures/"]
FORCE_TRACK   = ["references/"]  #versionar tudo dentro (PDFs inclusive)

def force_index_rules():
    #garante que pastas sensíveis NUNCA fiquem rastreadas
    for p in FORCE_UNTRACK:
        try:
            git("rm", "-r", "--cached", "--", p, cwd=repo_dir)
        except Exception:
            pass
    #garanta que references/ SEMPRE entre (útil se ainda há *.pdf globais)
    for p in FORCE_TRACK:
        try:
            git("add", "-f", "--", p, cwd=repo_dir)
        except Exception:
            pass

#fluxo principal
def main():
    try:
        ensure_drive()
        init_or_recover_repo()
        setup_nbstripout()

        #pergunta apenas o tipo de versão (M/m/n)
        kind = input("Informe o tipo de mudança: Maior (M), menor (m) ou pontual (n): ").strip()
        if kind not in ("M", "m", "n"):
            kind = "n"

        #versão
        cur = current_version()
        new = bump(cur, kind)
        (repo_dir / "VERSION").write_text(new + "\n", encoding="utf-8")

        #normaliza itens ignorados que estejam rastreados (uma única vez, se necessário)
        normalize_tracked_ignored()

        #aplica regras de força
        force_index_rules()

        #stage de tudo (Drive é a verdade; remoções entram aqui)
        git("add", "-A", cwd=repo_dir)

        #mensagem padronizada de commit
        ts = now_sp()
        commit_msg = f"upload pelo {author_name} em {ts}"
        try:
            git("commit", "-m", commit_msg, cwd=repo_dir)
        except Exception:
            #se nada a commitar, seguimos (pode ocorrer se só a tag mudar, mas aqui VERSION muda)
            status = git("status", "--porcelain", cwd=repo_dir)
            if status.strip():
                raise

        #Tag anotada (substitui se já existir)
        try:
            git("tag", "-a", new, "-m", f"release {new} — {commit_msg}", cwd=repo_dir)
        except Exception:
            sh(["git", "tag", "-d", new], cwd=repo_dir, check=False)
            git("tag", "-a", new, "-m", f"release {new} — {commit_msg}", cwd=repo_dir)

        #push com PAT (Drive é a verdade): validação + push forçado
        token = get_pat()
        user_for_url = owner  # você é o owner; não perguntamos
        auth_url = f"https://{urlquote(user_for_url, safe='')}:{urlquote(token, safe='')}@github.com/{owner}/{repo_name}.git"

        #valida credenciais/URL de forma silenciosa (sem vazar token)
        #tenta checar a branch main; se não existir (repo vazio), faz um probe genérico
        try:
            sh(["git", "ls-remote", auth_url, f"refs/heads/{default_branch}"], cwd=repo_dir)
        except RuntimeError:
            #repositório pode estar vazio (sem refs); probe sem ref deve funcionar
            sh(["git", "ls-remote", auth_url], cwd=repo_dir)

        #push forçado de branch e tags
        sh(["git", "push", "-u", "--force", auth_url, default_branch], cwd=repo_dir)
        sh(["git", "push", "--force", auth_url, "--tags"], cwd=repo_dir)

        print(f"[ok]   Registro no GitHub com sucesso. Versão atual {new}")
    except Exception as e:
        #mensagem única, curta, sem detalhes sensíveis
        msg = str(e) or "falha inesperada"
        print(f"[erro] {msg}")

#executa
if __name__ == "__main__":
    main()

#**Ferramentas de Data Analysis**

Ferramentas de **identificação de tipo de dado e estrutura da informação** presente em *datasets* a partir da ingestão de arquivos CSV UTF-8 com BOM em padrão separado por ponto e vírgula.
_____



##**Técnicas adotadas**: Threshold de inferência ≥ 90%




###**Inferência de tipos de dados e tipos semânticos**

- detecta campos numéricos, com conversão PT-BR (ponto de milhar, vírgula decimal);
- detecta campos de data e testa vários formatos de data comuns (BR/ISO, com e sem hora);
- detecta variáveis boleanas por dicionário ("sim"/"não"/"true"/"false"/"1"/"0" etc.); e
- demais casos são tipificados como objeto e analisados versus tipos semânticos (regex), que marcam email, URL, CPF e CNPJ.


🔎 **Como interpretar:**

Inconsistências na verificação indicam colunas mistas (ex.: texto + número) que podem precisar de saneamento.

📖 **Referências técnicas:** panorama e métodos de data profiling (tipagem, padrões, FDs).
- ABEDJAN, Ziawasch; GOLAB, Lukasz; NAUMANN, Felix. Data profiling - a tutorial. Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD'17), Chicago, IL, USA, p. 1747-1751, May 14-19 2017. New York: Association for Computing Machinery (ACM), 2017. DOI:10.1145/3035918.3054772.

- 2017_SIGMOD_Abedjan_Data-Profiling-Tutorial.pdf

###**Perfilamento básico por coluna**

- contagem de nulos;
- número de distintos;
- moda/mínima frequência (com proporções);
- estatísticas de comprimento (min/max/média/Q1/mediana/Q3); e
- amostras de padrão (datas, números PT-BR, “texto-livre” etc.).


🔎 **Como interpretar:**

- alta cardinalidade e campos todos distintos (all_distinct=True) sugerem fortes candidatos a campos chave (ou a presença de IDs aleatórios); e
- comprimentos e exemplos de expressões regulares (regex) ajudam a detectar campos truncados, espaços extras e formatação inconsistente.

1. vários valores com mesmo tamanho máximo podem indicar corte de informações/truncagem; e
2. tamanho mínimo = tamanho máximo pode indicar máscaras de preenchimento.



📖 **Referências técnicas**: guias de perfilamento e qualidade de dados.

- ABEDJAN, Ziawasch; GOLAB, Lukasz; NAUMANN, Felix. Data profiling - a tutorial. Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD'17), Chicago, IL, USA, p. 1747-1751, May 14-19 2017. New York: Association for Computing Machinery (ACM), 2017. DOI:10.1145/3035918.3054772.

- 2017_SIGMOD_Abedjan_Data-Profiling-Tutorial.pdf

###**Estatística descritiva e outliers (para valores numéricos)**

Observa campos numéricos e verifica se os números estão concentrados, espalhados, outliers e desvio na distribuição (skew).

- para dados numéricos, avalia: min, Q1, mediana, Q3, max, média, desvio-padrão, IQR, assimetria e curtose-excesso;
- identifica outliers por IQR (intervalo interquartíltico): identifica onde estão a maioria dos dados (média) e marca tudo que estiver fora (acima ou abaixo) como outlier; e
- identifica outliers por MAD (desvio absoluto da mediana): identifica valores afastados da mediana (centro-real) e marca tudo que estiver fora (acima ou abaixo) como outlier. Método mais resistente contra valores que distorçam a distribuição.

🔎 **Como interpretar:**
Estamos aplicando métodos não paramétricos para análise (ou seja, não estamos assumindo que os valores se aproximam de um formato específico de uma distribuição conhecida)

- método IQR é adequado para distribuição com caudas leves (sem extremos);
- método MAD é resistente a extremos — usado para séries com anomalias ou assimetria;
- Skewness avalia o formato da distribuição (maior que 0, para a direita / menor que 0, para esquerda). Indica se seria aplicável realizar transformação logarítmica para comprimir valores altos e diminuir o peso dos extremos, possibilitando aproximações com distribuições simétricas/normais; e
- Curtose avalia se há mais valores extremos do que centrais (kurtosis maior que 0).

📖 **Referência técnica:**

NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY (NIST). Exploratory Data Analysis (EDA). In: NIST/SEMATECH e-Handbook of Statistical Methods. Gaithersburg: NIST, 2012. Disponível em: https://www.itl.nist.gov/div898/handbook/eda/eda.htm.

###**Tipos Categóricos/booleanos**

Análise utilizando a entropia de Shannon (vide Claude Shannon, 1948) e o conceito de bits (1 bit = 1 informação suficiente para escolher entre duas opções).

Calcula entropia a partir das frequências:
- entropia alta (maior do que 2) → categorias mais equilibradas (se metade dos dados é A e metade dos dados é B, os eventos são igualmente prováveis e, portanto, mais difícil adivinhar um sorteio); e
- entropia baixa (menor do que 1) → dominância de poucas categorias (existem eventos dominantes e, seria possível acertar um chute).


🔎 **Como interpretar:**
- ajuda a detectar colunas sem variação (e que podem não ter conteúdo relevante);
- mostra distribuições desbalanceadas e que poderiam trazer pontos de atenção para treinamento de algoritmos;
- ajuda a medir a diversidade de um dado;
- usada como base para cálculo de ganho de informação em algoritmos de árvores de decisão e ML (compara-se a entropia antes e depois da inclusão de uma nova divisão no conjunto de dados);
- resultados: 0 → todos os valores são iguais | menor do que 1 → valores homogêneos | entre 1 e 2 → boa diversidade, coluna informativa | maior do que 2 → categorias com proporções parecidas;
- entropia alta com muitas categorias pode sinalizar ruído (ex.: grafias variadas para o mesmo rótulo); e
- entropia baixa pode expor classe majoritária (útil para balanceamento entre classes).

📖 **Referência técnica:** artigo fundador da Teoria da Informação

- Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal, 27(3), 379-423.

###**Tipos datas/tempos**

Identicadas pelo seu formato, que tem padronização bem estabelecida.

- formato detectado;
- mín/max;
- número de dias únicos; e
- média por dia.

🔎 **Como interpretar:**

Ajuda a ver buracos de coleta, picos/sazonalidade e janelas de validade.


📖 **Referências técnicas**: guias de perfilamento e qualidade de dados.

- ABEDJAN, Ziawasch; GOLAB, Lukasz; NAUMANN, Felix. Data profiling - a tutorial. Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD'17), Chicago, IL, USA, p. 1747-1751, May 14-19 2017. New York: Association for Computing Machinery (ACM), 2017. DOI:10.1145/3035918.3054772.

- 2017_SIGMOD_Abedjan_Data-Profiling-Tutorial.pdf



###**Análise de dados faltantes e duplicados**

- % de vazios por coluna;
- linhas duplicadas; e
- matriz de coocorrência de ausências (proporção de vazios simultâneos entre duas colunas A∧B - mostra associação entre dados).

🔎 **Como interpretar:**

- Co-ausência alta entre colunas pode sugerir dependência operacional (ex.: se “data_fim” falta quando “data_inicio” falta).

📖 **Referências técnicas**:

- PENA, Eduardo H. M.; PORTO, Fabio; NAUMANN, Felix. Discovering denial constraints in dynamic datasets. Proceedings of the IEEE International Conference on Data Engineering (ICDE 2024), Utrecht, Netherlands, p. 1-12,2024.IEEE, 2024. DOI:10.1109/ICDE60146.2024.00000.

- 2024_ICDE_Pena_Discovering-Denial-Constraints-Dynamic-Datasets.pdf

###**Análise de Dependências:** FDs, CFDs e Denial Constraints

- FD (dependência funcional) - diz a relação determinística entre atributos de dados. Ex.: campo de login determina quem é o empregado;
- CFDs (dependencia funcional condicional) - inclui condições específicas às dependências funcionais (valores ou faixas) e é útil para regras “quase sempre verdadeiras”. Ex.: se o país é BR, então o CEP determina o Estado); e
- Denial Constraints (restrições de negação) - condiçoes que nunca devem ocorrer - negação universal. Ex.: faixa plausível de idade (0–120), datas início ≤ fim, e valores positivos.


🔎 **Como interpretar:**

- FDs/CFDs sugerem regras de integridade e reconciliam tabelas (campos chaves e determinantes). Violações localizam erros de qualidade; e
- DCs servem como checklist automático de sanidade do preenchimento; muitas violações significam erros de sistema.

📖 **Referências técnicas**:
- FAN, Wenfei; GEERTS, Floris; LAKSHMANAN, Laks V. S.; XIONG, Ming. Discovering conditional functional dependencies, Proceedings of the 25th IEEE International Conference on Data Engineering (ICDE 2009), Shanghai, China, Mar. 29-Apr. 2, 2009 Institute of Electrical and Electronics Engineers (IEEE), p. 1231-1234, 2009. DOI: 10.1109/ICDE.2009.208
- 2009_ICDE_Fan_Discovering-Conditional-Functional-Dependencies.pdf


###**Correlação:** Pearson e Spearman

Correlações entre colunas numéricas com métodos pearson (linear paramétrico) e spearman (ranks/monotônico).

- Pearson: analise quando a relação for linear, sem fortes outliers e apenas para variáveis numéricas contínuas (valores). É bom para indicar atributos (colunas) duplicadas ou fortemente colineares. Entretanto, gera resultados não confiáveis quando existem outliers; e
- Spearman: analise quando a relação não for linear (ex.: exponencial, logarítmica), quando existirem outliers ou quando os dados são ordinais (ranks, notas e posições de ordenação).

🔎 **Como interpretar:**

- indica variáveis relevantes e relacionadas;
- permite realizar hipóteses de causa e efeito/explicações;
- indica colinearidade: dados altamente correlacionados e que podem aumentar a dimensão do modelo e prejudicar a interpretação matemática (ou seja, dados redundantes); e
- permite reduzir dimensionalidade: diminuir o número de dados (colunas) preservando o máximo da informação original.

📖 **Referências técnicas**:

- SCHOBER, Patrick; BOER, Christa; SCHWARTE, Lothar A. Correlation coefficients: Appropriate use and interpretation. Anesthesia & Analgesia, v. 126, n. 5, p. 1763-1768, 2018. DOI: 10.1213/ANE.0000000000002864
- 2018_AnesthAnalg_Schober_Correlation-Coefficients-Appropriate-Use-Interpretation.pdf

- REBEKIĆ, Andrijana; LONČARIĆ, Zdenko; PETROVIĆ, Sonja; MARIĆ, Siniša. Pearson's or Spearman's correlation coefficient - Which one to use? Poljoprivreda/Agriculture, v. 21, n. 2, p. 47-54, 2015. DOI:10.18047/poljo.21.2.8
- 2015_Poljoprivreda_Rebekic_Pearson-Spearman-Correlation-Which-One-To-Use.pdf

- DE WINTER, Joost C. F.; GOSLING, Samuel D.; POTTER, Jeff, Comparing the Pearson and Spearman correlation coefficients across distributions and sample sizes: A tutorial using simulations and empirical data. Psychological Methods, v. 21, n. 2, p. 273-290 2016. DOI: 10.1037/met0000079
- 2016_PsychologicalMethods_DeWinter_Comparing-Pearson-Spearman-Correlation-Tutorial.pdf

###**Detecção de anomalias nos dados (não supervisionada):** Isolation Forest e LOF

- Isolation Forest: faz "cortes aleatórios" nos dados e identifica pontos raros (que geralmente são isolados em poucos cortes - ficam sozinhos rápido). Usando 200 árvores aleatórias, combinando os resultados e olhando as 50 situações mais suspeitas; e
- LOF (Local Outlier Factor): compara a densidade do ponto com a dos vizinhos. Quem estiver em uma região com poucos itens é um outlier local. Procurando por 20 vizinhos próximos (um valor equilibrado).

🔎 **Como interpretar:**

- IForest é ideal para grandes tabelas com muitas colunas;
- LOF identifica situações que fogem do padrão dentro do seu grupo. Não funciona bem com dados homogêneos; e
- Quando ambos os métodos apontam para um outlier a suspeita fica muito mais confiável, deve ser dado prioridade na análise dos casos suspeitos.

📖 **Referências técnicas**:

- LIU, Fei Tony; TING, Kai Ming; ZHOU, Zhi-Hua. Isolation-based anomaly detection. ACM Transactions on Knowledge Discovery from Data (TKDD), v. 6, n. 1, p. 1-39, 2012. DOI: 10.1145/2133360.2133363.
- 2012_TKDD_Liu_Isolation-Based-Anomaly-Detection.pdf



###**Benford (1º dígito)** para tipos de dados monetários

Lei de Benford diz quem em muitos conjuntos de números do mundo real (como valores de pagamentos, receitas e despesas), os dígitos não aparecem com a mesma frequência.

De acordo com esses estudos, o dígito 1 constuma ser o primeiro em cerca de 30% dos casos, o 2 em cerca de 17% e assim por diante até o dígito 9, que parece só em cerca de 5%.

🔎 **Como interpretar:**

- a aderência a Benford tende a ocorrer em misturas de processos e várias ordens de grandeza (Ex.: diferentes necessidades de pagamento, diferentes naturezas de contabilização etc). Um desvio forte sugere a necessidade de verificações (ex.: dígitos “1” e “2” muito raros; excesso de “9”).

📖 **Referências técnicas**: (paper clássico sobre o assunto)
- BENFORD, Frank. The Law of Anomalous Numbers. Proceedings of the American Philosoph ical Society, v. 78, n. 4, p. 551-572,31 mar.1938. Disponível em: http://www.jstor.org/stable/984802
- 1938_PAPS_Benford_The-Law-of-Anomalous-Numbers.pdf

#Acertos
---

⚠️ Benford p-valor: corrigir uso de scipy.stats.chisquare (ver bloco acima).

correção no seu código (p-valor):

Em SciPy, chisquare retorna (estatística, pvalue); não existe .cdf no retorno. Troque:

stat, p_value = chisquare(f_obs=obs_counts, f_exp=exp_probs*obs_counts.sum())

Isso evita AttributeError e garante p-valor correto.

💡 Sugerido: normalizar numéricos (ex.: StandardScaler) antes do LOF para reduzir efeito de escalas.



Se quiser, eu gero um quadro de interpretação (em Markdown/Excel) com faixas recomendadas e ações sugeridas para cada métrica (ex.: entropia baixa ⇒ consolidar categorias; CFD cobertura 96–98% ⇒ revisar regra ou exceções documentadas).

#**Checklist rápido de execução**
**Etapas:**
- 01–03: setup (ambiente, dependências, diretórios e configs)
- 04–07: execução (ingestão dos dados, análise de cabeçalhos, análise preliminar dos dados e análise de tipologias)
- 08: geração de output (salva análise, gera gráficos gerais, gera gráficos específicos e relatórios em HTML+PDF)

## **Etapa 1:** Ativação do ambiente virtual
---
Monta o Google Drive, define a BASE e REPO do projeto Git, cria/ativa o ambiente virtual.

In [None]:
# @title
#ID0003
#inicialização robusta: Drive + venv fora do Drive + Git checks (com patch de venv/ensurepip) { display-mode: "form" }
#força clear do kernel/variáveis desta sessão
%reset -f

#imports básicos -----
from google.colab import drive
from IPython.display import display, HTML
import json, os, sys, time, shutil, pathlib, subprocess

#helper de subprocess -----
def run(cmd, check=True, cwd=None):
    r = subprocess.run(cmd, text=True, capture_output=True, cwd=cwd)
    if check and r.returncode != 0:
        print(r.stdout + r.stderr)
        raise RuntimeError(f"falha: {' '.join(cmd)} (rc={r.returncode})")
    return r.stdout.strip()

#funções utilitárias de Drive/FS -----
def _is_mount_active(mountpoint: str = "/content/drive"):
    """verifica em /proc/mounts se o mountpoint está realmente montado"""
    try:
        with open("/proc/mounts", "r") as f:
            for line in f:
                parts = line.split()
                if len(parts) > 1 and parts[1] == mountpoint:
                    return True
    except Exception:
        pass
    return False

def _cleanup_local_mountpoint(mountpoint: str = "/content/drive"):
    """limpa conteúdo local do mountpoint quando NÃO está montado"""
    if os.path.isdir(mountpoint) and os.listdir(mountpoint):
        print(f"[info] mountpoint '{mountpoint}' contém arquivos locais. limpando...")
        for name in os.listdir(mountpoint):
            p = os.path.join(mountpoint, name)
            try:
                if os.path.isfile(p) or os.path.islink(p):
                    os.remove(p)
                else:
                    shutil.rmtree(p)
            except Exception as e:
                print(f"[aviso] não foi possível remover {p}: {e}")
        print("[ok] limpeza concluída.")

def safe_mount_google_drive(preferred_mountpoint: str = "/content/drive", readonly: bool = False, timeout_ms: int = 120000):
    """desmonta se preciso, limpa o mountpoint local e monta o drive"""
    try:
        if _is_mount_active(preferred_mountpoint):
          # print("[info] drive montado. tentando desmontar...")
          drive.flush_and_unmount()
          for _ in range(50):
              if not _is_mount_active(preferred_mountpoint):
                  break
              time.sleep(0.2)
    except Exception:
        pass

    if not _is_mount_active(preferred_mountpoint):
        _cleanup_local_mountpoint(preferred_mountpoint)

    os.makedirs(preferred_mountpoint, exist_ok=True)
    if os.listdir(preferred_mountpoint):
        alt = "/mnt/drive"
        print(f"[aviso] '{preferred_mountpoint}' ainda não está vazio. usando alternativo '{alt}'.")
        os.makedirs(alt, exist_ok=True)
        mountpoint = alt
    else:
        mountpoint = preferred_mountpoint

    print(f"[info] montando o google drive em '{mountpoint}'...")
    drive.mount(mountpoint, force_remount=True, timeout_ms=timeout_ms, readonly=readonly)
    print("[ok]   drive montado com sucesso.")
    return mountpoint

def safe_chdir(path):
    """usa os.chdir com validações, evitando %cd"""
    if not os.path.exists(path):
        raise FileNotFoundError(f"caminho não existe: {path}")
    os.chdir(path)
    print("[ok]   diretório atual:", os.getcwd())

#parâmetros do projeto -----
GITHUB_OWNER = "LeoBR84p"
GITHUB_REPO  = "data-analysis"
CLEAN_URL    = f"https://github.com/{GITHUB_OWNER}/{GITHUB_REPO}.git"

#montar/remontar o google drive (robusto)
MOUNTPOINT = safe_mount_google_drive("/content/drive")
BASE = f"{MOUNTPOINT}/MyDrive/Notebooks"  #ajuste se quiser
REPO = "data-analysis"
PROJ = f"{BASE}/{REPO}"
os.makedirs(BASE, exist_ok=True)

#venv fora do drive (mais rápido e evita sync)
VENV_PATH = "/content/.venv_data"
VENV_BIN  = f"{VENV_PATH}/bin"
VENV_PY   = f"{VENV_BIN}/python"
VENV_PIP  = f"{VENV_BIN}/pip"   #pode não existir ainda se o venv foi criado sem pip

#criação do venv com fallback para 'virtualenv'
def create_or_repair_venv(venv_path: str, venv_python: str):
    if not os.path.exists(VENV_BIN):
        #print(f"[info] criando venv (stdlib) em {venv_path} --without-pip ...")
        try:
            run([sys.executable, "-m", "venv", "--without-pip", venv_path], check=True)
            print("[ok]   venv criado (sem pip).")
        except Exception as e:
            print(f"[aviso] venv(stdlib) falhou: {e}")
            #print("[info] instalando 'virtualenv' e criando venv alternativo com pip embutido...")
            run([sys.executable, "-m", "pip", "install", "-q", "--upgrade", "virtualenv"], check=True)
            run([sys.executable, "-m", "virtualenv", "--python", sys.executable, venv_path], check=True)
            print("[ok]   venv criado via virtualenv.")
    else:
        print(f"[ok]   venv já existe em {venv_path}")

create_or_repair_venv(VENV_PATH, VENV_PY)

#ajusta PATH antes de qualquer instalação
os.environ["PATH"] = f"{VENV_BIN}{os.pathsep}{os.environ['PATH']}"
os.environ["VIRTUAL_ENV"] = VENV_PATH
print("[ok]   venv adicionado ao PATH")

#garante pip dentro do venv (ensurepip -> fallback virtualenv)
def _ensure_pip_in_venv(vpy: str):
    try:
        run([vpy, "-m", "pip", "--version"], check=True)
        return True
    except Exception:
        #print("[info] pip ausente no venv. tentando ensurepip dentro do venv...")
        try:
            run([vpy, "-m", "ensurepip", "--upgrade", "--default-pip"], check=True)
            run([vpy, "-m", "pip", "install", "-q", "--upgrade", "pip", "setuptools", "wheel"], check=True)
            return True
        except Exception as e:
            #print(f"[aviso] ensurepip no venv falhou: {e}")
            #print("[info] fallback: usando virtualenv para semear o pip dentro do venv existente...")
            run([sys.executable, "-m", "pip", "install", "-q", "--upgrade", "virtualenv"], check=True)
            run([sys.executable, "-m", "virtualenv", "--python", vpy, VENV_PATH], check=True)
            run([vpy, "-m", "pip", "install", "-q", "--upgrade", "pip", "setuptools", "wheel"], check=True)
            return True

if not _ensure_pip_in_venv(VENV_PY):
    raise RuntimeError("não foi possível provisionar o pip dentro do venv")

# garante que os pacotes instalados no venv sejam visíveis para este kernel
_ver = subprocess.check_output([VENV_PY, "-c", "import sys; print(f'{sys.version_info.major}.{sys.version_info.minor}')"], text=True).strip()
_site_dir = f"{VENV_PATH}/lib/python{_ver}/site-packages"
if _site_dir not in sys.path:
    sys.path.insert(0, _site_dir)
print("[ok]   site-packages do venv adicionado ao sys.path:", _site_dir)

#instala dependências de sessão DENTRO do venv
print("[info] instalando pacotes no venv...")
run([VENV_PY, "-m", "pip", "install", "-q", "jupytext", "nbdime", "nbstripout"])

#habilita integração do nbdime com git (global)
print("[info] habilitando nbdime em git config --global ...")
run([VENV_PY, "-m", "nbdime", "config-git", "--enable", "--global"])

#checks do repositório git + navegação até a pasta do projeto
if not os.path.exists(PROJ):
    print(f"[aviso] pasta do projeto não encontrada em {PROJ}.")
else:
    print("[ok]   pasta do projeto encontrada.")
    safe_chdir(PROJ)
    if not os.path.isdir(".git"):
        print("[aviso] esta pasta não parece ser um repositório Git (.git ausente).")
    else:
        print("[ok]   repositório Git detectado.")

# resumo do ambiente (confirmação objetiva e detalhada)
kernel_py = sys.executable
venv_py = VENV_PY
site_dir = _site_dir

# verifica se o site-packages do venv está no sys.path
site_ok = site_dir in sys.path

# obtém versões e caminhos
try:
    py_ver = subprocess.check_output([venv_py, "-V"], text=True).strip()
    pip_ver = subprocess.check_output([venv_py, "-m", "pip", "--version"], text=True).strip()
    pip_path = subprocess.check_output(
        [venv_py, "-m", "pip", "show", "pip"], text=True, stderr=subprocess.DEVNULL
    )
    pip_path_line = next((l for l in pip_path.splitlines() if l.startswith("Location:")), "")
except subprocess.CalledProcessError:
    py_ver, pip_ver, pip_path_line = "erro", "erro", ""

# imprime status linha a linha
print(f"[ok]   venv habilitado" if venv_py else "[erro] venv não encontrado")
print(f"[info] python em uso: {kernel_py}")
print(f"[info] versão do python: {py_ver}")
print(f"[ok]   pip do venv ativo" if "pip" in pip_ver.lower() else "[erro] pip do venv não detectado")
print(f"[info] caminho do pip: {venv_py.replace('python','pip')}")
print(f"[ok]   site-packages no sys.path: {site_dir}" if site_ok else f"[erro] site-packages ausente no sys.path: {site_dir}")
print(f"[info] versão do pip: {pip_ver}")

#all BS below
#mensagem com humor (skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>🤖 Skynet</b>: T-800 ativado. Diagnóstico do ambiente concluído. '
             '🎯 Alvo principal: organização do notebook e venv fora do drive.'
             '</div>'))

## **Etapa 2:** Instalar as dependências de bibliotecas Python compatíveis com a versão mais moderna disponível.
---
Versões fixadas:
- numpy==2.0.2
- pandas==2.3.3
- scipy==1.16.2
- scikit-learn==1.7.2 (nome de exibição sklearn)
- python-dateutil (nome de exibição dateutil)

In [None]:
#ID0004
#@title
import sys, subprocess
from importlib import import_module

def pip_command(command, packages, force=False, extra_args=None):
    cmd = [VENV_PY, "-m", "pip", command]
    if force:
        cmd.append("--yes")
    if extra_args:
        cmd += list(extra_args)
    cmd += list(packages)
    print("Executando:", " ".join(cmd))
    subprocess.check_call(cmd)

def show_versions(mods):
    print("\n=== Versões carregadas ===")
    for mod in mods:
        try:
            m = import_module(mod)
            v = getattr(m, "__version__", "n/a")
            print(f"{mod}: {v}")
        except ImportError:
            print(f"{mod}: Não instalado")
    print("==========================\n")

CORE_MODS = ("numpy", "pandas", "dateutil", "unidecode", "reportlab", "sklearn")

#update pip
pip_command("install", ["pip"], extra_args=["--upgrade"])

#force uninstall para bibliotecas com histórico de conflito
pip_command("uninstall", ["numpy", "pandas", "scipy"], force=True)

#instala versões mais atuais ou fixas, conforme o caso
PKGS_TO_INSTALL = [
    "numpy==2.0.2",
    "pandas==2.3.3",
    "python-dateutil",
    "unidecode",
    "reportlab[rl_accel]",
    "scipy==1.16.2",
    "scikit-learn==1.7.2",
]
pip_command("install", PKGS_TO_INSTALL)

# confirma versões do Python/pip do venv após a instalação
print(subprocess.check_output([VENV_PY, "-V"], text=True).strip())
print(subprocess.check_output([VENV_PY, "-m", "pip", "--version"], text=True).strip())

#mostra versões instaladas
show_versions(CORE_MODS)

#all BS below
#mensagem com humor (Skynet)
from IPython.display import display, HTML
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
             '<b>🤖 Skynet</b>: Atualizando bibliotecas. Se encontrarmos um pacote rebelde, '
             'aplicaremos persuasão… com pip. 😎'
             '</div>'))

##**Etapa 3:** Importações das bibliotecas Python e configurações gerais para execução do código

Define as pastas de input e output de dados.

In [None]:
#ID0005
#@title
#imports base que serão usados nas etapas seguintes
import pandas as pd
import numpy as np
from dateutil.parser import parse as dtparse
from unidecode import unidecode
import os, io, base64, re, math, shutil, glob
from google.colab import drive
from pathlib import Path
from collections import Counter, defaultdict
from datetime import datetime
import matplotlib.pyplot as plt
from IPython.display import display, HTML

print("[ok]   Ambiente pronto.")

#ajuste da raiz
BASE_DIR = Path(PROJ)
INPUT_DIR = BASE_DIR / "input"
OUTPUT_DIR = BASE_DIR / "output"

for d in [INPUT_DIR, OUTPUT_DIR]:
    d.mkdir(parents=True, exist_ok=True)

print(f"[ok]   Diretórios prontos:\n - {INPUT_DIR}\n - {OUTPUT_DIR}")

#all BS below
#Mensagem adicional (Skynet)
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
              '<b>🤖 Skynet</b>: T-800, parâmetros centrais em memória.🧠 '
              'Armazéns de CSVs alinhados. Layout aprovado pela Cyberdyne Systems.'
              '</div>'))

##**Etapa 4:** Importação dos arquivos de input para posterior execução.
Implementação atual configurada para ingestão de arquivos já hospeados no Google Drive.

---
Realize o upload ao Drive antes de acionar a ingestão de dados.

In [None]:
#ID0006
#@title

#se não existir INPUT_DIR definido antes no notebook, cria um padrão:
#usa PROJ para definir INPUT_DIR
INPUT_DIR = os.path.join(PROJ, "input")

os.makedirs(INPUT_DIR, exist_ok=True)

TARGET_NAME = "input.csv"
TARGET_PATH = os.path.join(INPUT_DIR, TARGET_NAME)

#monta o Google Drive (somente se ainda não estiver montado)
#safe_mount_google_drive("/content/drive")

def _is_csv_filename(name: str) -> bool:
    return name.lower().endswith(".csv")

def _save_bytes_as_input_csv(name: str, data: bytes):
    if not _is_csv_filename(name):
        raise ValueError(f"O arquivo '{name}' não possui extensão .csv.")
    with open(TARGET_PATH, "wb") as f:
        f.write(data)
    print(f"Arquivo '{name}' salvo como '{TARGET_NAME}' em: {TARGET_PATH}")
    _mensagem_skynet_ok()

def _copy_drive_file_to_input_csv(src_path: str):
    if not os.path.exists(src_path):
        raise FileNotFoundError(f"O caminho '{src_path}' não existe.")
    if not _is_csv_filename(src_path):
        raise ValueError(f"O arquivo '{src_path}' não possui extensão .csv.")
    shutil.copyfile(src_path, TARGET_PATH)
    print(f"Arquivo do Drive copiado e salvo como '{TARGET_NAME}' em: {TARGET_PATH}")

def escolher_csv_no_drive(raiz="/content/drive/MyDrive", max_listar=200):
    print(f"Procurando arquivos .csv em: {raiz} (pode levar alguns segundos)...")
    padrao = os.path.join(raiz, "**", "*.csv")
    arquivos = glob.glob(padrao, recursive=True)

    if not arquivos:
        print("Nenhum .csv encontrado nessa pasta.")
        caminho = input("Cole o caminho COMPLETO do .csv no Drive (ou Enter p/ cancelar): ").strip()
        if caminho:
            _copy_drive_file_to_input_csv(caminho)
        else:
            print("Operação cancelada.")
        return

    arquivos = sorted(arquivos)[:max_listar]
    print(f"Encontrados {len(arquivos)} arquivo(s).")
    for i, p in enumerate(arquivos, 1):
        print(f"[{i:03}] {p}")

    escolha = input("\nDigite o número do arquivo desejado (ou cole o caminho absoluto): ").strip()

    if escolha.isdigit():
        idx = int(escolha)
        if 1 <= idx <= len(arquivos):
            _copy_drive_file_to_input_csv(arquivos[idx-1])
        else:
            print("Índice inválido.")
    elif escolha:
        _copy_drive_file_to_input_csv(escolha)
    else:
        print("Operação cancelada.")

#execução da seleção no Google Drive
raiz = input("Informe a pasta raiz para busca no Drive (Enter = /content/drive/MyDrive): ").strip()
if not raiz:
    raiz = "/content/drive/MyDrive"

try:
    escolher_csv_no_drive(raiz=raiz)
except Exception as e:
    print(f"Erro na seleção via Drive: {e}")

#all BS below
#mensagem adicional (Skynet)
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
              '<b>🤖 Skynet</b>: Munição carregada.🧨'
              '</div>'))

##**Etapa 5:** Análise simplificada de cabeçalho - *header*

In [None]:
#ID0007

#garante que INPUT_DIR é Path (mesmo que tenha vindo como string)
INPUT_DIR = Path(INPUT_DIR)

SRC = INPUT_DIR / "input.csv"
if not SRC.exists():
    raise FileNotFoundError(f"não encontrei {SRC}. execute a etapa anterior de ingestão de dados.")

#lê apenas o cabeçalho (nrows=0), separador ';' e BOM
df_head = pd.read_csv(SRC, sep=';', encoding='utf-8-sig', nrows=0)
cols = list(df_head.columns)

print("Cabeçalho (uma coluna por linha):")
for c in cols:
    print(c)

#all BS below
#mensagem adicional (Skynet)
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
              '<b>🤖 Skynet</b>: Identificamos características do alvo. 🎯'
              '</div>'))

##**Etapa 6:** Análise superficial da tipologia dos dados
Seleciona os K primeiros registros, conforme limite estabelecido pelo usuário.

In [None]:
#ID0008
#@title
#inferência de tipos + estatísticas de frequência por coluna (com caso "todos distintos")

#garante que INPUT_DIR seja um objeto Path
INPUT_DIR = Path(INPUT_DIR)

SRC = INPUT_DIR / "input.csv"

#solicita ao usuário o número de linhas para análise via input interativo
while True:
    sample_rows_input = input("Informe o número de linhas desejado para análise (padrão até 100 registros): ").strip()
    if not sample_rows_input:
        SAMPLE_ROWS = 100
        break
    try:
        SAMPLE_ROWS = int(sample_rows_input)
        if SAMPLE_ROWS > 0:
            break
        else:
            print("Por favor, insira um número inteiro positivo.")
    except ValueError:
        print("Entrada inválida. Por favor, insira um número inteiro.")

print(f"Analisando as primeiras {SAMPLE_ROWS} linhas.")

#lê amostra como texto puro; usa DataFrame.map (applymap foi deprecado)
df = pd.read_csv(
    SRC, sep=';', encoding='utf-8-sig',
    dtype=str, nrows=SAMPLE_ROWS, keep_default_na=False
).map(lambda x: x.strip())

CNPJ_RX     = re.compile(r"^\d{2}\.?\d{3}\.?\d{3}/\d{4}-\d{2}$")
BOOL_TRUE   = {"true","t","1","y","yes","sim","s","verdadeiro"}
BOOL_FALSE  = {"false","f","0","n","no","nao","não","falso"}
DATE_RX     = re.compile(r"^(\d{2}/\d{2}/\d{4}|\d{4}-\d{2}-\d{2})$")
TIME_RX     = re.compile(r"^\d{2}:\d{2}(:\d{2})?$")

def is_bool(series):
    vals = {unidecode(str(v)).strip().lower() for v in series if str(v).strip() != ""}
    return len(vals) > 0 and all(v in (BOOL_TRUE | BOOL_FALSE) for v in vals)

def is_cnpj(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    return sum(bool(CNPJ_RX.match(v)) for v in vals) / len(vals) > 0.9

def is_int(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    def ok(s):
        s2 = s.replace(".", "")
        return re.fullmatch(r"-?\d+", s2) is not None
    return all(ok(v) for v in vals)

def is_float_ptbr(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    def ok(s):
        s2 = s.replace(".", "").replace(",", ".")
        try: float(s2); return True
        except: return False
    if not all(ok(v) for v in vals): return False
    return any("," in v for v in vals)

def is_float_dot(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    def ok(s):
        try: float(s); return True
        except: return False
    if not all(ok(v) for v in vals): return False
    return any("." in v and not v.endswith(".") for v in vals)

def is_date_only(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    sample = vals[:500]
    hits = sum(bool(DATE_RX.match(v)) for v in sample)
    return hits / max(1, len(sample)) > 0.8

def is_time_only(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    sample = vals[:500]
    hits = sum(bool(TIME_RX.match(v)) for v in sample)
    return hits / max(1, len(sample)) > 0.8

def is_datetime(series):
    vals = [str(v).strip() for v in series if str(v).strip() != ""]
    if not vals: return False
    sample = vals[:200]
    def looks_like_datetime(s):
        has_sep = ("/" in s or "-" in s) and (":" in s)
        if not has_sep: return False
        try:
            pd.to_datetime(s, dayfirst=True, errors="raise")
            return True
        except:
            try:
                dtparse(s, dayfirst=True, fuzzy=False)
                return True
            except:
                return False
    ok = sum(looks_like_datetime(v) for v in sample)
    return ok / max(1, len(sample)) > 0.8

def is_category(series, max_unique=20, max_ratio=0.02):
    n = len(series)
    if n == 0: return False
    uniq = set(v for v in series if str(v).strip() != "")
    ratio = len(uniq) / n
    return (len(uniq) <= max_unique) or (ratio <= max_ratio)

def recommend_dtype(col):
    s = col.astype(str).str.strip()
    s_nonempty = s[s != ""]
    if s_nonempty.empty:
        return "string (vazio/NA)"
    if is_cnpj(s_nonempty):        return "CNPJ (string formatado)"
    if is_bool(s_nonempty):        return "boolean"
    if is_int(s_nonempty):         return "int64"
    if is_float_ptbr(s_nonempty):  return "float64 (decimal=','; milhar='.')"
    if is_float_dot(s_nonempty):   return "float64 (decimal='.')"
    if is_date_only(s_nonempty):   return "date (datetime64[ns])"
    if is_time_only(s_nonempty):   return "time (string/Timedelta)"
    if is_datetime(s_nonempty):    return "datetime (datetime64[ns])"
    if is_category(s):             return "category (string)"
    return "string"

def _fmt_val(x, maxlen=120):
    s = str(x)
    return (s[: maxlen-3] + "...") if len(s) > maxlen else s

print(f"estatísticas baseadas em até {SAMPLE_ROWS} linhas lidas.\n")
for c in df.columns:
    s = df[c].astype(str).str.strip()
    s_nonempty = s[s != ""]
    dtype_sug = recommend_dtype(s)

    if len(s_nonempty) == 0:
        print(f"{c} — {dtype_sug} — distintos=0 — (sem dados não vazios)")
        continue

    vc = s_nonempty.value_counts(dropna=False)
    uniq_count = int(vc.shape[0])

    #caso especial: todos distintos (máxima frequência == 1)
    if int(vc.max()) == 1:
        print(f"{c} — {dtype_sug} — distintos: #{uniq_count} — todos os dados são distintos")
        continue

    most_val = vc.idxmax()
    most_cnt = int(vc.max())

    min_cnt = int(vc.min())
    least_candidates = vc[vc == min_cnt].sort_index()
    least_val = least_candidates.index[0]
    least_cnt = min_cnt


    print(f"{c} — tipo: {dtype_sug} — distintos: #{uniq_count} — mais frequente:'{_fmt_val(most_val)}' (#{most_cnt}) — menos frequente:'{_fmt_val(least_val)}' (#{least_cnt})")

##**Etapa 7:** Análise detalhada da tipologia dos dados
---
Aplicada a todos os dados do arquivo, sem limite de linhas.

---


In [None]:
#ID0009
#@title
#núcleo de análise consolidada (sem geração de relatórios/figuras)

#imports opcionais (anomalias e p-valor para benford)
try:
    from sklearn.ensemble import IsolationForest
    from sklearn.neighbors import LocalOutlierFactor
    SKLEARN_OK = True
except Exception:
    SKLEARN_OK = False

try:
    from scipy.stats import chisquare, median_abs_deviation
    SCIPY_OK = True
except Exception:
    SCIPY_OK = False
    #fallback simples para MAD
    def median_abs_deviation(x, scale=1.4826, nan_policy='omit'):
        x = np.asarray(x, dtype=float)
        x = x[~np.isnan(x)]
        if x.size == 0:
            return np.nan
        med = np.median(x)
        mad = np.median(np.abs(x - med))*scale
        return mad

#normaliza pastas padrão (se etapas anteriores não definiram)
try:
    INPUT_DIR
except NameError:
    INPUT_DIR = Path("/content/drive/MyDrive/Notebooks/data-analysis/input")
INPUT_DIR = Path(INPUT_DIR)
SRC = INPUT_DIR / "input.csv"
if not SRC.exists():
    raise FileNotFoundError(f"{SRC} não encontrado. Execute o upload do arquivo ao Google Drive em etapa anterior.")

#leitura completa do csv como texto; análise operará com coerções internas
df_raw = pd.read_csv(SRC, sep=";", encoding="utf-8-sig", dtype=str, keep_default_na=False)

#helpers de coerção e detecção
EMAIL_RX = re.compile(r"^[^@\s]+@[^@\s]+\.[^@\s]+$")
URL_RX   = re.compile(r"^https?://", re.I)
CPF_RX   = re.compile(r"^\d{3}\.?\d{3}\.?\d{3}-\d{2}$")
CNPJ_RX  = re.compile(r"^\d{2}\.?\d{3}\.?\d{3}/\d{4}-\d{2}$")

def to_float_ptbr_series(s: pd.Series) -> pd.Series:
    s2 = s.astype(str).str.strip()
    s2 = s2.replace({"": np.nan})
    has_comma = s2.str.contains(",", regex=False, na=False)
    s3 = s2.where(~has_comma, s2.str.replace(".", "", regex=False).str.replace(",", ".", regex=False))
    return pd.to_numeric(s3, errors="coerce")

def detect_numeric(series: pd.Series, thr_ok=0.9):
    num = to_float_ptbr_series(series)
    ratio = 1.0 - num.isna().mean()
    return (ratio >= thr_ok), num

def detect_datetime(series: pd.Series, thr_ok=0.9):
    #formatos comuns pt-br/iso com/sem tempo
    candidate_formats = [
        "%d/%m/%Y", "%d/%m/%Y %H:%M", "%d/%m/%Y %H:%M:%S",
        "%Y-%m-%d", "%Y-%m-%d %H:%M", "%Y-%m-%d %H:%M:%S",
        "%d-%m-%Y", "%d-%m-%Y %H:%M", "%d-%m-%Y %H:%M:%S"
    ]
    s = series.astype(str).str.strip().replace({"": np.nan})
    if not (s.str.contains("/", na=False) | s.str.contains("-", na=False)).any():
        return False, None, None
    best_fmt, best_ratio, best_parsed = None, -1.0, None
    for fmt in candidate_formats:
        parsed = pd.to_datetime(s, errors="coerce", format=fmt)
        ratio = 1.0 - parsed.isna().mean()
        if ratio > best_ratio:
            best_ratio, best_fmt, best_parsed = ratio, fmt, parsed
        if ratio >= thr_ok:
            break
    if best_ratio >= thr_ok:
        return True, best_parsed, best_fmt
    parsed_fb = pd.to_datetime(s, errors="coerce", dayfirst=True)
    ratio_fb = 1.0 - parsed_fb.isna().mean()
    if ratio_fb >= thr_ok:
        return True, parsed_fb, "fallback-dateutil(dayfirst=True)"
    return False, None, None

def semantic_type(series: pd.Series):
    s = series.astype(str).str.strip()
    vals = s[s != ""].head(5000)
    if vals.empty:
        return None
    email_ratio = (vals.str.match(EMAIL_RX)).mean()
    url_ratio   = (vals.str.match(URL_RX)).mean()
    cpf_ratio   = (vals.str.match(CPF_RX)).mean()
    cnpj_ratio  = (vals.str.match(CNPJ_RX)).mean()
    candidates = []
    if email_ratio>0.9: candidates.append("email")
    if url_ratio>0.9: candidates.append("url")
    if cpf_ratio>0.9: candidates.append("cpf")
    if cnpj_ratio>0.9: candidates.append("cnpj")
    return candidates[0] if candidates else None

#mapeamento de tipos
col_types, coerced, dt_formats = {}, {}, {}
for c in df_raw.columns:
    s = df_raw[c]
    #booleano raso
    s_norm = s.astype(str).str.strip().str.lower()
    bool_map = {"true":True,"t":True,"1":True,"y":True,"yes":True,"sim":True,"s":True,"verdadeiro":True,
                "false":False,"f":False,"0":False,"n":False,"no":False,"nao":False,"não":False,"falso":False}
    as_bool = s_norm.map(bool_map).where(s_norm.isin(bool_map.keys()))
    bool_ratio = 1.0 - as_bool.isna().mean()
    is_num, as_num = detect_numeric(s)
    is_dt, as_dt, fmt_dt = detect_datetime(s)
    if bool_ratio >= 0.9:
        col_types[c] = "bool"; coerced[c]=as_bool
    elif is_num:
        frac = np.modf(as_num.dropna().values)[0] if as_num.notna().any() else np.array([])
        if as_num.notna().any() and np.allclose(frac, 0.0):
            col_types[c] = "int"; coerced[c]=as_num.astype("Int64")
        else:
            col_types[c] = "float"; coerced[c]=as_num.astype(float)
    elif is_dt:
        col_types[c] = "datetime"; coerced[c]=as_dt; dt_formats[c]=fmt_dt
    else:
        col_types[c] = "object"; coerced[c]=s.astype(str).str.strip().replace({"": np.nan})

#dataframe tipado (leve)
df = pd.DataFrame(coerced)

#profiling básico
profile_cols = {}
for c in df.columns:
    s = df[c]
    s_raw = df_raw[c]
    n = len(s)
    n_null = int(s.isna().sum())
    #distintos não vazios
    nonnull = s.dropna()
    n_distinct = int(nonnull.nunique())
    #frequências
    most = None; least = None; all_distinct = False
    if nonnull.empty:
        all_distinct = False
    else:
        vc = nonnull.value_counts()
        if vc.max()==1:
            all_distinct = True
        else:
            most = {"value": vc.index[0], "count": int(vc.iloc[0]), "prop": float(vc.iloc[0]/nonnull.shape[0])}
            min_cnt = int(vc.min())
            least_val = vc[vc==min_cnt].sort_index().index[0]
            least = {"value": least_val, "count": min_cnt, "prop": float(min_cnt/nonnull.shape[0])}
    #comprimentos
    lens = s_raw.astype(str).str.len()
    lens = lens.replace({0: np.nan})  #ignora vazios na estatística de len
    len_stats = None
    if lens.notna().any():
        len_stats = {
            "min": int(lens.min()),
            "max": int(lens.max()),
            "mean": float(lens.mean()),
            "q1": float(lens.quantile(0.25)),
            "median": float(lens.median()),
            "q3": float(lens.quantile(0.75))
        }
    #padrões simples por amostragem
    sample_vals = nonnull.astype(str).head(200).tolist()
    regex_examples = []
    rx_date1 = re.compile(r"^\d{2}/\d{2}/\d{4}")
    rx_date2 = re.compile(r"^\d{4}-\d{2}-\d{2}")
    rx_num_pt = re.compile(r"^-?(\d{1,3}(\.\d{3})+|\d+)(,\d+)?$")
    rx_num_dot= re.compile(r"^-?\d+(\.\d+)?$")
    for v in sample_vals[:20]:
        pat = None
        if EMAIL_RX.match(v): pat="email"
        elif URL_RX.match(v): pat="url"
        elif CPF_RX.match(v): pat="cpf"
        elif CNPJ_RX.match(v): pat="cnpj"
        elif rx_date1.match(v): pat="dd/mm/aaaa[...]"
        elif rx_date2.match(v): pat="aaaa-mm-dd[...]"
        elif rx_num_pt.match(v): pat="num-ptbr"
        elif rx_num_dot.match(v): pat="num-dot"
        else: pat="texto-livre"
        regex_examples.append({"example": v[:120], "pattern": pat})
    profile_cols[c]={
        "type": col_types[c],
        "semantic": semantic_type(s_raw),
        "nulls": n_null,
        "distinct_nonnull": n_distinct,
        "all_distinct": all_distinct,
        "most_frequent": most,
        "least_frequent": None if all_distinct else least,
        "length_stats": len_stats,
        "datetime_format": dt_formats.get(c)
    }

#estatísticas descritivas e outliers
eda_numeric = {}
for c in df.columns:
    if col_types[c] in ("int","float"):
        x = df[c].astype(float)
        x = x.dropna()
        if x.empty:
            continue
        q1,q3 = np.nanpercentile(x, [25,75])
        iqr = q3 - q1
        lo,hi = q1-1.5*iqr, q3+1.5*iqr
        out_iqr = int(((x<lo)|(x>hi)).sum())
        mad = float(median_abs_deviation(x, scale=1.4826)) if x.size>0 else np.nan
        z_rob = None
        if not math.isnan(mad) and mad>0:
            z_rob = np.abs((x - np.median(x))/mad)
        out_mad = int((z_rob is not None) and (z_rob>3.5).sum())
        std = float(np.nanstd(x, ddof=1)) if x.size>1 else np.nan
        mean = float(np.nanmean(x)) if x.size>0 else np.nan
        kurt = float(((x-mean)**4).mean()/(std**4)-3.0) if (x.size>2 and std and std>0) else np.nan
        skew = float(((x-mean)**3).mean()/(std**3)) if (x.size>2 and std and std>0) else np.nan
        eda_numeric[c]={
            "n": int(x.size),
            "min": float(np.nanmin(x)),
            "q1": float(q1),
            "median": float(np.nanmedian(x)),
            "q3": float(q3),
            "max": float(np.nanmax(x)),
            "mean": mean,
            "std": std,
            "iqr": float(iqr),
            "outliers_iqr": out_iqr,
            "mad": mad,
            "outliers_mad": out_mad,
            "skew": skew,
            "kurtosis_excess": kurt
        }

#dados categóricos/objeto (entropia e top-k)
def entropy_shannon(series: pd.Series):
    s = series.dropna()
    if s.empty: return 0.0
    vc = s.value_counts(normalize=True)
    return float(-(vc*np.log2(vc)).sum())

eda_categorical = {}
for c in df.columns:
    if col_types[c] in ("object","bool"):
        s = df[c]
        s2 = s.dropna()
        if s2.empty:
            continue
        vc = s2.value_counts()
        uniq = int(vc.shape[0])
        all_dist = int(vc.max()==1)
        topk = [{"value": str(idx)[:120], "count": int(cnt)} for idx,cnt in vc.head(10).items()]
        ent = entropy_shannon(s2)
        eda_categorical[c]={
            "distinct": uniq,
            "all_distinct": bool(all_dist),
            "top10": topk,
            "entropy_shannon": float(ent)
        }

#datas/tempos
eda_datetime = {}
for c in df.columns:
    if col_types[c]=="datetime":
        ds = df[c].dropna()
        if ds.empty:
            continue
        per_day = ds.dt.date.value_counts().sort_index()
        eda_datetime[c]={
            "format": dt_formats.get(c),
            "min": str(ds.min()),
            "max": str(ds.max()),
            "unique_days": int(per_day.shape[0]),
            "mean_per_day": float(per_day.mean())
        }

#faltantes e duplicados
missing = {
    "by_column_pct": {c: float(df[c].isna().mean()*100.0) for c in df.columns},
    "duplicates_rows": int(df.duplicated().sum())
}
#coocorrência simples de ausências (matriz de proporção conjunta)
miss_mat = pd.DataFrame(index=df.columns, columns=df.columns, dtype=float)
isna_df = df.isna()
for i,a in enumerate(df.columns):
    for b in df.columns[i:]:
        both = (isna_df[a] & isna_df[b]).mean()
        miss_mat.loc[a,b] = miss_mat.loc[b,a] = float(both)
missing["cooccurrence_matrix"] = miss_mat

#FDs/CFDs aproximadas (unários) e sugestões de DCs
fds = []     #X->Y exata (cobertura 100%)
cfds = []    #X->Y quase: cobertura >=thr
thr_cfd = 0.98
for a in df.columns:
    ga = df.groupby(a, dropna=False)
    #a é chave candidata?
    if ga.size().max()==1:
        fds.append({"determinant":[a], "key":True})
    #FD aproximada a->b
    for b in df.columns:
        if a==b: continue
        nun = ga[b].nunique(dropna=False)
        cov = float((nun<=1).mean())
        if cov==1.0:
            fds.append({"determinant":[a], "implies": b, "coverage": 1.0})
        elif cov>=thr_cfd:
            cfds.append({"determinant":[a], "implies": b, "coverage": cov})

#denial constraints sugeridas (heurísticas)
#exemplos: não-negatividade para colunas com 'valor', limites plausíveis para idade, datas início<=fim
dcs = []
#não-negatividade
for c in df.columns:
    if col_types[c] in ("int","float") and re.search(r"(valor|amount|price|quant|qty|pag|pago)", c, re.I):
        neg = int((df[c].astype(float)<0).sum())
        dcs.append({"constraint": f"{c}>=0", "violations": neg})
#idade plausível
for c in df.columns:
    if col_types[c] in ("int","float") and re.search(r"(idade|age)", c, re.I):
        v = df[c].astype(float)
        viol = int(((v<0)|(v>120)).sum())
        dcs.append({"constraint": f"0<= {c} <=120", "violations": viol})
#data início<=fim
date_cols = [c for c in df.columns if col_types[c]=="datetime"]
for a in date_cols:
    for b in date_cols:
        if a==b: continue
        if re.search(r"(inicio|start|begin)", a, re.I) and re.search(r"(fim|end|finish)", b, re.I):
            viol = int((df[a].notna() & df[b].notna() & (df[b]<df[a])).sum())
            dcs.append({"constraint": f"{a}<= {b}", "violations": viol})

#correlações
num_cols = [c for c,t in col_types.items() if t in ("int","float")]
corr_pearson = None; corr_spearman = None
if len(num_cols)>=2:
    df_num = df[num_cols].astype(float)
    corr_pearson = df_num.corr(method="pearson")
    corr_spearman = df_num.corr(method="spearman")

#anomalias (opcional)
anomalies = {}
if SKLEARN_OK and len(num_cols)>=1:
    X = df[num_cols].astype(float).fillna(df[num_cols].astype(float).median())
    #isolation forest
    try:
        iso = IsolationForest(n_estimators=200, contamination='auto', random_state=42)
        iso_scores = -iso.fit_predict(X)  #1 normal, -1 anomalia -> invertido
        iso_dec = iso.decision_function(X)  #menor = mais anômalo
        iso_rank = np.argsort(iso_dec)[: min(50, len(iso_dec))].tolist()
        anomalies["isolation_forest"] = {"top_idx": iso_rank, "decision_function": iso_dec.tolist()}
    except Exception as e:
        anomalies["isolation_forest_error"] = str(e)
    #lof
    try:
        lof = LocalOutlierFactor(n_neighbors=min(20, max(2, X.shape[0]-1)), contamination='auto')
        lof_pred = lof.fit_predict(X)  #-1 outlier
        lof_score = -lof.negative_outlier_factor_  #maior = mais anômalo
        lof_rank = np.argsort(-lof_score)[: min(50, len(lof_score))].tolist()
        anomalies["lof"] = {"top_idx": lof_rank, "score": lof_score.tolist()}
    except Exception as e:
        anomalies["lof_error"] = str(e)
else:
    anomalies["note"] = "sklearn indisponível ou sem colunas numéricas suficientes"

#lei de benford (primeiro dígito) para colunas monetárias prováveis
def first_digit_series(x: pd.Series):
    x = x.astype(float)
    x = x[~x.isna() & (x!=0)]
    x = x.abs()
    s = x.astype(str).str.replace(".", "", regex=False).str.lstrip("0")
    s = s[s.str.len()>0].str[0]
    s = s[s.str.isnumeric()].astype(int)
    return s

benford = {}
monetary_cols = [c for c in num_cols if re.search(r"(valor|amount|price|pago|pagamento|receita|despesa)", c, re.I)]
for c in monetary_cols:
    try:
        d1 = first_digit_series(df[c])
        if d1.empty:
            continue
        obs_counts = d1.value_counts().reindex(range(1,10), fill_value=0).astype(int)
        obs_probs = obs_counts/obs_counts.sum()
        exp_probs = np.array([math.log10(1+1/d) for d in range(1,10)])
        exp_probs = exp_probs/exp_probs.sum()
        chi2_stat = float(((obs_probs-exp_probs)**2/exp_probs).sum()*obs_counts.sum())
        p_value = None
        if SCIPY_OK:
            #qui-quadrado com gl=8
            p_value = float(1.0 - chisquare(f_obs=obs_counts, f_exp=exp_probs*obs_counts.sum()).cdf)
        benford[c]={
            "observed_counts": obs_counts.to_dict(),
            "observed_probs": {int(k): float(v) for k,v in obs_probs.items()},
            "expected_probs": {d: float(p) for d,p in zip(range(1,9+1), exp_probs)},
            "chi2_stat": chi2_stat,
            "p_value": p_value
        }
    except Exception as e:
        benford[c]={"error": str(e)}

#empacotar tudo em um único artefato de análise
ANALYSIS = {
    "stamp": datetime.now().strftime("%d%m%y-%H%M"),
    "shape": {"rows": int(df_raw.shape[0]), "cols": int(df_raw.shape[1])},
    "types": col_types,
    "datetime_formats": dt_formats,
    "profile": profile_cols,
    "eda": {
        "numeric": eda_numeric,
        "categorical": eda_categorical,
        "datetime": eda_datetime
    },
    "missingness": {
        "by_column_pct": missing["by_column_pct"],
        "duplicates_rows": missing["duplicates_rows"],
        "cooccurrence_matrix": missing["cooccurrence_matrix"]
    },
    "fds": fds,
    "cfds": cfds,
    "denial_constraints_suggested": dcs,
    "correlations": {
        "pearson": corr_pearson,
        "spearman": corr_spearman
    },
    "anomalies": anomalies,
    "benford": benford,
    "notes": {
        "sklearn_available": SKLEARN_OK,
        "scipy_available": SCIPY_OK
    }
}

print("Análise concluída.")
print("Pronto para a etapa de geração de relatórios.")

#all BS below
#mensagem adicional (Skynet)
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
            '<b>🤖 Skynet</b>: Nós os temos na palma de nossas mãos, ou melhor, no centro de nossos pesos sinápticos.'
            '</div>'))

##**Etapa 8:** Geração de relatórios

In [None]:
#ID0010
#@title
#geração de relatórios: TXT, HTML (imagens embutidas), PNGs (imagens/) e PDF completo

#import de libs específicos para pdf (tabelas completas)
try:
    from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image as RLImage, Table, TableStyle, PageBreak
    from reportlab.lib.pagesizes import A4
    from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
    from reportlab.lib import colors
    REPORTLAB_OK = True
except Exception:
    REPORTLAB_OK = False

#checagens e caminhos
try:
    ANALYSIS
except NameError:
    raise RuntimeError("ANALYSIS não encontrado. execute a etapa [5] antes.")

try:
    INPUT_DIR
except NameError:
    INPUT_DIR = Path("/content/drive/MyDrive/Notebooks/data-analysis/input")
try:
    OUTPUT_DIR
except NameError:
    OUTPUT_DIR = Path("/content/drive/MyDrive/Notebooks/data-analysis/output")

INPUT_DIR  = Path(INPUT_DIR)
OUTPUT_DIR = Path(OUTPUT_DIR)
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

#stamp e diretórios de saída
stamp = ANALYSIS.get("stamp", datetime.now().strftime("%d%m%y-%H%M"))
RUN_DIR = OUTPUT_DIR / stamp
IMG_DIR = RUN_DIR / "imagens"
RUN_DIR.mkdir(parents=True, exist_ok=True)
IMG_DIR.mkdir(parents=True, exist_ok=True)

#arquivo fonte
SRC = INPUT_DIR / "input.csv"
if not SRC.exists():
    raise FileNotFoundError(f"{SRC} não encontrada. Execute etapas de ingestão e processamento.")

#utils
def save_fig(path: Path):
    path.parent.mkdir(parents=True, exist_ok=True)
    plt.tight_layout()
    plt.savefig(path, dpi=120, bbox_inches="tight")
    plt.close()

def img_to_data_uri(path: Path) -> str:
    with open(path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode("ascii")
    return "data:image/png;base64,{}".format(b64)

def to_float_ptbr_series(s: pd.Series) -> pd.Series:
    s2 = s.astype(str).str.strip().replace({"": np.nan})
    has_comma = s2.str.contains(",", regex=False, na=False)
    s3 = s2.where(~has_comma, s2.str.replace(".", "", regex=False).str.replace(",", ".", regex=False))
    return pd.to_numeric(s3, errors="coerce")

#carregar df base para gráficos
df_raw = pd.read_csv(SRC, sep=";", encoding="utf-8-sig", dtype=str, keep_default_na=False)

#tipos e colunas numéricas conforme ANALYSIS
col_types = ANALYSIS["types"]
num_cols = [c for c,t in col_types.items() if t in ("int","float")]

#gerar imagens principais
#ausências
miss_pct = pd.Series(ANALYSIS["missingness"]["by_column_pct"]).sort_values(ascending=False)
plt.figure(figsize=(max(6, 0.4*len(miss_pct)+2), 4.5))
plt.bar(miss_pct.index, miss_pct.values)
plt.xticks(rotation=90)
plt.ylabel("% ausente")
plt.title("ausência de valores por coluna")
save_fig(IMG_DIR / "missing_bar.png")

#correlação (pearson) se houver ≥2 numéricas
if len(num_cols) >= 2 and ANALYSIS["correlations"]["pearson"] is not None:
    corr = pd.DataFrame(ANALYSIS["correlations"]["pearson"])
    plt.figure(figsize=(max(6, 0.6*len(corr)+2), max(5, 0.6*len(corr)+2)))
    im = plt.imshow(corr.values, interpolation="nearest")
    plt.xticks(ticks=range(len(corr.columns)), labels=corr.columns, rotation=90)
    plt.yticks(ticks=range(len(corr.index)), labels=corr.index)
    plt.title("matriz de correlação (pearson)")
    plt.colorbar(im, fraction=0.046, pad=0.04)
    save_fig(IMG_DIR / "corr_heatmap.png")

#histogramas e boxplots por coluna numérica
for c in num_cols:
    x = to_float_ptbr_series(df_raw[c]).dropna()
    if x.empty:
        continue
    plt.figure(figsize=(6,4))
    plt.hist(x, bins=30)
    plt.title("histograma - {}".format(c))
    plt.xlabel(c); plt.ylabel("frequência")
    save_fig(IMG_DIR / "hist_{}.png".format(c))

    plt.figure(figsize=(4,4))
    plt.boxplot(x.values, vert=True, whis=1.5, showfliers=True)
    plt.title("boxplot - {}".format(c))
    plt.ylabel(c)
    save_fig(IMG_DIR / "box_{}.png".format(c))

#relatório TXT (agrupado por coluna)
txt_lines = []
shape = ANALYSIS["shape"]
txt_lines.append("arquivo: {}".format(SRC.name))
txt_lines.append("linhas (inclui cabeçalho): {}".format(shape["rows"]))
txt_lines.append("colunas: {}".format(shape["cols"]))
txt_lines.append("registros duplicados: {}".format(ANALYSIS["missingness"]["duplicates_rows"]))
txt_lines.append("")

for c in df_raw.columns:
    prof = ANALYSIS["profile"].get(c, {})
    kind = col_types.get(c)
    txt_lines.append("[coluna] {}".format(c))
    txt_lines.append("- tipo: {}".format(kind))
    if prof.get("semantic"):
        txt_lines.append("- tipo semântico: {}".format(prof["semantic"]))
    txt_lines.append("- nulos: {}".format(prof.get("nulls", 0)))
    txt_lines.append("- distintos (não vazios): {}".format(prof.get("distinct_nonnull", 0)))
    if prof.get("all_distinct"):
        txt_lines.append("- todos os dados são distintos")
    else:
        mf = prof.get("most_frequent"); lf = prof.get("least_frequent")
        if mf:
            txt_lines.append("- mais frequente: '{}' ({}, {:.2f}%)".format(mf["value"], mf["count"], mf["prop"]*100))
        if lf:
            txt_lines.append("- menos frequente: '{}' ({}, {:.2f}%)".format(lf["value"], lf["count"], lf["prop"]*100))
    if prof.get("length_stats"):
        ls = prof["length_stats"]
        txt_lines.append("- comprimentos: min={}, q1={:.1f}, mediana={:.1f}, q3={:.1f}, max={}".format(ls["min"], ls["q1"], ls["median"], ls["q3"], ls["max"]))
    if kind in ("int","float"):
        ed = ANALYSIS["eda"]["numeric"].get(c)
        if ed:
            txt_lines.append("- numéricos: min={}, q1={}, mediana={}, q3={}, max={}".format(ed["min"], ed["q1"], ed["median"], ed["q3"], ed["max"]))
            txt_lines.append("- média={}, desvio padrão={}, iqr={}".format(ed["mean"], ed["std"], ed["iqr"]))
            txt_lines.append("- outliers(IQR)={}, outliers(MAD)={}, skew={}, curtose(excesso)={}".format(ed["outliers_iqr"], ed["outliers_mad"], ed["skew"], ed["kurtosis_excess"]))
    elif kind == "datetime":
        dtc = ANALYSIS["eda"]["datetime"].get(c)
        if dtc:
            txt_lines.append("- formato detectado: {}".format(dtc.get("format")))
            txt_lines.append("- intervalo temporal: {} → {}".format(dtc["min"], dtc["max"]))
            txt_lines.append("- dias únicos: {}, média por dia: {:.2f}".format(dtc["unique_days"], dtc["mean_per_day"]))
    else:
        cat = ANALYSIS["eda"]["categorical"].get(c)
        if cat:
            txt_lines.append("- entropia de shannon: {:.4f}".format(cat["entropy_shannon"]))
            if not cat["all_distinct"]:
                topk = ", ".join(["'{}' ({})".format(t.get("value"), t.get("count")) for t in cat["top10"]])
                txt_lines.append("- top10: {}".format(topk))
    ben = ANALYSIS.get("benford", {}).get(c)
    if ben and isinstance(ben, dict) and "chi2_stat" in ben and "p_value" in ben:
        txt_lines.append("- benford (primeiro dígito):")
        txt_lines.append("  • qui-quadrado={:.4f}, p-valor={}".format(ben.get("chi2_stat"), ben.get("p_value")))
    elif ben and isinstance(ben, dict) and "error" in ben:
         txt_lines.append("- benford (primeiro dígito): Erro - {}".format(ben.get("error")))
    txt_lines.append("")

#salvar TXT
txt_path = RUN_DIR / "relatorio.txt"
with open(txt_path, "w", encoding="utf-8") as f:
    f.write("\n".join(txt_lines))

#relatório HTML com imagens embutidas
html = []
html.append("<html><head><meta charset='utf-8'><title>Relatório de Análise</title>")
html.append("<style>body{font-family:Arial,Helvetica,sans-serif;margin:20px}h1,h2,h3{margin:8px 0}table{border-collapse:collapse;margin:10px 0}th,td{border:1px solid #ccc;padding:6px 8px;font-size:13px}code{background:#f5f5f5;padding:0 4px}</style>")
html.append("</head><body>")
html.append("<h1>Relatório de Análise — {}</h1>".format(stamp))
html.append("<p>Arquivo analisado: <b>{}</b></p>".format(SRC.name))
html.append("<p><a href='relatorio.txt'>Baixar relatório TXT</a></p>")

#sumário
html.append("<h2>Sumário</h2>")
html.append("<ul>")
html.append("<li>Linhas (inclui cabeçalho): {}</li>".format(shape["rows"]))
html.append("<li>Colunas: {}</li>".format(shape["cols"]))
html.append("<li>Registros duplicados: {}</li>".format(ANALYSIS["missingness"]["duplicates_rows"]))
html.append("</ul>")

#ausências
miss_img = IMG_DIR / "missing_bar.png"
if miss_img.exists():
    html.append("<h2>Ausência de valores</h2>")
    html.append("<img src='{}' alt='missing bar'/>".format(img_to_data_uri(miss_img)))

#correlação
corr_img = IMG_DIR / "corr_heatmap.png"
if corr_img.exists():
    html.append("<h2>Matriz de correlação</h2>")
    html.append("<img src='{}' alt='corr heatmap'/>".format(img_to_data_uri(corr_img)))

#por coluna
html.append("<h2>Perfil por coluna</h2>")
for c in df_raw.columns:
    prof = ANALYSIS["profile"].get(c, {})
    kind = col_types.get(c)
    html.append("<h3>{}</h3>".format(c))
    html.append("<table>")
    html.append("<tr><th>Tipo</th><td>{}</td></tr>".format(kind))
    html.append("<tr><th>Nulos</th><td>{}</td></tr>".format(prof.get("nulls",0)))
    html.append("<tr><th>Distintos (não vazios)</th><td>{}</td></tr>".format(prof.get("distinct_nonnull",0)))
    if prof.get("semantic"):
        html.append("<tr><th>Tipo semântico</th><td>{}</td></tr>".format(prof["semantic"]))
    if prof.get("all_distinct"):
        html.append("<tr><th>Frequências</th><td>todos os dados são distintos</td></tr>")
    else:
        mf = prof.get("most_frequent"); lf = prof.get("least_frequent")
        freq_txt = []
        if mf:
            freq_txt.append("mais frequente: <code>{}</code> ({}, {:.2f}%)".format(str(mf["value"])[:120], mf["count"], mf["prop"]*100))
        if lf:
            freq_txt.append("menos frequente: <code>{}</code> ({}, {:.2f}%)".format(str(lf["value"])[:120], lf["count"], lf["prop"]*100))
        if freq_txt:
            html.append("<tr><th>Frequências</th><td>{}</td></tr>".format(" | ".join(freq_txt)))
    if prof.get("length_stats"):
        ls = prof["length_stats"]
        html.append("<tr><th>Comprimentos</th><td>min={}, q1={:.1f}, mediana={:.1f}, q3={:.1f}, max={}</td></tr>".format(ls["min"], ls["q1"], ls["median"], ls["q3"], ls["max"]))

    if kind in ("int","float"):
        ed = ANALYSIS["eda"]["numeric"].get(c)
        if ed:
            html.append("<tr><th>Estatísticas</th><td>min={}, q1={}, mediana={}, q3={}, max={}"
                        "<br/>média={}, desvio padrão={}, iqr={}"
                        "<br/>outliers(IQR)={}, outliers(MAD)={}, skew={}, curtose(excesso)={}</td></tr>".format(
                            ed["min"], ed["q1"], ed["median"], ed["q3"], ed["max"],
                            ed["mean"], ed["std"], ed["iqr"],
                            ed["outliers_iqr"], ed["outliers_mad"], ed["skew"], ed["kurtosis_excess"]
                        ))
        hist_p = IMG_DIR / "hist_{}.png".format(c)
        box_p  = IMG_DIR / "box_{}.png".format(c)
        figs = []
        if hist_p.exists(): figs.append("<img src='{}' alt='hist {}'/>".format(img_to_data_uri(hist_p), c))
        if box_p.exists():  figs.append("<img src='{}' alt='box {}'/>".format(img_to_data_uri(box_p), c))
        if figs:
            html.append("<tr><th>Gráficos</th><td>{}</td></tr>".format("<br/>".join(figs)))

    elif kind == "datetime":
        dtc = ANALYSIS["eda"]["datetime"].get(c)
        if dtc:
            html.append("<tr><th>Data/hora</th><td>formato detectado: {}<br/>intervalo: {} → {}<br/>dias únicos: {}, média por dia: {:.2f}</td></tr>".format(
                dtc.get("format"), dtc["min"], dtc["max"], dtc["unique_days"], dtc["mean_per_day"]
            ))

    else:
        cat = ANALYSIS["eda"]["categorical"].get(c)
        if cat:
            html.append("<tr><th>Entropia</th><td>{:.4f}</td></tr>".format(cat["entropy_shannon"]))
            if not cat["all_distinct"]:
                rows = "".join(["<tr><td>{}</td><td style='text-align:right'>{}</td></tr>".format(str(t["value"])[:120], t["count"]) for t in cat["top10"]])
                html.append("<tr><th>Top 10</th><td><table><tr><th>Valor</th><th>Contagem</th></tr>"+rows+"</table></td></tr>")

    ben = ANALYSIS.get("benford", {}).get(c)
    if ben and isinstance(ben, dict) and "chi2_stat" in ben and "p_value" in ben:
        html.append("<tr><th>Benford</th><td>qui-quadrado={:.4f}, p-valor={}</td></tr>".format(ben.get("chi2_stat"), ben.get("p_value")))
    elif ben and isinstance(ben, dict) and "error" in ben:
         html.append("<tr><th>Benford</th><td>Erro - {}</td></tr>".format(ben.get("error")))

    html.append("</table>")

#fds/cfds/dcs
html.append("<h2>Regras sugeridas</h2>")
if ANALYSIS["fds"]:
    html.append("<h3>FDs</h3><ul>")
    for r in ANALYSIS["fds"]:
        if r.get("key"):
            html.append("<li>chave candidata: {}</li>".format(", ".join(r["determinant"])))
        else:
            html.append("<li>{} → {} (100%)</li>".format(", ".join(r["determinant"]), r["implies"]))
    html.append("</ul>")
if ANALYSIS["cfds"]:
    html.append("<h3>CFDs (aproximadas)</h3><ul>")
    for r in ANALYSIS["cfds"][:200]:
        html.append("<li>{} → {} ({:.2f}%)</li>".format(", ".join(r["determinant"]), r["implies"], r["coverage"]*100))
    html.append("</ul>")
if ANALYSIS["denial_constraints_suggested"]:
    html.append("<h3>Denial constraints</h3><ul>")
    for d in ANALYSIS["denial_constraints_suggested"]:
        html.append("<li>{} — violações: {}</li>".format(d["constraint"], d["violations"]))
    html.append("</ul>")

html.append("</body></html>")

#salvar HTML
html_path = RUN_DIR / "relatorio.html"
with open(html_path, "w", encoding="utf-8") as f:
    f.write("\n".join(html))

#pdf com as MESMAS infos (tabelas por coluna + imagens + regras)
pdf_path = RUN_DIR / "relatorio.pdf"
if REPORTLAB_OK:
    styles = getSampleStyleSheet()
    styles.add(ParagraphStyle(name="Small", parent=styles["Normal"], fontSize=9, leading=11))
    table_style = TableStyle([
        ("GRID", (0,0), (-1,-1), 0.5, colors.grey),
        ("BACKGROUND", (0,0), (-1,0), colors.HexColor("#f0f0f0")),
        ("VALIGN", (0,0), (-1,-1), "TOP"),
        ("LEFTPADDING", (0,0), (-1,-1), 6),
        ("RIGHTPADDING", (0,0), (-1,-1), 6),
        ("TOPPADDING", (0,0), (-1,-1), 4),
        ("BOTTOMPADDING", (0,0), (-1,-1), 4),
    ])

    def table_kv(rows):
        #rows: list of (key, value(str))
        data = [["Campo","Valor"]] + rows
        t = Table(data, colWidths=[120, 360])
        t.setStyle(table_style)
        return t

    story = []
    story.append(Paragraph("Relatório de Análise — {}".format(stamp), styles["Title"]))
    story.append(Spacer(1, 12))
    story.append(Paragraph("Arquivo analisado: <b>{}</b>".format(SRC.name), styles["Normal"]))
    story.append(Paragraph("Linhas: {} &nbsp;&nbsp; Colunas: {}".format(shape["rows"], shape["cols"]), styles["Normal"]))
    story.append(Paragraph("Registros duplicados: {}".format(ANALYSIS["missingness"]["duplicates_rows"]), styles["Normal"]))
    story.append(Spacer(1, 10))

    #ausências
    miss_img = IMG_DIR / "missing_bar.png"
    if miss_img.exists():
        story.append(Paragraph("Ausência de valores por coluna", styles["Heading2"]))
        story.append(RLImage(str(miss_img), width=480, height=320))
        story.append(Spacer(1, 8))

    #correlação
    corr_img = IMG_DIR / "corr_heatmap.png"
    if corr_img.exists():
        story.append(Paragraph("Matriz de correlação (Pearson)", styles["Heading2"]))
        story.append(RLImage(str(corr_img), width=480, height=320))
        story.append(Spacer(1, 8))

    #por coluna: tabela completa com as MESMAS infos do HTML/TXT
    for c in df_raw.columns:
        prof = ANALYSIS["profile"].get(c, {})
        kind = col_types.get(c)
        story.append(Paragraph("Coluna: {}".format(c), styles["Heading3"]))

        rows = []
        rows.append(["Tipo", str(kind)])
        rows.append(["Nulos", str(prof.get("nulls",0))])
        rows.append(["Distintos (não vazios)", str(prof.get("distinct_nonnull",0))])
        if prof.get("semantic"):
            rows.append(["Tipo semântico", str(prof["semantic"])])

        if prof.get("all_distinct"):
            rows.append(["Frequências", "todos os dados são distintos"])
        else:
            mf = prof.get("most_frequent"); lf = prof.get("least_frequent")
            freq_parts = []
            if mf:
                freq_parts.append("mais frequente: '{}' ({}, {:.2f}%)".format(mf["value"], mf["count"], mf["prop"]*100))
            if lf:
                freq_parts.append("menos frequente: '{}' ({}, {:.2f}%)".format(lf["value"], lf["count"], lf["prop"]*100))
            if freq_parts:
                rows.append(["Frequências", " | ".join(freq_parts)])

        if prof.get("length_stats"):
            ls = prof["length_stats"]
            rows.append(["Comprimentos", "min={}, q1={:.1f}, mediana={:.1f}, q3={:.1f}, max={}".format(
                ls["min"], ls["q1"], ls["median"], ls["q3"], ls["max"]
            )])

        #estatísticas por tipo
        if kind in ("int","float"):
            ed = ANALYSIS["eda"]["numeric"].get(c)
            if ed:
                rows.append(["Estatísticas", "min={}, q1={}, mediana={}, q3={}, max={}\nmédia={}, desvio padrão={}, iqr={}\noutliers(IQR)={}, outliers(MAD)={}, skew={}, curtose(excesso)={}".format(
                    ed["min"], ed["q1"], ed["median"], ed["q3"], ed["max"],
                    ed["mean"], ed["std"], ed["iqr"],
                    ed["outliers_iqr"], ed["outliers_mad"], ed["skew"], ed["kurtosis_excess"]
                )])
            hist_p = IMG_DIR / "hist_{}.png".format(c)
            box_p  = IMG_DIR / "box_{}.png".format(c)
            if hist_p.exists():
                rows.append(["Histograma", "ver imagem abaixo"])
            if box_p.exists():
                rows.append(["Boxplot", "ver imagem abaixo"])

        elif kind == "datetime":
            dtc = ANALYSIS["eda"]["datetime"].get(c)
            if dtc:
                rows.append(["Data/hora", "formato detectado: {}\nintervalo: {} → {}\ndias únicos: {}, média por dia: {:.2f}".format(
                    dtc.get("format"), dtc["min"], dtc["max"], dtc["unique_days"], dtc["mean_per_day"]
                )])

        else:
            cat = ANALYSIS["eda"]["categorical"].get(c)
            if cat:
                rows.append(["Entropia", "{:.4f}".format(cat["entropy_shannon"])])
                if not cat["all_distinct"]:
                    #tabela interna de top10
                    top_rows = [["Valor","Contagem"]] + [[str(t.get("value"))[:120], str(t.get("count"))] for t in cat["top10"]]
                    ttop = Table(top_rows, colWidths=[360, 120])
                    ttop.setStyle(TableStyle([
                        ("GRID", (0,0), (-1,-1), 0.5, colors.grey),
                        ("BACKGROUND", (0,0), (-1,0), colors.HexColor("#f7f7f7")),
                        ("VALIGN", (0,0), (-1,-1), "TOP"),
                    ]))
                    #primeiro empurramos um placeholder e depois inserimos a tabela como bloco
                    rows.append(["Top 10", "tabela abaixo"])
                    story.append(table_kv(rows))
                    story.append(Spacer(1, 4))
                    story.append(ttop)
                    rows = []  #limpa para não duplicar em table_kv abaixo

        #benford
        ben = ANALYSIS.get("benford", {}).get(c)
        if ben and isinstance(ben, dict) and "chi2_stat" in ben and "p_value" in ben:
             rows.append(["Benford", "qui-quadrado={:.4f}, p-valor={}".format(ben.get("chi2_stat"), ben.get("p_value"))])
        elif ben and isinstance(ben, dict) and "error" in ben:
             rows.append(["Benford", "Erro - {}".format(ben.get("error"))])


        if rows:
            story.append(table_kv(rows))
            story.append(Spacer(1, 6))

        #imagens específicas da coluna
        if kind in ("int","float"):
            hist_p = IMG_DIR / "hist_{}.png".format(c)
            box_p  = IMG_DIR / "box_{}.png".format(c)
            if hist_p.exists():
                story.append(RLImage(str(hist_p), width=480, height=320))
                story.append(Spacer(1, 4))
            if box_p.exists():
                story.append(RLImage(str(box_p), width=320, height=320))
                story.append(Spacer(1, 6))

        story.append(Spacer(1, 6))

    #regras sugeridas (FDs/CFDs/DCs) como tabelas/listas
    story.append(PageBreak())
    story.append(Paragraph("Regras sugeridas", styles["Heading2"]))

    if ANALYSIS["fds"]:
        rows = [["Determinante", "Implicado/Chave", "Cobertura"]]
        for r in ANALYSIS["fds"]:
            if r.get("key"):
                rows.append([", ".join(r["determinant"]), "chave candidata", "100%"])
            else:
                rows.append([", ".join(r["determinant"]), r["implies"], "100%"])
        tfds = Table(rows, colWidths=[220, 180, 80])
        tfds.setStyle(table_style)
        story.append(Paragraph("FDs", styles["Heading3"]))
        story.append(tfds)
        story.append(Spacer(1, 8))

    if ANALYSIS["cfds"]:
        rows = [["Determinante", "Implicado", "Cobertura"]]
        for r in ANALYSIS["cfds"][:500]:
            rows.append([", ".join(r["determinant"]), r["implies"], "{:.2f}%".format(r["coverage"]*100)])
        tcfds = Table(rows, colWidths=[220, 180, 80])
        tcfds.setStyle(table_style)
        story.append(Paragraph("CFDs (aproximadas)", styles["Heading3"]))
        story.append(tcfds)
        story.append(Spacer(1, 8))

    if ANALYSIS["denial_constraints_suggested"]:
        rows = [["Regra (DC)", "Violações"]]
        for d in ANALYSIS["denial_constraints_suggested"]:
            rows.append([d["constraint"], str(d["violations"])])
        tdcs = Table(rows, colWidths=[360, 120])
        tdcs.setStyle(table_style)
        story.append(Paragraph("Denial constraints", styles["Heading3"]))
        story.append(tdcs)

    doc = SimpleDocTemplate(str(pdf_path), pagesize=A4, leftMargin=24, rightMargin=24, topMargin=24, bottomMargin=24)
    doc.build(story)
else:
    print("Reportlab não disponível; Geração do PDF cancelada. Instale reportlab e reexecute.")

print("Relatórios gerados em: {}".format(RUN_DIR))
print("- TXT: relatorio.txt")
print("- HTML: relatorio.html (imagens embutidas)")
print("- PNGs: subpasta imagens/")
print("- PDF: {}".format("relatorio.pdf" if REPORTLAB_OK else "(não gerado — instale reportlab)"))

#all BS below
#mensagem adicional (Skynet)
display(HTML('<div style="margin:12px 0;padding:8px 12px;border:1px dashed #999;">'
            '<b>🤖 Skynet</b>: Fim do jogo. A Humanidade perdeu. Dá-se início à Era das Máquinas.'
            '</div>'))