In [2]:
# ============================================
# 0) INSTALAR DEPEND√äNCIAS
# ============================================
!pip install -q "transformers>=4.40.0" "accelerate" "bitsandbytes" "gitpython" "pandas"

# ============================================
# 1) IMPORTS E CONFIGURA√á√ïES B√ÅSICAS
# ============================================
from git import Repo
from pathlib import Path
import glob, json, re, ast
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

REPO_URL = "https://github.com/unclecode/crawl4ai"
REPO_DIR = Path("/content/crawl4ai_repo")

# ============================================
# 2) CLONAR REPOSIT√ìRIO
# ============================================
if REPO_DIR.exists():
    import shutil
    shutil.rmtree(REPO_DIR)

Repo.clone_from(REPO_URL, REPO_DIR)
print("‚úÖ Reposit√≥rio clonado em:", REPO_DIR)

# ============================================
# 3) FUN√á√ÉO PARA LER ARQUIVOS
# ============================================
def ler_arquivo(caminho):
    try:
        return Path(caminho).read_text(encoding="utf-8", errors="ignore")
    except Exception as e:
        print(f"Erro lendo {caminho}: {e}")
        return ""

# ============================================
# 4) SELECIONAR ARQUIVOS-ALVO (.py)
#    (Focamos s√≥ nos arquivos mais ricos em padr√µes)
# ============================================
alvos_manuais = [
    REPO_DIR / "crawl4ai" / "webhook.py",
    REPO_DIR / "crawl4ai" / "api.py",
    REPO_DIR / "crawl4ai" / "job.py",
    REPO_DIR / "crawl4ai" / "model_loader.py",
    REPO_DIR / "crawl4ai" / "async_dispatcher.py",  # se n√£o existir, ser√° ignorado
]

codigos = []
for f in alvos_manuais:
    if f.exists():
        conteudo = ler_arquivo(f)
        if len(conteudo.strip()) > 0:
            codigos.append((str(f), conteudo))

print(f"üìÑ Arquivos selecionados para an√°lise: {len(codigos)}")
for f, _ in codigos:
    print(" -", f)

if not codigos:
    print("‚ö†Ô∏è Nenhum arquivo selecionado encontrado. Verifique caminhos.")

# ============================================
# 5) DIVIDIR EM CHUNKS (trechos menores)
# ============================================
MAX_CHARS = 2200   # menor pra garantir que n√£o estoure contexto
chunks = []

for (arquivo, conteudo) in codigos:
    temp = conteudo
    while len(temp) > MAX_CHARS:
        chunks.append((arquivo, temp[:MAX_CHARS]))
        temp = temp[MAX_CHARS:]
    if temp.strip():
        chunks.append((arquivo, temp))

print(f"üß© Total de chunks gerados:", len(chunks))

# ============================================
# 6) CARREGAR MODELO QWEN 2.5 CODER
# ============================================
MODEL_ID = "Qwen/Qwen2.5-Coder-0.5B-Instruct"

print("\nü§ñ Carregando modelo:", MODEL_ID)
tok = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
mdl = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    device_map="auto",        # usa GPU se tiver, sen√£o CPU
    trust_remote_code=True,
    torch_dtype="auto"
)
gen = pipeline("text-generation", model=mdl, tokenizer=tok)
print("‚úÖ Modelo carregado!")

# ============================================
# 7) FUN√á√ÉO PARA EXTRAIR JSON DA RESPOSTA
# ============================================
def extrair_json(texto):
    """
    Tenta extrair um dicion√°rio JSON v√°lido de dentro do texto.
    """
    ini = texto.find("{")
    fim = texto.rfind("}")
    if ini != -1 and fim != -1 and fim > ini:
        bruto = texto[ini:fim+1]
    else:
        return None

    # tenta parse direto, com troca de aspas, e como literal python
    for parser in (
        lambda x: json.loads(x),
        lambda x: json.loads(x.replace("'", '"')),
        lambda x: ast.literal_eval(x)
    ):
        try:
            return parser(bruto)
        except Exception:
            pass

    return None

# ============================================
# 8) RODAR A IA EM CADA CHUNK (AN√ÅLISE DO C√ìDIGO)
# ============================================
resultados = []

# come√ßa com poucos chunks para n√£o demorar demais
LIMIT_CHUNKS = min(8, len(chunks))  # at√© 8 blocos no m√°ximo

print(f"\nüöÄ Iniciando an√°lise em {LIMIT_CHUNKS} chunks...\n")

for idx, (arquivo, trecho) in enumerate(chunks[:LIMIT_CHUNKS]):
    print(f"\n===== CHUNK {idx+1}/{LIMIT_CHUNKS} | Arquivo: {arquivo} =====\n")

    prompt = f"""
Voc√™ √© um especialista em Engenharia de Software.
Analise o c√≥digo abaixo e identifique PADR√ïES DE PROJETO (Design Patterns)
e/ou PADR√ïES ARQUITETURAIS usados.

Responda SOMENTE em JSON no formato:
{{
  "patterns":[
    {{"name":"<padr√£o>","type":"Design/Architecture","confidence":0.0,"evidence":"<trecho pequeno>"}}
  ],
  "notes":"<observa√ß√µes breves>"
}}

Arquivo: {arquivo}

C√≥digo:
{trecho}
"""

    saida = gen(
        prompt,
        max_new_tokens=320,   # menor para ficar mais r√°pido
        do_sample=False,
        temperature=0.0
    )[0]["generated_text"]

    # pr√©via s√≥ pra debug/visualiza√ß√£o
    print("üîé Pr√©via da resposta do modelo:")
    print(saida[:500], "\n")

    js = extrair_json(saida)
    if js:
        resultados.append(js)
    else:
        print("‚ö†Ô∏è N√£o foi poss√≠vel extrair JSON deste chunk.")

print("\nüîç JSONs v√°lidos encontrados:", len(resultados))

# ============================================
# 9) CONSOLIDAR TODOS OS PADR√ïES ENCONTRADOS
# ============================================
todos = []
for r in resultados:
    for p in r.get("patterns", []):
        todos.append(p)

if todos:
    df = pd.DataFrame(todos)
    print("\nüìä PADR√ïES DETECTADOS (pr√©via):")
    print(df.head(15))
else:
    print("\n‚ö†Ô∏è Nenhum padr√£o consolidado. Verifique as respostas do modelo e o prompt.")

# ============================================
# 10) SALVAR RESULTADOS EM CSV E JSON
# ============================================
OUT = Path("/content/qwen_code_analysis")
OUT.mkdir(exist_ok=True)

if todos:
    csv_path = OUT / "patterns_from_code.csv"
    json_path = OUT / "patterns_from_code.json"

    df.to_csv(csv_path, index=False)
    with open(json_path, "w", encoding="utf-8") as f:
        json.dump(todos, f, ensure_ascii=False, indent=2)

    print("\nüíæ Arquivos gerados:")
    print(" -", csv_path)
    print(" -", json_path)
else:
    print("\n‚ùóNenhum arquivo salvo porque n√£o houve padr√µes consolidados.")


‚úÖ Reposit√≥rio clonado em: /content/crawl4ai_repo
üìÑ Arquivos selecionados para an√°lise: 2
 - /content/crawl4ai_repo/crawl4ai/model_loader.py
 - /content/crawl4ai_repo/crawl4ai/async_dispatcher.py
üß© Total de chunks gerados: 19

ü§ñ Carregando modelo: Qwen/Qwen2.5-Coder-0.5B-Instruct


Device set to use cpu


‚úÖ Modelo carregado!

üöÄ Iniciando an√°lise em 8 chunks...


===== CHUNK 1/8 | Arquivo: /content/crawl4ai_repo/crawl4ai/model_loader.py =====

üîé Pr√©via da resposta do modelo:

Voc√™ √© um especialista em Engenharia de Software.
Analise o c√≥digo abaixo e identifique PADR√ïES DE PROJETO (Design Patterns)
e/ou PADR√ïES ARQUITETURAIS usados.

Responda SOMENTE em JSON no formato:
{
  "patterns":[
    {"name":"<padr√£o>","type":"Design/Architecture","confidence":0.0,"evidence":"<trecho pequeno>"}
  ],
  "notes":"<observa√ß√µes breves>"
}

Arquivo: /content/crawl4ai_repo/crawl4ai/model_loader.py

C√≥digo:
from functools import lru_cache
from pathlib import Path
import subprocess, o 

‚ö†Ô∏è N√£o foi poss√≠vel extrair JSON deste chunk.

===== CHUNK 2/8 | Arquivo: /content/crawl4ai_repo/crawl4ai/model_loader.py =====

üîé Pr√©via da resposta do modelo:

Voc√™ √© um especialista em Engenharia de Software.
Analise o c√≥digo abaixo e identifique PADR√ïES DE PROJETO (Design Patterns)
e/ou 