Skip to content

v0.6.0

Latest

Choose a tag to compare

@bdcdo bdcdo released this 20 Apr 20:28
· 8 commits to main since this release
13615da

Removido

  • Colunas _total_tokens e _search_count do DataFrame de saída (#69). Totais continuam no summary de console; _search_count segue interno para o cálculo de _search_credits.

Adicionado

  • Inferência automática de text_column em DataFrames quando None (#93): tenta texto, text, decisao, content, content_text em ordem; DataFrames de 1 coluna usam-na direto.
  • Coluna _reasoning_tokens para modelos com reasoning (GPT-5, o-series, Claude thinking) (#65). Extraída de usage_metadata.output_token_details["reasoning"]; aparece no summary como sub-bullet do Output.
  • Suporte opcional a Groq (#94): novo provider disponível via pip install dataframeit[groq]. Use com provider='groq' e modelos como llama-3.3-70b-versatile ou llama-3.1-8b-instant. Requer GROQ_API_KEY.
  • Aviso de rate limit para busca web (#67): dataframeit(...) agora emite um UserWarning quando a combinação de use_search=True, parallel_requests e search_per_field pode exceder o rate limit do provedor de busca (Tavily ou Exa). A mensagem inclui recomendações específicas de parallel_requests e rate_limit_delay. O aviso também dispara em execuções sequenciais quando o total de queries estimadas (linhas × campos) ultrapassa 100.
  • Checkpoint periódico em execuções longas (#92): novos parâmetros batch_size e checkpoint_path em dataframeit(). Salva o DataFrame a cada N linhas processadas (escrita atômica via .tmp + rename) e um save final cobre a cauda quando o total não é múltiplo de batch_size. Formatos: .csv, .xlsx, .parquet — dependências (openpyxl, pyarrow) são validadas antes do processamento iniciar. Combinado com resume=True, permite retomar execuções longas após kill/crash sem perder progresso.
  • Novo extra excel com openpyxl (pip install dataframeit[excel]), também incluído em all. Necessário para checkpoint_path="*.xlsx" e read_df() sobre arquivos Excel.
  • Documentação de rate limits e processamento paralelo em docs/guides/web-search.md e docs/en/guides/web-search.md, com tabelas de configurações recomendadas por provedor.

Corrigido

  • Filtrar UserWarning: Field name X shadows ... do langchain_tavily no import do provider (#74). Filtro específico ao módulo upstream.
  • pyarrow adicionado como dependência dos extras polars e all. Versões recentes de polars requerem pyarrow para polars.DataFrame.to_pandas(); sem isso, passar um polars DataFrame para dataframeit() levantava ModuleNotFoundError.