You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
This commit was created on GitHub.com and signed with GitHub’s verified signature.
Removido
Colunas _total_tokens e _search_count do DataFrame de saída (#69). Totais continuam no summary de console; _search_count segue interno para o cálculo de _search_credits.
Adicionado
Inferência automática de text_column em DataFrames quando None (#93): tenta texto, text, decisao, content, content_text em ordem; DataFrames de 1 coluna usam-na direto.
Coluna _reasoning_tokens para modelos com reasoning (GPT-5, o-series, Claude thinking) (#65). Extraída de usage_metadata.output_token_details["reasoning"]; aparece no summary como sub-bullet do Output.
Suporte opcional a Groq (#94): novo provider disponível via pip install dataframeit[groq]. Use com provider='groq' e modelos como llama-3.3-70b-versatile ou llama-3.1-8b-instant. Requer GROQ_API_KEY.
Aviso de rate limit para busca web (#67): dataframeit(...) agora emite um UserWarning quando a combinação de use_search=True, parallel_requests e search_per_field pode exceder o rate limit do provedor de busca (Tavily ou Exa). A mensagem inclui recomendações específicas de parallel_requests e rate_limit_delay. O aviso também dispara em execuções sequenciais quando o total de queries estimadas (linhas × campos) ultrapassa 100.
Checkpoint periódico em execuções longas (#92): novos parâmetros batch_size e checkpoint_path em dataframeit(). Salva o DataFrame a cada N linhas processadas (escrita atômica via .tmp + rename) e um save final cobre a cauda quando o total não é múltiplo de batch_size. Formatos: .csv, .xlsx, .parquet — dependências (openpyxl, pyarrow) são validadas antes do processamento iniciar. Combinado com resume=True, permite retomar execuções longas após kill/crash sem perder progresso.
Novo extra excel com openpyxl (pip install dataframeit[excel]), também incluído em all. Necessário para checkpoint_path="*.xlsx" e read_df() sobre arquivos Excel.
Documentação de rate limits e processamento paralelo em docs/guides/web-search.md e docs/en/guides/web-search.md, com tabelas de configurações recomendadas por provedor.
Corrigido
Filtrar UserWarning: Field name X shadows ... do langchain_tavily no import do provider (#74). Filtro específico ao módulo upstream.
pyarrow adicionado como dependência dos extras polars e all. Versões recentes de polars requerem pyarrow para polars.DataFrame.to_pandas(); sem isso, passar um polars DataFrame para dataframeit() levantava ModuleNotFoundError.