## Agentic Chunking

In [2]:
import sys
sys.path.append('/data/grafa/')

from grafa.stage_retrieval import get_document_lines, get_document

from langchain_aws import ChatBedrock

llm_light = ChatBedrock(
        model_id="us.anthropic.claude-3-5-haiku-20241022-v1:0",
        model_kwargs=dict(temperature=0, max_tokens=4096),
    )

llm = ChatBedrock(
        model_id="us.anthropic.claude-3-5-sonnet-20241022-v2:0",
        model_kwargs=dict(temperature=0, max_tokens=4096),
    )


In [3]:
from grafa.stage_chunking import agentic_chunking

### Chunking Test with Elasticidad Kuona

In [12]:
document = get_document('kuona_test')

In [13]:
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light)

In [14]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<page>1. ¬øQu√© es la elasticidad? 2. ¬øQu√© es la elasticidad promocional? 3. ¬øQu√© es la elasticidad cruzada? 4. ¬øC√≥mo calculamos la elasticidad de precio regular? 5. ¬øC√≥mo calculamos la elasticidad promocional te√≥rica? 6. ¬øCu√°les son las metodolog√≠as que utilizamos? 7. ¬øQu√© metodolog√≠as se le asignan a los clientes? 8. ¬øC√≥mo se utilizaron las metodolog√≠as en los clientes? Elasticidad (Contexto Te√≥rico) El objetivo de la optimizaci√≥n de precios es encontrar el mejor precio en tres dimensiones: 1. Producto 2. Segmento de mercado 3. Canal de distribuci√≥n Fig 1: Dimensiones del cubo de optimizaci√≥n de precios (Phillips, 1) Cada combinaci√≥n de producto, segmento de mercado y canal de distribuci√≥n, dentro del cubo de optimizaci√≥n, tiene asociada una funci√≥n dependiente del precio (price response function). Esto es, una funci√≥n que toma como entrada un precio y da como resultado un volumen esperado de ventas. Es importante notar que esta funci√≥n depend

In [15]:
print("Summary --> ")
print(summary)

Summary --> 
El documento profundiza en la metodolog√≠a para calcular elasticidades de precio, detallando un proceso sistem√°tico de evaluaci√≥n que incluye criterios espec√≠ficos para determinar la elasticidad en diferentes niveles, desde SKU hasta categor√≠a, utilizando modelos matem√°ticos y criterios de asertividad.


### Chunking Test with ROI 

In [9]:
document = get_document('roi')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light)

In [10]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<t√≠tulo>ROI (Return Of Investment)<t√≠tulo> <descripci√≥n>El Retorno sobre la Inversi√≥n (ROI, por sus siglas en ingl√©s) es un indicador financiero que se utiliza para evaluar la eficiencia o rentabilidad de una promoci√≥n. Mide la ganancia o p√©rdida en rentabilidad generada en relaci√≥n con el costo inicial de la inversi√≥n en la promoci√≥n. Adicionalmente, en el c√°lculo del ROI se contempla la p√©rdida en rentabilidad de los productos canibalizados, as√≠ como la p√©rdida en rentabilidad por el overstock provocado por la promoci√≥n </descripci√≥n> <f√≥rmulas> roi = (profit - profit_base - cannibalized_profit - overstocked_profit) / promo_investment </f√≥rmulas> <casos_de_uso> <casos_de_uso> El ROI puede ser usado para obtener cuales son las promociones m√°s rentables. Las mejores promociones pueden ser identificadas al observar un ROI mayor y un incremental de volumen mayor. Para identificar las N mejores promociones: 1. Primero se ordenan las promociones individuales

In [11]:
print("Summary --> ")
print(summary)

Summary --> 
El documento presenta un ejemplo detallado de c√≥mo calcular el ROI total para m√∫ltiples promociones, describiendo los pasos para sumar componentes de ganancias y calcular el retorno de inversi√≥n de manera integral.


### Chunking Test Customer Success Master File

In [6]:
document = get_document('duration_analysis')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light, verbose=True)

Chunking for document started...
There are 55 lines on the document
Cutting Document on line 19
Actual Summary : Un documento t√©cnico sobre la agrupaci√≥n de duraciones de promociones en intervalos de tiempo significativos. Explica la importancia de agrupar duraciones para mejorar el an√°lisis estad√≠stico, reconocer patrones y facilitar la toma de decisiones empresariales.


In [7]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<title>Duration Binning for Promotional Analysis</title> <description> When analyzing promotion durations, it's crucial to bin durations into meaningful time intervals rather than using exact day counts. This approach provides more statistically significant results and clearer patterns by reducing data granularity. Standard duration bins should be used: - 0-7 days (1 week) - 8-14 days (2 weeks) - 15-21 days (3 weeks) - 22-30 days (1 month) - 31-90 days (3 months) - 91-180 days (6 months) - 181-365 days (1 year) - >365 days (more than a year) </description> <rationale> 1. Statistical Significance: Grouping by exact days creates too many categories with few data points each 2. Pattern Recognition: Binned durations make it easier to identify trends and patterns 3. Business Relevance: Bins align with common business planning cycles (weeks, months, quarters) 4. Noise Reduction: Removes noise from minor day-to-day variations </rationale>
Chunk 1 --- 
<sql_implementation> To impl

In [8]:
summary

'Un documento t√©cnico sobre la agrupaci√≥n de duraciones de promociones en intervalos de tiempo significativos. Explica la importancia de agrupar duraciones para mejorar el an√°lisis estad√≠stico, reconocer patrones y facilitar la toma de decisiones empresariales.'

In [None]:
#Took 3m 40 seconds 
document = get_document('customer_success_master_file')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light, verbose=True)

Chunking for document started...
There are 1443 lines on the document
Cutting Document on line 22
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento regional, extracciones de datos, y un resumen de m√©tricas clave de negocio para octubre de 2024, incluyendo informaci√≥n de ventas, KPIs regionales y estado de proyectos en curso.
There are 1421 lines on the document
Cutting Document on line 33
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento regional, KPIs, m√©tricas de negocio, y detalles de proyectos en curso, incluyendo informaci√≥n de simulaciones, revisiones de datos, y tareas pendientes para octubre de 2024, con un enfoque en mejoras de herramientas y procesos digitales.
There are 1388 lines on the document
Cutting Document on line 37
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento regional, KPIs, m√©tricas de negocio, y detalles de proyectos en curso, incluyendo informaci√≥n de simulacio

In [5]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<page>Logo Kuona Title (Main) Master File Customer Success Manufacturer Title (Company Name) Arca Continental Date 22-10-24</page> <page>Arca Continental - Mx üá≤üáΩ Data Extracciones Mi√©rcoles y S√°bados [Data Table] Etiqueta | Suma de interface_units | Suma de interface_money | Suma de interface_gross | Suma de reshift_units | Suma de reshift_money | Suma de reshift_promotion | Diferencia Units | Diferencia Money | Diferencia Promotion s&d | 344,235.717 | 6,147,465.329 | 339,723,976.55 | 345,213.892 | 6,156,648,684.41 | 339,724,465.12 | 1,525 | 75,302 | -1,527 oct | 224,264,613 | 52,584,695,919.45 | 315,450,153.79 | 224,262,983 | 52,584,671,230.50 | 315,450,153.71 | 1,630 | 24,089 | 0 Total gral | 567,485,329 | 58,725,219,089.75 | 655,173,293.14 | 567,476,874 | 58,725,221,599.52 | 655,174,568.84 | 3,455 | 97,390 | -1,527 Ultima Actualizaci√≥n Postmortem: 20-Oct-24 COG: Ago'24 Productos padre: 2023 Catalogo promocional: Mar'24 KPIs
Chunk 1 --- 
[KPIs Table] Region | YT

In [16]:
#Trying same document but with a higher chunk size of 1000 tokens
document = get_document('customer_success_master_file')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=1000, llm=llm_light, verbose=True)

Chunking for document started...
There are 1443 lines on the document
Cutting Document on line 55
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento, KPIs y m√©tricas de diferentes regiones de M√©xico, con informaci√≥n sobre ventas, simulaciones y acuerdos de trabajo para diferentes periodos en 2024.
There are 1388 lines on the document
Cutting Document on line 37
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento, KPIs y m√©tricas de diferentes regiones de M√©xico, con informaci√≥n adicional sobre datos de ventas, simulaciones y acuerdos de trabajo para diferentes periodos en 2024, incluyendo informaci√≥n de la regi√≥n de Per√∫ con detalles de transacciones y logos de Digital Nest y Kuona.
There are 1351 lines on the document
Cutting Document on line 41
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento, KPIs y m√©tricas de diferentes regiones de M√©xico, con informaci√≥n adicional sobre datos de

In [None]:
#OBSERVATIONS 1000 tokens vs 300 tokens (Chunk Size)
#1. Working with a higher chunk size in this case gave a total time of 3 mins to process document which is 40 seconds faster.
#2. Chunks are better partitioned when working with higher windows (39 chunks vs 64 chunks)

print(len(chunks))

39


In [18]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<page>Logo Kuona Title (Main) Master File Customer Success Manufacturer Title (Company Name) Arca Continental Date 22-10-24</page> <page>Arca Continental - Mx üá≤üáΩ Data Extracciones Mi√©rcoles y S√°bados [Data Table] Etiqueta | Suma de interface_units | Suma de interface_money | Suma de interface_gross | Suma de reshift_units | Suma de reshift_money | Suma de reshift_promotion | Diferencia Units | Diferencia Money | Diferencia Promotion s&d | 344,235.717 | 6,147,465.329 | 339,723,976.55 | 345,213.892 | 6,156,648,684.41 | 339,724,465.12 | 1,525 | 75,302 | -1,527 oct | 224,264,613 | 52,584,695,919.45 | 315,450,153.79 | 224,262,983 | 52,584,671,230.50 | 315,450,153.71 | 1,630 | 24,089 | 0 Total gral | 567,485,329 | 58,725,219,089.75 | 655,173,293.14 | 567,476,874 | 58,725,221,599.52 | 655,174,568.84 | 3,455 | 97,390 | -1,527 Ultima Actualizaci√≥n Postmortem: 20-Oct-24 COG: Ago'24 Productos padre: 2023 Catalogo promocional: Mar'24 KPIs [KPIs Table] Region | YTD Sep'24 | RO

In [19]:
summary

'Documento t√©cnico detallado sobre extracci√≥n de datos de Azure para Arca Continental, que incluye un proceso estructurado de procesamiento semanal. El documento ampl√≠a la descripci√≥n de los procesos de Customer Success, detallando los entregables peri√≥dicos, flujos de trabajo e informaci√≥n sobre formatos de archivos CSV para diferentes pa√≠ses. Se describen los procedimientos para la carga de productos padre y sustitutos, incluyendo directrices espec√≠ficas para la gesti√≥n de productos, con √©nfasis en los requisitos de formato y codificaci√≥n. Adem√°s, incluye una secci√≥n de validaci√≥n de postmortems y procesamientos, con an√°lisis de KPIs como ROI, cantidad de promociones, inversi√≥n y variaciones entre periodos. El documento tambi√©n contiene informaci√≥n sobre la agenda de Big Bang, que detalla categor√≠as a promocionar, descuentos y estrategias de simulaci√≥n.'