## Agentic Chunking

In [2]:
import sys
sys.path.append('/data/grafa/')

from grafa.stage_retrieval import get_document_lines, get_document

from langchain_aws import ChatBedrock

llm_light = ChatBedrock(
        model_id="us.anthropic.claude-3-5-haiku-20241022-v1:0",
        model_kwargs=dict(temperature=0, max_tokens=4096),
    )

llm = ChatBedrock(
        model_id="us.anthropic.claude-3-5-sonnet-20241022-v2:0",
        model_kwargs=dict(temperature=0, max_tokens=4096),
    )


In [3]:
from grafa.stage_chunking import agentic_chunking

### Chunking Test with Elasticidad Kuona

In [12]:
document = get_document('kuona_test')

In [13]:
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light)

In [14]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<page>1. ¿Qué es la elasticidad? 2. ¿Qué es la elasticidad promocional? 3. ¿Qué es la elasticidad cruzada? 4. ¿Cómo calculamos la elasticidad de precio regular? 5. ¿Cómo calculamos la elasticidad promocional teórica? 6. ¿Cuáles son las metodologías que utilizamos? 7. ¿Qué metodologías se le asignan a los clientes? 8. ¿Cómo se utilizaron las metodologías en los clientes? Elasticidad (Contexto Teórico) El objetivo de la optimización de precios es encontrar el mejor precio en tres dimensiones: 1. Producto 2. Segmento de mercado 3. Canal de distribución Fig 1: Dimensiones del cubo de optimización de precios (Phillips, 1) Cada combinación de producto, segmento de mercado y canal de distribución, dentro del cubo de optimización, tiene asociada una función dependiente del precio (price response function). Esto es, una función que toma como entrada un precio y da como resultado un volumen esperado de ventas. Es importante notar que esta función dependiente del precio es similar a 

In [15]:
print("Summary --> ")
print(summary)

Summary --> 
El documento profundiza en la metodología para calcular elasticidades de precio, detallando un proceso sistemático de evaluación que incluye criterios específicos para determinar la elasticidad en diferentes niveles, desde SKU hasta categoría, utilizando modelos matemáticos y criterios de asertividad.


### Chunking Test with ROI 

In [9]:
document = get_document('roi')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light)

In [10]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<título>ROI (Return Of Investment)<título> <descripción>El Retorno sobre la Inversión (ROI, por sus siglas en inglés) es un indicador financiero que se utiliza para evaluar la eficiencia o rentabilidad de una promoción. Mide la ganancia o pérdida en rentabilidad generada en relación con el costo inicial de la inversión en la promoción. Adicionalmente, en el cálculo del ROI se contempla la pérdida en rentabilidad de los productos canibalizados, así como la pérdida en rentabilidad por el overstock provocado por la promoción </descripción> <fórmulas> roi = (profit - profit_base - cannibalized_profit - overstocked_profit) / promo_investment </fórmulas> <casos_de_uso> <casos_de_uso> El ROI puede ser usado para obtener cuales son las promociones más rentables. Las mejores promociones pueden ser identificadas al observar un ROI mayor y un incremental de volumen mayor. Para identificar las N mejores promociones: 1. Primero se ordenan las promociones individuales por su ROI de mayo

In [11]:
print("Summary --> ")
print(summary)

Summary --> 
El documento presenta un ejemplo detallado de cómo calcular el ROI total para múltiples promociones, describiendo los pasos para sumar componentes de ganancias y calcular el retorno de inversión de manera integral.


### Chunking Test Customer Success Master File

In [6]:
document = get_document('duration_analysis')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light, verbose=True)

Chunking for document started...
There are 55 lines on the document
Cutting Document on line 19
Actual Summary : Un documento técnico sobre la agrupación de duraciones de promociones en intervalos de tiempo significativos. Explica la importancia de agrupar duraciones para mejorar el análisis estadístico, reconocer patrones y facilitar la toma de decisiones empresariales.


In [7]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<title>Duration Binning for Promotional Analysis</title> <description> When analyzing promotion durations, it's crucial to bin durations into meaningful time intervals rather than using exact day counts. This approach provides more statistically significant results and clearer patterns by reducing data granularity. Standard duration bins should be used: - 0-7 days (1 week) - 8-14 days (2 weeks) - 15-21 days (3 weeks) - 22-30 days (1 month) - 31-90 days (3 months) - 91-180 days (6 months) - 181-365 days (1 year) - >365 days (more than a year) </description> <rationale> 1. Statistical Significance: Grouping by exact days creates too many categories with few data points each 2. Pattern Recognition: Binned durations make it easier to identify trends and patterns 3. Business Relevance: Bins align with common business planning cycles (weeks, months, quarters) 4. Noise Reduction: Removes noise from minor day-to-day variations </rationale>
Chunk 1 --- 
<sql_implementation> To impl

In [8]:
summary

'Un documento técnico sobre la agrupación de duraciones de promociones en intervalos de tiempo significativos. Explica la importancia de agrupar duraciones para mejorar el análisis estadístico, reconocer patrones y facilitar la toma de decisiones empresariales.'

In [None]:
#Took 3m 40 seconds 
document = get_document('customer_success_master_file')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=300, llm=llm_light, verbose=True)

Chunking for document started...
There are 1443 lines on the document
Cutting Document on line 22
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento regional, extracciones de datos, y un resumen de métricas clave de negocio para octubre de 2024, incluyendo información de ventas, KPIs regionales y estado de proyectos en curso.
There are 1421 lines on the document
Cutting Document on line 33
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento regional, KPIs, métricas de negocio, y detalles de proyectos en curso, incluyendo información de simulaciones, revisiones de datos, y tareas pendientes para octubre de 2024, con un enfoque en mejoras de herramientas y procesos digitales.
There are 1388 lines on the document
Cutting Document on line 37
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento regional, KPIs, métricas de negocio, y detalles de proyectos en curso, incluyendo información de simulaciones, r

In [5]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<page>Logo Kuona Title (Main) Master File Customer Success Manufacturer Title (Company Name) Arca Continental Date 22-10-24</page> <page>Arca Continental - Mx 🇲🇽 Data Extracciones Miércoles y Sábados [Data Table] Etiqueta | Suma de interface_units | Suma de interface_money | Suma de interface_gross | Suma de reshift_units | Suma de reshift_money | Suma de reshift_promotion | Diferencia Units | Diferencia Money | Diferencia Promotion s&d | 344,235.717 | 6,147,465.329 | 339,723,976.55 | 345,213.892 | 6,156,648,684.41 | 339,724,465.12 | 1,525 | 75,302 | -1,527 oct | 224,264,613 | 52,584,695,919.45 | 315,450,153.79 | 224,262,983 | 52,584,671,230.50 | 315,450,153.71 | 1,630 | 24,089 | 0 Total gral | 567,485,329 | 58,725,219,089.75 | 655,173,293.14 | 567,476,874 | 58,725,221,599.52 | 655,174,568.84 | 3,455 | 97,390 | -1,527 Ultima Actualización Postmortem: 20-Oct-24 COG: Ago'24 Productos padre: 2023 Catalogo promocional: Mar'24 KPIs
Chunk 1 --- 
[KPIs Table] Region | YTD Sep'24 

In [16]:
#Trying same document but with a higher chunk size of 1000 tokens
document = get_document('customer_success_master_file')
chunks, summary = agentic_chunking(document=document, max_token_chunk_size=1000, llm=llm_light, verbose=True)

Chunking for document started...
There are 1443 lines on the document
Cutting Document on line 55
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento, KPIs y métricas de diferentes regiones de México, con información sobre ventas, simulaciones y acuerdos de trabajo para diferentes periodos en 2024.
There are 1388 lines on the document
Cutting Document on line 37
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento, KPIs y métricas de diferentes regiones de México, con información adicional sobre datos de ventas, simulaciones y acuerdos de trabajo para diferentes periodos en 2024, incluyendo información de la región de Perú con detalles de transacciones y logos de Digital Nest y Kuona.
There are 1351 lines on the document
Cutting Document on line 41
Actual Summary : Documento de Arca Continental que presenta datos de rendimiento, KPIs y métricas de diferentes regiones de México, con información adicional sobre datos de ventas, sim

In [None]:
#OBSERVATIONS 1000 tokens vs 300 tokens (Chunk Size)
#1. Working with a higher chunk size in this case gave a total time of 3 mins to process document which is 40 seconds faster.
#2. Chunks are better partitioned when working with higher windows (39 chunks vs 64 chunks)

print(len(chunks))

39


In [18]:
for i, chunk in enumerate(chunks):
    print(f'Chunk {i} --- ')
    print(chunk)

Chunk 0 --- 
<page>Logo Kuona Title (Main) Master File Customer Success Manufacturer Title (Company Name) Arca Continental Date 22-10-24</page> <page>Arca Continental - Mx 🇲🇽 Data Extracciones Miércoles y Sábados [Data Table] Etiqueta | Suma de interface_units | Suma de interface_money | Suma de interface_gross | Suma de reshift_units | Suma de reshift_money | Suma de reshift_promotion | Diferencia Units | Diferencia Money | Diferencia Promotion s&d | 344,235.717 | 6,147,465.329 | 339,723,976.55 | 345,213.892 | 6,156,648,684.41 | 339,724,465.12 | 1,525 | 75,302 | -1,527 oct | 224,264,613 | 52,584,695,919.45 | 315,450,153.79 | 224,262,983 | 52,584,671,230.50 | 315,450,153.71 | 1,630 | 24,089 | 0 Total gral | 567,485,329 | 58,725,219,089.75 | 655,173,293.14 | 567,476,874 | 58,725,221,599.52 | 655,174,568.84 | 3,455 | 97,390 | -1,527 Ultima Actualización Postmortem: 20-Oct-24 COG: Ago'24 Productos padre: 2023 Catalogo promocional: Mar'24 KPIs [KPIs Table] Region | YTD Sep'24 | ROI | ROI C

In [19]:
summary

'Documento técnico detallado sobre extracción de datos de Azure para Arca Continental, que incluye un proceso estructurado de procesamiento semanal. El documento amplía la descripción de los procesos de Customer Success, detallando los entregables periódicos, flujos de trabajo e información sobre formatos de archivos CSV para diferentes países. Se describen los procedimientos para la carga de productos padre y sustitutos, incluyendo directrices específicas para la gestión de productos, con énfasis en los requisitos de formato y codificación. Además, incluye una sección de validación de postmortems y procesamientos, con análisis de KPIs como ROI, cantidad de promociones, inversión y variaciones entre periodos. El documento también contiene información sobre la agenda de Big Bang, que detalla categorías a promocionar, descuentos y estrategias de simulación.'