# Chunking Strategies II: Semantic chunking

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import os
from pathlib import Path
from dotenv import load_dotenv
import tiktoken
from langchain_core.documents import Document
from IPython.display import display, Markdown

from src import utils

# Params

In [3]:
TOKENIZER_NAME ="cl100k_base"
EMB_MODEL="text-embedding-3-small"

In [4]:
path_data = Path() / "data"
path_input = path_data / "interim"
path_output = path_data / "processed" / "chunks"  # Store chunks by experiment

path_output.mkdir(exist_ok=True, parents=True)

# Environment Variables

In [5]:
load_dotenv()

True

In [6]:
encoding = tiktoken.get_encoding(TOKENIZER_NAME)

# Load Data

In [7]:
import json
from langchain_core.documents import Document
dc_chunks = utils.load_documents(path_output / "pages" / "Althera.json")

corpus_doc = Document(
    page_content="\n\n".join([doc.page_content for doc in dc_chunks]),
    metadata={"source": "Althera"}
)

# Semantic Chunking (Experimental)

[5 Levels Of Text Splitting. gkamradt](https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb)

In [47]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(
    model=EMB_MODEL,
)
text_splitter_sema90 = SemanticChunker(
    embeddings,
    breakpoint_threshold_type="percentile",  # default
    breakpoint_threshold_amount =0.9,  # default:  0.95
    min_chunk_size=128  # default: None
    )

text_splitter_sema98 = SemanticChunker(
    embeddings,
    breakpoint_threshold_type="percentile", 
    breakpoint_threshold_amount =0.98,  
    min_chunk_size=128  
    )

In [48]:
corpus_sema90  = text_splitter_sema90.split_documents([corpus_doc])
stats_sema90 = utils.corpus_stats(encoding, corpus_sema90)
stats_sema90.describe()

count    138.000000
mean      65.159420
std       42.337408
min        3.000000
25%       47.000000
50%       58.500000
75%       72.000000
max      396.000000
dtype: float64

In [50]:
corpus_sema98  = text_splitter_sema98.split_documents([corpus_doc])
stats_sema98 = utils.corpus_stats(encoding, corpus_sema98)
stats_sema98.describe()

count    138.000000
mean      65.159420
std       42.337408
min        3.000000
25%       47.000000
50%       58.500000
75%       72.000000
max      396.000000
dtype: float64

In [51]:
for i, doc in enumerate(corpus_sema98[:10]):
    print(f"chunk: {i} ----------------")
    display(Markdown(doc.page_content))

chunk: 0 ----------------


# Un nuevo y fascinante vecino: Althéra 

## Índice

1. Historia del descubrimiento
2. Conoce a Althéra
3. Los soles de Althéra
4.

chunk: 1 ----------------


Estructura general de Althéra
5. Planetas interiores
6. Planetas exteriores
7. Lunas y satélites menores
8. Fenómenos destacados
9.

chunk: 2 ----------------


Habitabilidad y astrobiología
10. Conclusiones y perspectivas futuras

## 1. Historia del descubrimiento

### 1.1 Primeras observaciones y sospechas iniciales

El sistema binario Althéra ( $H D 4579 A B$ ) fue detectado por primera vez en el año 2032 durante una campaña de observación del Observatorio Espacial James Webb, dirigida por la astrofísica chilena Dra.

chunk: 3 ----------------


Mariela Estay. La misión principal era estudiar la composición atmosférica de exoplanetas candidatos a la habitabilidad, pero un patrón anómalo en el flujo luminoso proveniente de la constelación de Orión llamó la atención del equipo.

chunk: 4 ----------------


El análisis de curvas de luz reveló oscilaciones periódicas dobles, un indicio claro de la presencia de dos estrellas en órbita mutua y varios cuerpos orbitando de forma circumbinaria.

chunk: 5 ----------------


### 1.2 Confirmación mediante técnicas combinadas

En los meses siguientes, un consorcio internacional liderado por la Agencia Espacial Europea (ESA) y el Instituto Max Planck de Astronomía desplegó observaciones complementarias utilizando:

- ELT (Extremely Large Telescope) en el Desierto de Atacama para espectroscopía de alta resolución.

chunk: 6 ----------------


- Telescopio Espacial Nancy Grace Roman para fotometría de gran precisión en tránsitos. - Interferometría de radio desde la red Very Long Baseline Array (VLBA) para afinar la distancia y parámetros orbitales del sistema.

chunk: 7 ----------------


Fue el equipo del astrónomo estadounidense Dr. Jonathan Kepler-Saunders quien confirmó, mediante el método de velocidad radial ultraestable, la existencia de cinco planetas principales y varios cinturones de escombros.

chunk: 8 ----------------


# 1.3 Descubrimiento revolucionario de la zona habitable circumbinaria 

El hallazgo más impactante llegó en 2034, cuando la misión LUVOIR-B (Large UV/Optical/IR Surveyor) detectó la firma espectral de vapor de agua, oxígeno molecular y metano en la atmósfera de Aurelia III, un planeta ubicado en la zona habitable del sistema, orbitando a ambos soles.

chunk: 9 ----------------


Este fue el primer caso documentado de un mundo potencialmente habitable en un sistema binario cercano - a tan solo 42,7 años luz de la Tierra-, lo que lo convierte en un candidato ideal para futuras misiones de exploración interestelar.

In [52]:
Markdown(corpus_sema[-1].page_content)

Maria Estay

In [None]:
utils.save_documents(
    corpus_sema,
    path_output /  "sema" / "Althera.json"
)