# RAG

In [25]:
import os
import re

from dotenv import load_dotenv
from typing import Dict, List

from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents.base import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [6]:
load_dotenv(dotenv_path='../src/.env')

True

## Functions

In [22]:
def load_urls(urls_path: str) -> List[str]:
    with open(urls_path, "r", encoding="utf-8") as file:
        urls = [line.strip() for line in file if line.strip()]
    return urls


def load_documents(urls_list: List[str]) -> List[Document]:
    docs = [WebBaseLoader(url).load() for url in urls_list]
    docs_list = [item for sublist in docs for item in sublist]
    print(f"len of documents :{len(docs_list)}")
    return docs_list


def preprocess_documents(documents: List[Document]) -> List[Document]:
    for doc in documents:
        doc.page_content = re.sub(r'\n+', '\n', doc.page_content.strip())
    return documents


def split_documents(documents: List[Document], chunk_size: int, chunk_overlap: int) -> List[Document]:
    text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
        chunk_size=chunk_size, chunk_overlap=chunk_overlap
    )
    doc_splits = text_splitter.split_documents(documents)
    print(f"length of document chunks generated :{len(doc_splits)}")
    return doc_splits


In [11]:
urls = load_urls('../data/urls.txt')

In [14]:
documents = load_documents(urls)

len of documents :8


In [18]:
preprocessed_documents = preprocess_documents(documents)

In [26]:
splitted_documents = split_documents(preprocessed_documents, chunk_size=1024, chunk_overlap=200)

length of document chunks generated :156


In [29]:
print(splitted_documents[0].page_content)

Visado de Turista (Entrada única) - Royal Thai Embassy, Madrid, Spain (34) 91 563 2903 (34) 91 564 0033 [email protected] Monday - Friday 09.00-17.00 hrs. except the Royal Thai Embassy holidaysAAALanguage EnglishThaiRoyal Thai Embassy, Madrid, Spainสถานเอกอัครราชทูต ณ กรุงมาดริดFollow us: Royal Thai Embassy, Madrid, SpainLanguage EnglishThaiHomeAbout us AmbassadorOffices/ contactsWorking Hours and HolidaysNews Top StoriesTravel Tourists InformationVat RefundThai Restaurants in Spain and AndorraBusiness Trade InformationInvestmentEastern Economic Corridor Service Public Health Measures for Entering ThailandVisaLegalizationBringing Pets to ThailandRestricted MedicinesYellow FeverConsular Service Fees/ Tasas de los servicios consularesMinistry of Foreigh AffairsThailand Link Thailand LinkHomeAbout usAmbassadorOffices/ contactsWorking Hours and HolidaysNewsTop StoriesTravelTourists InformationVat RefundThai Restaurants in Spain and AndorraBusinessTrade InformationInvestmentEastern Economic

In [30]:
print(splitted_documents[1].page_content)

Los documentos que hay que presentar para obtener este visado son:
Pasaporte Biométrico o documento de viaje con una validez no menor de 6 meses
1 fotografía, de frente sin gafas de sol y con la cabeza descubierta (tomadas como máximo 6 meses antes)
En caso de que su nacionalidad no sea española, la tarjeta de residencia NIE. Los ciudadanos con residencia legal en Andorra, pero de distinta nacionalidad, deben aportar fotocopia de la tarjeta de residencia andorrana. Si no dispone de residencia legal en España, NO puede solicitar visado de turista en este consulado.  
El billete de ida y vuelta, o ida y salida hacia un tercer país o la reserva de billete.
Las reservas confirmadas de hotel para toda la estancia en Tailandia, de acuerdo a las fechas de los billetes de entrada y salida que presente.
35 euros 
Nota Importante: La Embajada se reserva el derecho a solicitar otros documentos adicionales si fuera necesario. La Embajada tiene también el derecho de conceder el tipo de visado que c