This notebook is responsible for extracting text information available on Tuya's web pages. It is important to note that extraction requires a VPN connection to access this information. Otherwise, the pages are protected against basic scraping using libraries like BeautifulSoup in Python.

In [19]:
# Use this initial code to work in the notebook as if it were a module, that 
# is, to be able to export classes and functions from other subpackages.

import os
import sys

package_path = os.path.abspath('.').split(os.sep + 'notebooks')[0]
if package_path not in sys.path:
    sys.path.append(package_path)

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [20]:
import requests
from dotenv import load_dotenv
from IPython.display import Markdown, display

from tuyabot_llm import AbsolutePaths, GetTextWebPages

In [21]:
web_pages = [
    'https://www.tuya.com.co/productos-financieros',
    'https://www.tuya.com.co/tarjetas-de-credito',
    'https://www.tuya.com.co/asistencias-y-seguros',
    'https://www.tuya.com.co/cuenta-digital-tuyapay',
    'https://www.tuya.com.co/credicompras',
    'https://www.tuya.com.co/cdt',
    'https://www.tuya.com.co/otras-soluciones-financieras',
    'https://www.tuya.com.co/nuestra-compania',
    'https://www.tuya.com.co/gobierno-corporativo',
    'https://www.tuya.com.co/responsabilidad-social',
    'https://www.tuya.com.co/atencion-inversionistas',
    'https://www.tuya.com.co/activacion-tarjeta',
    'https://servicios.tuya.com.co/solucionesdepago?utm_source=sitioweb&utm_medium=cpc&utm_campaign=sitioweb_boton_solucionesdepago&utm_term=sitioweb_boton_solucionesdepago&utm_content=sitioweb_boton_solucionesdepago',
    'https://www.tuya.com.co/como-pago-mi-tarjeta-o-credicompras',
    'https://www.tuya.com.co/app-tuya',
    'https://www.tuya.com.co/ofertas',
    'https://www.tuya.com.co/yo-tengo'
]

In [22]:
text_info_pages = {}
for i, p in enumerate(web_pages):
    ed = GetTextWebPages(p)
    text_info_pages[i] = {
                            p: {
                                'title': ed.title,
                                'text': ed.text
                            }
                        }

In [28]:
text_info_pages

{0: {'https://www.tuya.com.co/productos-financieros': {'title': 'Productos financieros | Tuya',
   'text': 'Pasar al contenido principal\nYo tengo\nSoluciones de pago\nTransacciones\nMain navigation\nInicio\nDisfruta\nOfertas\nApp Tuya\nDónde pagas\nProductos y servicios\nTarjeta de crédito\nTarjeta Éxito\nTarjeta Éxito Mastercard\nTarjeta Carulla Gold Mastercard\nTarjeta Carulla Mastercard Black\nTarjeta Viva Mastercard\nTarjeta Club del Comerciante Mastercard\nTarjeta Claro Pay\nCuenta Digital TuyaPay\nCrediCompras\nSeguros y asistencias\nOtras soluciones financieras\nConócenos\nNuestra compañía\nGobierno corporativo\nSostenibilidad\nAtención a inversionistas\nSoluciones de Pago\nActivar Tarjeta\nTrabaja con nosotros\nMenú\nLlámanos\nPreguntas Frecuentes\nBuscar\n¿Dónde consultar?\nLlámanos\nVisítanos\n¿Qué quieres buscar hoy?\nYou must have JavaScript enabled to use this form.\nBuscar\nQuizá estés buscando:\nUsos y beneficios\nExtracto\nPérdida o hurto, solicitudes de quejas y cance

In [30]:
import json

path = AbsolutePaths().get_abs_path_folder('raw')
with open(path + 'text_tuya_pages.json', 'w', encoding='utf-8') as json_file:
    json.dump(text_info_pages, json_file, ensure_ascii=False, indent=4)

print("Dictionary saved as JSON file successfully.")

Dictionary saved as JSON file successfully.


In [31]:
import json

path = AbsolutePaths().get_abs_path_folder('raw')
with open(path + 'text_tuya_pages.json', 'r', encoding='utf-8') as json_file:
    text_info_pages = json.load(json_file)

print("JSON file read successfully.")
print(text_info_pages)

JSON file read successfully.
{'0': {'https://www.tuya.com.co/productos-financieros': {'title': 'Productos financieros | Tuya', 'text': 'Pasar al contenido principal\nYo tengo\nSoluciones de pago\nTransacciones\nMain navigation\nInicio\nDisfruta\nOfertas\nApp Tuya\nDónde pagas\nProductos y servicios\nTarjeta de crédito\nTarjeta Éxito\nTarjeta Éxito Mastercard\nTarjeta Carulla Gold Mastercard\nTarjeta Carulla Mastercard Black\nTarjeta Viva Mastercard\nTarjeta Club del Comerciante Mastercard\nTarjeta Claro Pay\nCuenta Digital TuyaPay\nCrediCompras\nSeguros y asistencias\nOtras soluciones financieras\nConócenos\nNuestra compañía\nGobierno corporativo\nSostenibilidad\nAtención a inversionistas\nSoluciones de Pago\nActivar Tarjeta\nTrabaja con nosotros\nMenú\nLlámanos\nPreguntas Frecuentes\nBuscar\n¿Dónde consultar?\nLlámanos\nVisítanos\n¿Qué quieres buscar hoy?\nYou must have JavaScript enabled to use this form.\nBuscar\nQuizá estés buscando:\nUsos y beneficios\nExtracto\nPérdida o hurto, s

In [32]:
text_info_pages

{'0': {'https://www.tuya.com.co/productos-financieros': {'title': 'Productos financieros | Tuya',
   'text': 'Pasar al contenido principal\nYo tengo\nSoluciones de pago\nTransacciones\nMain navigation\nInicio\nDisfruta\nOfertas\nApp Tuya\nDónde pagas\nProductos y servicios\nTarjeta de crédito\nTarjeta Éxito\nTarjeta Éxito Mastercard\nTarjeta Carulla Gold Mastercard\nTarjeta Carulla Mastercard Black\nTarjeta Viva Mastercard\nTarjeta Club del Comerciante Mastercard\nTarjeta Claro Pay\nCuenta Digital TuyaPay\nCrediCompras\nSeguros y asistencias\nOtras soluciones financieras\nConócenos\nNuestra compañía\nGobierno corporativo\nSostenibilidad\nAtención a inversionistas\nSoluciones de Pago\nActivar Tarjeta\nTrabaja con nosotros\nMenú\nLlámanos\nPreguntas Frecuentes\nBuscar\n¿Dónde consultar?\nLlámanos\nVisítanos\n¿Qué quieres buscar hoy?\nYou must have JavaScript enabled to use this form.\nBuscar\nQuizá estés buscando:\nUsos y beneficios\nExtracto\nPérdida o hurto, solicitudes de quejas y can