In [8]:
# Instala las librerías contenidas en el archivo requirements. La bandera -q es para que no muestre los mensajes de instalación.
%pip install -r ./requirements.txt -q

Note: you may need to restart the kernel to use updated packages.


Variables de entorno

In [2]:
# Importar librerías os (para acceder a variables de entorno) y dotenv (para cargar variables de entorno desde un archivo .env).
import os
from dotenv import load_dotenv, find_dotenv

In [3]:
# Cargar variables de entorno desde el archivo .env.
load_dotenv('./.env')

True

In [4]:
#  Validar que el archivo .env se haya cargado correctamente obteniendo el valor de la variable de entorno OPENAI_API_KEY.
os.environ.get('OPENAI_API_KEY')

'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'

💡 Es útil emplear la herramienta de `nbdev`, debido a que permiten utilizar git sin enviar los metadatos de las celdas de un notebook. Esto es útil para evitar conflictos en los notebooks cuando se trabaja en equipo.

In [96]:
!nbdev_install_hooks

Hooks are installed.


In [None]:
# Load pandas

import pandas as pd
import scrapy
from scrapy.selector import SelectorList
import os

In [None]:
# Leer archivo HTML, que contiene los nombrs de las variables de nuestro dataset
# y seleccionar las filas de la tabla

ruta = './variables.html'
doc = scrapy.Selector(
    text=open(ruta, 'r', encoding='utf-8').read()
)
# Para ver la razón de por qué usar esta expresión de xpath, ver: https://devhints.io/xpath
filas_tabla = doc.xpath("//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]")
print(filas_tabla)

In [91]:
"""
La estructura de una fila de la tabla es más o menos así:

<div>
    <div>
        <form></form>
        <span></span>
        <a>
            Nombre_de_la_variable_en_dataset
        </a>
    </div>
</div>
<div>
    <div>
        <p>
            <em>
                Nombre_completo_variable
            </em>
        </p>
        <p>
            Descripción_variable
        </p>
    </div>
    <div>
    </div>
</div>
"""

def formatear_texto(texto: str):

    """
    Reemplaza cadenas de espacios en blanco por un solo espacio
    y saltos de línea por un espacio.
    """

    return ' '.join(texto.split()).replace('\n', ' ').strip()

def parsear_variables(variables: SelectorList):
    
    for fila in filas_tabla:

        nombre_var_dataset = fila.css('a::text').get().strip()
        nombre_var_completo = fila.css('em::text').get().strip()
        nombre_var_completo = f'\"{formatear_texto(nombre_var_completo)}\"'
        descripcion_var = fila.css('p')[1].css('::text').get().strip()
        descripcion_var = f'\"{formatear_texto(descripcion_var)}\"'

        yield (nombre_var_dataset, nombre_var_completo, descripcion_var)
        

In [None]:
ruta_archivo_variables = './datasets/variables.csv'

# Crea un archivo con las variables a partir del generador
def crear_archivo_variables(variables: SelectorList):
    
    with open(ruta_archivo_variables, 'w') as archivo:

        # Escribe el encabezado
        archivo.write('id,nombre,desc\n')

        # Escribe las variables
        for variable in parsear_variables(variables):
            archivo.write(','.join(variable) + '\n')

In [92]:
# Crea el archivo si no existe
if not os.path.exists(ruta_archivo_variables):
    
    os.makedirs(
        os.path.dirname(
            ruta_archivo_variables
        ),
        exist_ok=True
    )

# Escribe las variables en el archivo
crear_archivo_variables(filas_tabla)

##### Selección de variables

In [1]:
file_path = './datasets/variables.csv'

In [13]:
from langchain.agents.agent_types import AgentType
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI
from langchain_experimental.agents.agent_toolkits import create_csv_agent

# Crear un agente de chatbot usando el modelo GPT-4 de OpenAI. Este agente responderá preguntas basadas en los datos del CSV. Pasamos la ruta del archivo CSV y la consulta del usuario al agente.
agent = create_csv_agent(OpenAI(model_name='gpt-4', temperature=0.5, max_tokens=1024), file_path, verbose=True)



In [14]:
prompt = """
Please tell me, exclusively keeping the tabular format of the data you now know, which of the variables in the table relate directly or indirectly to the following terms:

menpause, estradiol, estrogen, diet, alcohol, tobacco, diabetes, bone, cardiovascular, ovulation, hormones, cognition, age, exercise, obesity, substances, genes, well-being, stress, race, libido, sexuality, cortisol, hot flashes, irregularity, flushing, skeletal, menarche, menstruation
"""

In [15]:
import json

In [17]:
response = agent.run(prompt)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: I need to find out which of these terms appear in the 'nombre' or 'desc' columns of the dataframe. I can do this by iterating through each term and checking if it is in either of these columns. I'll create a dictionary where the keys are the terms and the values are the variable names that relate to them.
Action: python_repl_ast
Action Input: 
```python
terms = ["menpause", "estradiol", "estrogen", "diet", "alcohol", "tobacco", "diabetes", "bone", "cardiovascular", "ovulation", "hormones", "cognition", "age", "exercise", "obesity", "substances", "genes", "well-being", "stress", "race", "libido", "sexuality", "cortisol", "hot flashes", "irregularity", "flushing", "skeletal", "menarche", "menstruation"]

related_variables = {}

for term in terms:
    related_variables[term] = df[df['nombre'].str.contains(term, case=False) | df['desc'].str.contains(term, case=False)]['id'].tolist()

related_variables
```[0m
Observation

In [19]:
with open('./datasets/response_test.txt', 'w') as file:
    file.write(response)