## 📋 Requerimientos

In [1]:
# Instala las librerías contenidas en el archivo requirements. La bandera -q es para que no muestre los mensajes de instalación.
%pip install -r ./requirements.txt -q

Note: you may need to restart the kernel to use updated packages.


💡 Es útil emplear la herramienta de `nbdev`, debido a que permiten utilizar git sin enviar los metadatos de las celdas de un notebook. Esto es útil para evitar conflictos en los notebooks cuando se trabaja en equipo.

In [1]:
!nbdev_install_hooks

Hooks are installed.


## 🌐 Variables de Entorno

In [11]:
# Importar librerías os (para acceder a variables de entorno) 
# y dotenv (para cargar variables de entorno desde un archivo .env).
import os
from dotenv import load_dotenv, find_dotenv

In [12]:
# Cargar variables de entorno desde el archivo .env.
load_dotenv('./.env')

True

## ⛏ Mineria de Datos

In [4]:
# Importar librerías pandas y scrapy.
import pandas as pd
import scrapy
from scrapy.selector import SelectorList

In [5]:
# Leer archivo HTML, que contiene los nombres de las variables de nuestro dataset
# y seleccionar las filas de la tabla.

ruta = './variables.html'
doc = scrapy.Selector(
    text=open(ruta, 'r', encoding='utf-8').read()
)

filas_tabla = doc.xpath("//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]")
print(filas_tabla)

[<Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Selector query="//div[contains(concat(' ',normalize-space(@class),' '),' searchResult ')]" data='<div class="searchResult row border-b...'>, <Sele

Para ver la razón de por qué usar la anterior expresión de xpath, consultar la siguiente [Xpath cheatsheet](https://devhints.io/xpath). 📄

A continuación, se toma en cuenta la estructura de una fila de la tabla de datos de la página web:
```html
<div>
    <div>
        <form></form>
        <span></span>
        <a>
            Nombre_de_la_variable_en_dataset
        </a>
    </div>
</div>
<div>
    <div>
        <p>
            <em>
                Nombre_completo_variable
            </em>
        </p>
        <p>
            Descripción_variable
        </p>
    </div>
    <div>
    </div>
</div>
```

In [11]:

def formatear_texto(texto: str):

    """
    Reemplaza cadenas de espacios en blanco por un solo espacio
    y saltos de línea por un espacio.
    """

    return ' '.join(texto.split()).replace('\n', ' ').strip()

def parsear_variables(variables: SelectorList):
    
    """
    Recibe una lista de variables y devuelve una tupla con el
    nombre de la variable, el nombre completo de la variable
    y la descripción de la variable.
    """
    
    for fila in filas_tabla:

        nombre_var_dataset = fila.css('a::text').get().strip()
        nombre_var_completo = fila.css('em::text').get().strip().replace('\"', '')
        nombre_var_completo = f'\"{formatear_texto(nombre_var_completo)}\"'
        descripcion_var = fila.css('p')[1].css('::text').get().strip().replace('\"', '')
        descripcion_var = f'\"{formatear_texto(descripcion_var)}\"'

        yield (nombre_var_dataset, nombre_var_completo, descripcion_var)
        

In [12]:
ruta_archivo_variables = './datasets/variables.csv'

# Crea un archivo con las variables a partir del generador
def crear_archivo_variables(variables: SelectorList):
    
    """
    Recibe una lista de variables y crea un archivo CSV con ellas.
    """
    
    with open(ruta_archivo_variables, 'w') as archivo:

        # Escribe el encabezado
        archivo.write('id,nombre,desc\n')

        # Escribe las variables
        for variable in parsear_variables(variables):
            archivo.write(','.join(variable) + '\n')

In [13]:
# Crea el archivo si no existe
if not os.path.exists(ruta_archivo_variables):
    
    os.makedirs(
        os.path.dirname(
            ruta_archivo_variables
        ),
        exist_ok=True
    )

# Escribe las variables en el archivo
crear_archivo_variables(filas_tabla)

### 🤖 Selección de Variables

In [13]:
file_path = './datasets/variables.csv'

In [48]:
from langchain.agents.agent_types import AgentType
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI
from langchain_experimental.agents.agent_toolkits import create_csv_agent

# Crear un agente de chatbot usando el modelo GPT-4 de OpenAI. Este agente responderá preguntas basadas en los datos del CSV. Pasamos la ruta del archivo CSV y la consulta del usuario al agente.
agent = create_csv_agent(
    ChatOpenAI(model='gpt-4-1106-preview', temperature=0.5, max_tokens=4096),
    file_path,
    verbose=True
)

In [60]:
prompt = """
Please tell me, exclusively keeping a object format of the data you now know (with terms as keys and the variables id as values), which of the variables in the table relate directly or indirectly to the following terms:
menopause, estradiol, estrogen, diet, alcohol, tobacco, diabetes, bone, cardiovascular, ovulation, hormones, cognition, age, exercise, obesity, substances, genes, well-being, stress, race, libido, sexuality, cortisol, hot flashes, irregularity, flushing, skeletal, menarche, menstruation
"""

prompt += " using tool python_repl_ast"

In [61]:
response = agent.run(prompt)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To answer this question, I will need to search the 'nombre' and 'desc' columns of the dataframe `df` for each term provided. I will iterate through the list of terms and check if any of them appear in these columns. I will then collect the 'id' values of the rows where these terms are found. Since I don't have the actual dataframe, I will need to simulate this process using a hypothetical dataframe that matches the structure of the provided `df.head()` output.

Action: I will write a Python function to simulate searching for the terms in a dataframe and then call this function with the provided terms.

Action Input:
```python
import pandas as pd

# Simulated dataframe based on the provided df.head() output
data = {
    'id': ['FORMPHY9', 'FORMINT9', 'ABBLEED9', 'ACTIPAN9', 'ACUPUNC9'],
    'nombre': [
        'Abbreviated or Full Physical Measures',
        'Abbreviated, mailed or regular interview',
        'Abnorma

In [62]:
from datetime import datetime

# Obtener la marca de tiempo actual.
timestamp = datetime.now().strftime('%Y%m%d%H%M%S')

# Definir el nombre del archivo de salida.
file_name = f'./datasets/ai_response_var_{timestamp}.txt'

with open(file_name, 'w') as file:
    file.write(response)
