### Experimentos y analisis de gpt3-5 y gpt4 para incorporar a la automatizacion de tareas 

# Análisis de IA Generativa para incorporar a Klearty

En este análisis, se exploran pruebas con distintos *prompts* y conjuntos de datos. Hasta ahora, se han diseñado tres funciones principales:

1. **Clusterización de Variables Categóricas**: Agrupa variables categóricas para simplificar los modelos y mejorar su interpretabilidad.
2. **Selección de Variables**: Identifica las variables menos relevantes para los modelos, ayudando a reducir la dimensión del conjunto de datos.
3. **Explicación del Modelo**: Proporciona insights sobre cómo el modelo toma decisiones, lo cual es crucial para la interpretación de los resultados.

Se espera expandir estas funcionalidades para analizar más aspectos de los datos, como la informacion del EDA , y el modelo para entender mejor las métricas de los modelos. Esto permitirá ofrecer explicaciones o sugerencias de mayor calidad. Además, se considera la posibilidad de incorporar análisis para mejorar la detección de anomalías, generar más datos y, en caso de contar con reseñas o quejas, extraer información procesable para los modelos de Machine Learning.

Este análisis demuestra el potencial de estas herramientas para automatizar tareas que tradicionalmente requerían un proceso manual por parte de los científicos de datos. Se destaca un interesante salto de calidad entre las versiones GPT-3 y GPT-4, así como también en la diferencia de precio entre ambas.

Un punto a considerar es que la respuesta de la API puede superar los 30 segundos, y es habitual encontrar momentos en los que no funciona adecuadamente.

Por estas razones, se sugiere que estos modelos de IA Generativa se vean como un version de mayor calidad en nuestros procesos actuales. El objetivo es mejorar la calidad de los datos con los que entrenamos los modelos, lo cual, a su vez, debería reflejarse en una mejora de las métricas de los mismos.


## Importamos librerias

In [36]:
import numpy as np # linear algebra
import pandas as pd

In [37]:
from parametros import *

## Leemos archivo

Asumimos que nos da un archivos y un nombre de archivo ( Caso solo csv)

In [38]:
def read_file(file_name,file_path):
    
    if file_name.split('.')[-1]=='csv':
        df = pd.read_csv(file_path)
        print("el archivo se pudo leer con exito")
        return df
    else:
        print("la extencion del archivo no es valida")


In [42]:
file_name = "WA_Fn-UseC_-Telco-Customer-Churn.csv"
file_path = "datos_input/WA_Fn-UseC_-Telco-Customer-Churn.csv"

df = read_file(file_name,file_path)
df.head(3)

el archivo se pudo leer con exito


Unnamed: 0,Unnamed: 0.11,Unnamed: 0.10,Unnamed: 0.9,Unnamed: 0.8,Unnamed: 0.7,Unnamed: 0.6,Unnamed: 0.5,Unnamed: 0.4,Unnamed: 0.3,Unnamed: 0.2,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,0,0,0,0,0,0,0,0,0,0,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,1,1,1,1,1,1,1,1,1,1,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,2,2,2,2,2,2,2,2,2,2,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes


In [41]:
def set_target(df,target):
    df.rename(columns = {target:'y'}, inplace = True)
    return df

## Generamos Informacion basica del dataset

In [43]:
print("Nombre del archivo:",file_name.split('.')[0])

shape = df.shape
print("Cantidad de filas:",shape[0],"\nCantidad de columnas:",shape[1])

print("Nombres de columnas:", list(df.columns))

total_null_value = df.isnull().sum().sum()
pct_null_value = total_null_value / (shape[0]*shape[1])
print("Cantidad de valores nulos",total_null_value)
print("Porcentaje de valores nulos",pct_null_value)



Nombre del archivo: WA_Fn-UseC_-Telco-Customer-Churn
Cantidad de filas: 7043 
Cantidad de columnas: 33
Nombres de columnas: ['Unnamed: 0.11', 'Unnamed: 0.10', 'Unnamed: 0.9', 'Unnamed: 0.8', 'Unnamed: 0.7', 'Unnamed: 0.6', 'Unnamed: 0.5', 'Unnamed: 0.4', 'Unnamed: 0.3', 'Unnamed: 0.2', 'Unnamed: 0.1', 'Unnamed: 0', 'customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn']
Cantidad de valores nulos 0
Porcentaje de valores nulos 0.0


### OPEN AI - Prompt Engeniering para el analisis de datos

In [92]:
!pip install openai==0.28

Collecting openai==0.28
  Obtaining dependency information for openai==0.28 from https://files.pythonhosted.org/packages/ae/59/911d6e5f1d7514d79c527067643376cddcf4cb8d1728e599b3b03ab51c69/openai-0.28.0-py3-none-any.whl.metadata
  Downloading openai-0.28.0-py3-none-any.whl.metadata (13 kB)
Downloading openai-0.28.0-py3-none-any.whl (76 kB)
   ---------------------------------------- 0.0/76.5 kB ? eta -:--:--
   ----- ---------------------------------- 10.2/76.5 kB ? eta -:--:--
   ---------------------------------------- 76.5/76.5 kB 850.1 kB/s eta 0:00:00
Installing collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 1.12.0
    Uninstalling openai-1.12.0:
      Successfully uninstalled openai-1.12.0
Successfully installed openai-0.28.0


Generamos una funcion que determine  categorias mas generarales para las variables categoricas de mas de 6 elementos. Esto va a servir para la parte de la limpieza de datos. EJ Bs AS y buenos aires . Y  por otro lado va a hacer una tarea similar a los embedings. Pensemos en un analista 

In [30]:
profesiones_comunes = [
    "Médico", "Ingeniero", "Profesor", "Enfermero/a", "Dentista", "Psicólogo", "Policía", "Bombero/a", "Chef", "Mecánico",
    "Electricista", "Peluquero/a", "Actor/Actriz", "Cantante", "Escritor", "Diseñador gráfico", "Programador", "Periodista", "Agricultor", "Veterinario"
]


In [8]:
import openai
import os

openai.api_key  = "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"

def get_completion(prompt, model="gpt-3.5-turbo"):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0, # this is the degree of randomness of the model's output
    )
    return response.choices[0].message["content"]

prompt = f"""Agrupa los objetos en categorías basadas en su similitud, sin límite predefinido en el número de categorías. Asegúrate de que los objetos dentro de cada categoría sean similares. Genera el resultado en formato JSON donde para cada categoría aparezca un nombre representativo y como valor una lista de los objetos que están dentro de esa categoría. Cada categoría debe tener un nombre que refleje lo que representa. Lista de objetos: {profesiones_comunes}"""

response = get_completion(prompt)
print(response)

{
  "Categoría 1": ["Médico", "Enfermero/a", "Dentista", "Psicólogo", "Veterinario"],
  "Categoría 2": ["Ingeniero", "Programador", "Diseñador gráfico"],
  "Categoría 3": ["Profesor", "Periodista"],
  "Categoría 4": ["Policía", "Bombero/a"],
  "Categoría 5": ["Chef"],
  "Categoría 6": ["Mecánico", "Electricista"],
  "Categoría 7": ["Peluquero/a"],
  "Categoría 8": ["Actor/Actriz", "Cantante", "Escritor"],
  "Categoría 9": ["Agricultor"]
}


In [28]:
prompt = f"""Agrupa los objetos en categorías basadas en su similitud, sin límite predefinido en el número de categorías. Asegúrate de que los objetos dentro de cada categoría sean similares. Genera el resultado en formato JSON donde para cada categoría aparezca un nombre representativo y como valor una lista de los objetos que están dentro de esa categoría. Cada categoría debe tener un nombre que refleje lo que representa. Lista de objetos: {profesiones_comunes}"""
response = str(categorias)


In [6]:
def estimar_tokens(prompt):
    # Tokenización simple basada en espacios y signos de puntuación comunes
    palabras = prompt.replace('\n', ' ').replace('.', ' ').replace(',', ' ').replace('?', ' ').replace('!', ' ').split()
    num_tokens = len(palabras)  # Cada palabra se considera un token
    return num_tokens

In [29]:
prompt_tokens = estimar_tokens(prompt)
print("prompt_tokens",prompt_tokens)
output_tokens = estimar_tokens(response)
print("output_tokens",output_tokens)

costo = round(calcular_costo(prompt_tokens,output_tokens),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

prompt_tokens 91
output_tokens 39
costo en dolares:  0.00051 costo en pesos:  0.663


In [21]:
def calcular_costo(input_tokens, output_tokens):
    costo_por_input = 0.0030  # Costo por cada 1K tokens de entrada
    costo_por_output = 0.0060  # Costo por cada 1K tokens de salida

    costo_total = (input_tokens * costo_por_input / 1000) + (output_tokens * costo_por_output / 1000)
    
    return costo_total

costo = round(calcular_costo(91,39),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )


costo en dolares:  0.00051 costo en pesos:  0.663


### Agrego mensaje al dicc que indica como hizo la separacion 

In [22]:
prompt = f"""Clasifica la siguiente lista de objetos en categorías según sus similitudes, sin un límite específico de categorías.
Garantiza la homogeneidad dentro de cada categoría.
El resultado debe presentarse en un formato JSON,
donde cada categoría esté identificada por un nombre descriptivo y contenga una lista de los objetos pertenecientes.
El nombre de cada categoría debe reflejar claramente las características comunes de sus miembros.
Incluye además un mensaje breve que explique el criterio utilizado para la clasificación,
 limitado a una oración. Lista de objetos:{profesiones_comunes}"""

response = get_completion(prompt)
print(response)



{
  "Profesiones de la salud": ["Médico", "Enfermero/a", "Dentista", "Psicólogo", "Veterinario"],
  "Profesiones técnicas": ["Ingeniero", "Mecánico", "Electricista", "Diseñador gráfico", "Programador"],
  "Profesiones educativas": ["Profesor"],
  "Profesiones de servicio y protección": ["Policía", "Bombero/a"],
  "Profesiones artísticas": ["Actor/Actriz", "Cantante", "Escritor"],
  "Profesiones relacionadas con la alimentación": ["Chef"],
  "Profesiones relacionadas con la estética": ["Peluquero/a"],
  "Profesiones relacionadas con los medios de comunicación": ["Periodista"],
  "Profesiones relacionadas con la agricultura": ["Agricultor"]
}

Criterio utilizado para la clasificación: Se agruparon los objetos según su campo de trabajo o área de especialización.


In [24]:
prompt_tokens = estimar_tokens(prompt)
print("prompt_tokens",prompt_tokens)
output_tokens = estimar_tokens(response)
print("output_tokens",output_tokens)

costo = round(calcular_costo(prompt_tokens,output_tokens),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

prompt_tokens 103
output_tokens 78
costo en dolares:  0.00078 costo en pesos:  1.014


In [13]:
categorias = {
    "Categoría 1": ["Médico", "Enfermero/a", "Dentista", "Psicólogo", "Veterinario"],
    "Categoría 2": ["Ingeniero", "Programador", "Diseñador gráfico"],
    "Categoría 3": ["Profesor", "Periodista"],
    "Categoría 4": ["Policía", "Bombero/a"],
    "Categoría 5": ["Chef"],
    "Categoría 6": ["Mecánico", "Electricista"],
    "Categoría 7": ["Peluquero/a"],
    "Categoría 8": ["Actor/Actriz", "Cantante", "Escritor"],
    "Categoría 9": ["Agricultor"]
}

str( categorias)

"{'Categoría 1': ['Médico', 'Enfermero/a', 'Dentista', 'Psicólogo', 'Veterinario'], 'Categoría 2': ['Ingeniero', 'Programador', 'Diseñador gráfico'], 'Categoría 3': ['Profesor', 'Periodista'], 'Categoría 4': ['Policía', 'Bombero/a'], 'Categoría 5': ['Chef'], 'Categoría 6': ['Mecánico', 'Electricista'], 'Categoría 7': ['Peluquero/a'], 'Categoría 8': ['Actor/Actriz', 'Cantante', 'Escritor'], 'Categoría 9': ['Agricultor']}"

### Prueba con gpt4

In [32]:
import openai
import os

openai.api_key  = "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"

def get_completion(prompt, model="gpt-4"):
    messages = [{"role": "user", "content": prompt}]
    response = openai.ChatCompletion.create(
        model=model,
        messages=messages,
        temperature=0, # this is the degree of randomness of the model's output
    )
    return response.choices[0].message["content"]

prompt = f"""Agrupa los objetos en categorías basadas en su similitud, sin límite predefinido en el número de categorías. Asegúrate de que los objetos dentro de cada categoría sean similares. Genera el resultado en formato JSON donde para cada categoría aparezca un nombre representativo y como valor una lista de los objetos que están dentro de esa categoría. Cada categoría debe tener un nombre que refleje lo que representa. Lista de objetos: {profesiones_comunes}"""

response = get_completion(prompt)
print(response)

{
    "Profesiones de la Salud": ["Médico", "Enfermero/a", "Dentista", "Psicólogo", "Veterinario"],
    "Profesiones de la Ingeniería y Tecnología": ["Ingeniero", "Mecánico", "Electricista", "Programador"],
    "Profesiones de la Educación": ["Profesor"],
    "Profesiones de la Seguridad": ["Policía", "Bombero/a"],
    "Profesiones de la Gastronomía": ["Chef"],
    "Profesiones de la Belleza y Estética": ["Peluquero/a"],
    "Profesiones del Arte y Entretenimiento": ["Actor/Actriz", "Cantante", "Escritor"],
    "Profesiones del Diseño": ["Diseñador gráfico"],
    "Profesiones de la Comunicación": ["Periodista"],
    "Profesiones de la Agricultura": ["Agricultor"]
}


In [33]:
prompt = f"""Clasifica la siguiente lista de objetos en categorías según sus similitudes, sin un límite específico de categorías.
Garantiza la homogeneidad dentro de cada categoría.
El resultado debe presentarse en un formato JSON,
donde cada categoría esté identificada por un nombre descriptivo y contenga una lista de los objetos pertenecientes.
El nombre de cada categoría debe reflejar claramente las características comunes de sus miembros.
Incluye además un mensaje breve que explique el criterio utilizado para la clasificación,
 limitado a una oración. Lista de objetos:{profesiones_comunes}"""

response2 = get_completion(prompt)
print(response2)


{
    "Profesiones de la salud": ["Médico", "Enfermero/a", "Dentista", "Psicólogo", "Veterinario"],
    "Profesiones de la educación": ["Profesor"],
    "Profesiones de seguridad y emergencias": ["Policía", "Bombero/a"],
    "Profesiones de servicios": ["Chef", "Peluquero/a"],
    "Profesiones técnicas y de ingeniería": ["Ingeniero", "Mecánico", "Electricista", "Programador"],
    "Profesiones creativas y de entretenimiento": ["Actor/Actriz", "Cantante", "Escritor", "Diseñador gráfico"],
    "Profesiones de comunicación": ["Periodista"],
    "Profesiones de la agricultura": ["Agricultor"]
}

Mensaje: Las profesiones se han clasificado en categorías basadas en el campo de trabajo y las habilidades requeridas.


In [34]:
def calcular_costo_gpt4(input_tokens, output_tokens):
    costo_por_input = 0.03  # Costo por cada 1K tokens de entrada
    costo_por_output = 0.06  # Costo por cada 1K tokens de salida

    costo_total = (input_tokens * costo_por_input / 1000) + (output_tokens * costo_por_output / 1000)
    
    return costo_total

costo = round(calcular_costo_gpt4(91,39),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

costo en dolares:  0.00507 costo en pesos:  6.591


In [35]:
prompt_tokens = estimar_tokens(prompt)
print("prompt_tokens",prompt_tokens)
output_tokens = estimar_tokens(response2)
print("output_tokens",output_tokens)

costo = round(calcular_costo_gpt4(prompt_tokens,output_tokens),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

prompt_tokens 103
output_tokens 74
costo en dolares:  0.00753 costo en pesos:  9.789


### Prueba seleccion de variables

In [44]:
new_df = df

In [46]:
df_string = new_df.head(2).to_string()
df_string
print(estimar_tokens(df_string))

133


In [47]:
prompt = f"""Dado el siguiente DataFrame con una muestra de dos filas y varias columnas,
identifica qué columnas podrían ser innecesarias para un análisis en el que la columna 'y'
es la variable objetivo.
Considera factores como redundancia de datos, relevancia para la predicción de la variable objetivo,
y cualquier otro criterio analítico que consideres pertinente. Retorna el resultado en un formato JSON,
especificando las columnas a eliminar y proporciona una breve explicación de por qué deberían ser eliminadas.
Ejemplo de DataFrame: {df_string}"""

response3 = get_completion(prompt)
print(response3)

{
  "columnas_a_eliminar": [
    "Unnamed: 0.11",
    "Unnamed: 0.10",
    "Unnamed: 0.9",
    "Unnamed: 0.8",
    "Unnamed: 0.7",
    "Unnamed: 0.6",
    "Unnamed: 0.5",
    "Unnamed: 0.4",
    "Unnamed: 0.3",
    "Unnamed: 0.2",
    "Unnamed: 0.1",
    "Unnamed: 0",
    "customerID"
  ],
  "razones": [
    "Las columnas 'Unnamed: 0.x' parecen ser índices redundantes que no aportan información útil para la predicción de la variable objetivo 'y'.",
    "La columna 'customerID' es un identificador único para cada cliente y no tiene relevancia predictiva para la variable objetivo."
  ]
}


In [48]:
prompt_tokens = estimar_tokens(prompt)
print("prompt_tokens",prompt_tokens)
output_tokens = estimar_tokens(response3)
print("output_tokens",output_tokens)

costo = round(calcular_costo_gpt4(prompt_tokens,output_tokens),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

prompt_tokens 213
output_tokens 87
costo en dolares:  0.01161 costo en pesos:  15.093


### Analisis final del resultado

In [50]:
modelo = "RandomForest"
Accuracy = "79"
principal_variables  = str(["TotalCharges", "MonthlyCharges", "tenure", "Contract", "PaymentMethod", "OnlineSecurity", "TechSupport", "gender", "PaperlessBilling", "InternetService"])
df_string = new_df.head(2).to_string()

In [52]:
prompt = f"""Quiero que realices un análisis exhaustivo de un modelo de ML que hemos desarrollado para realizar Churn y determianar si un cliente se va a ir. Aquí tienes los detalles relevantes del modelo y los datos:

- Modelo utilizado: {modelo}.
- Accuracy del modelo: {Accuracy}.
- Las 10 variables más explicativas identificadas son: {Accuracy}.
- Ejemplo del DataFrame utilizado (dos filas de muestra): {df_string}.

Basado en esta información, por favor, realiza las siguientes tareas:
1. **Análisis Técnico**: Evalúa la efectividad del modelo considerando su accuracy y las variables más explicativas. Ofrece una interpretación de por qué estas variables son importantes para el objetivo del modelo.
2. **Análisis de Negocio**: Basado en el análisis técnico, proporciona un análisis de negocios sobre cómo este modelo puede ser aplicado para generar valor en [especificar el contexto del negocio, como aumentar las ventas, reducir costos, mejorar la satisfacción del cliente, etc.]. Incluye posibles estrategias y acciones recomendadas.
3. **Sugerencias de Mejora**: Proporciona recomendaciones sobre cómo podemos mejorar el modelo o los datos para aumentar la precisión y la relevancia del negocio.

Por favor, presenta tus hallazgos y recomendaciones en un formato estructurado que podamos utilizar para informar nuestras decisiones de negocio."""



response4 = get_completion(prompt)
print(response4)

1. **Análisis Técnico**:

El modelo RandomForest tiene una precisión del 79%, lo que indica que el modelo es capaz de predecir correctamente si un cliente se irá o no en el 79% de los casos. Sin embargo, la precisión por sí sola no es suficiente para evaluar la efectividad del modelo. Sería útil conocer otras métricas como la sensibilidad, la especificidad, el valor predictivo positivo y negativo, y el área bajo la curva ROC.

En cuanto a las variables más explicativas, parece haber un error en los datos proporcionados ya que se menciona que son "79". Sin embargo, basándonos en el DataFrame proporcionado, algunas variables que podrían ser importantes para predecir el churn podrían ser 'tenure' (tiempo que el cliente ha estado con la empresa), 'Contract' (tipo de contrato del cliente), 'MonthlyCharges' (cargos mensuales) y 'TotalCharges' (cargos totales). Estas variables podrían ser importantes porque los clientes que han estado con la empresa durante más tiempo, tienen contratos a larg

In [54]:
prompt_tokens = estimar_tokens(prompt)
print("prompt_tokens",prompt_tokens)
output_tokens = estimar_tokens(response4)
print("output_tokens",output_tokens)

costo = round(calcular_costo_gpt4(prompt_tokens,output_tokens),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

prompt_tokens 330
output_tokens 404
costo en dolares:  0.03414 costo en pesos:  44.382


### Otro dataset

In [55]:
file_name = "Customer-Churn-Records.csv"
file_path = "datos_input/Customer-Churn-Records.csv"

df2 = read_file(file_name,file_path)
df2.head(3)

el archivo se pudo leer con exito


Unnamed: 0.3,Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,...,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Complain,Satisfaction Score,Card Type,Point Earned
0,0,0,0,1,15634602,Hargrave,619,France,Female,42,...,0.0,1,1,1,101348.88,1,1,2,DIAMOND,464
1,1,1,1,2,15647311,Hill,608,Spain,Female,41,...,83807.86,1,0,1,112542.58,0,1,3,DIAMOND,456
2,2,2,2,3,15619304,Onio,502,France,Female,42,...,159660.8,3,1,0,113931.57,1,1,3,DIAMOND,377


In [56]:
df_string = df2.head(2).to_string()

In [59]:
prompt = f"""Dado el siguiente DataFrame con una muestra de dos filas y varias columnas,
identifica qué columnas podrían ser innecesarias para un análisis en el que la columna 'y'
es la variable objetivo.
Considera factores como redundancia de datos, relevancia para la predicción de la variable objetivo,
y cualquier otro criterio analítico que consideres pertinente. Retorna el resultado en un formato JSON,
especificando las columnas a eliminar como una lista y las que tal vez deberia eliminar con otra lista y proporciona una breve explicación de por qué deberían ser eliminadas.
Ejemplo de DataFrame: {df_string}"""

response3 = get_completion(prompt)
print(response3)

{
  "columnas_a_eliminar": ["Unnamed: 0.2", "Unnamed: 0.1", "Unnamed: 0", "RowNumber", "CustomerId", "Surname"],
  "columnas_a_considerar": ["HasCrCard", "IsActiveMember", "Complain", "Card Type"],
  "razones": {
    "eliminar": {
      "Unnamed: 0.2": "Esta columna parece ser un índice redundante.",
      "Unnamed: 0.1": "Esta columna parece ser un índice redundante.",
      "Unnamed: 0": "Esta columna parece ser un índice redundante.",
      "RowNumber": "Esta columna parece ser un índice redundante.",
      "CustomerId": "El ID del cliente no debería tener un impacto en la variable objetivo 'y'.",
      "Surname": "El apellido del cliente no debería tener un impacto en la variable objetivo 'y'."
    },
    "considerar": {
      "HasCrCard": "Dependiendo del contexto, tener una tarjeta de crédito podría no ser relevante para la variable objetivo 'y'.",
      "IsActiveMember": "Dependiendo del contexto, ser un miembro activo podría no ser relevante para la variable objetivo 'y'.",
   

In [60]:
prompt_tokens = estimar_tokens(prompt)
print("prompt_tokens",prompt_tokens)
output_tokens = estimar_tokens(response3)
print("output_tokens",output_tokens)

costo = round(calcular_costo_gpt4(prompt_tokens,output_tokens),5)
print("costo en dolares: ",costo,"costo en pesos: ",costo*1300 )

prompt_tokens 170
output_tokens 179
costo en dolares:  0.01584 costo en pesos:  20.592
