# 0.0 Imports

In [2]:
from openai import OpenAI
import pandas as pd
from docx import Document
from dotenv import load_dotenv, find_dotenv
import os
import time
import logging
from datetime import datetime

# 0.1 Load Data

In [3]:
_ = load_dotenv(find_dotenv())


xls_path = '../data/raw/desafioaluno.xlsx'
doc_path = '../data/raw/contexto_aluno.docx'
prompt_path = '../data/raw/system_prompt.docx'
txt_path = '../data/raw/contexto_aluno.txt'



xls = pd.read_excel(xls_path)
doc = Document(doc_path)
prompt = Document(prompt_path)

doc_text ='\n'.join([paragraph.text for paragraph in doc.paragraphs])
prompt_text = '\n'.join([paragraph.text for paragraph in prompt.paragraphs])

In [4]:
client = OpenAI (
api_key = os.getenv('OPEN_API_KEY')
)

In [5]:
def upload_file(file_path):
    """ Faz upload do arquivo para a API da OpenAI """
    with open(file_path, "rb") as file:
        response = client.files.create(
            file=file,
            purpose="assistants"
        )
    return response.id  # Retorna o ID do arquivo para ser usado depois

In [9]:
# ------ Thread ------
thread = client.beta.threads.create(
)

thread_id = thread.id
print(thread_id)

thread_gfM6KnMQqLY9Xqgx4zhfkMFp


In [None]:
client.beta.threads.delete(thread_id)

In [10]:
xls_file_id = upload_file(xls_path)
doc_file_id = upload_file(doc_path)
txt_file_id = upload_file(txt_path)

In [10]:
txt_file_id

'file-EtzyYCnwtPqY18HYTmRnG8'

In [11]:
message = client.beta.threads.messages.create(
    thread_id=thread_id,
    role="user",
    content=[{"type": "text", "text": "Aqui est√° o o relat√≥rio da aluno, e a planilha de solu√ß√£o."}],
    attachments=[{"file_id": txt_file_id, "tools": [{"type": "file_search"}]},
                 {"file_id": xls_file_id, "tools": [{"type":"code_interpreter"}]}] 


)

In [12]:
run = client.beta.threads.runs.create(
    thread_id=thread_id,
    assistant_id='asst_KKUFGJemuqQd9ZE1NdoKt73V'
)

In [13]:
def wait_for_run_completion(client, thread_id, run_id, sleep_interval=5):
    """

    Waits for a run to complete and prints the elapsed time.:param client: The OpenAI client object.
    :param thread_id: The ID of the thread.
    :param run_id: The ID of the run.
    :param sleep_interval: Time in seconds to wait between checks.
    """
    while True:
        try:
            run = client.beta.threads.runs.retrieve(thread_id=thread_id, run_id=run_id)
            if run.completed_at:
                elapsed_time = run.completed_at - run.created_at
                formatted_elapsed_time = time.strftime(
                    "%H:%M:%S", time.gmtime(elapsed_time)
                )
                print(f"Run completed in {formatted_elapsed_time}")
                logging.info(f"Run completed in {formatted_elapsed_time}")
                # Get messages here once Run is completed!
                messages = client.beta.threads.messages.list(thread_id=thread_id)
                last_message = messages.data[0]
                response = last_message.content[0].text.value
                print(f"Assistant Response: {response}")
                break
        except Exception as e:
            logging.error(f"An error occurred while retrieving the run: {e}")
            break
        logging.info("Waiting for run to complete...")
        time.sleep(sleep_interval)


In [14]:
wait_for_run_completion(client=client, thread_id=thread_id, run_id=run.id)

Run completed in 00:00:34
Assistant Response: Segue abaixo a corre√ß√£o do Projeto de An√°lise de Dados realizado pelo aluno, com base nos documentos fornecidos.

### 1. Compreens√£o do Desafio

**Objetivos do Desafio:**
O aluno identificou corretamente que o desafio consistia em realizar uma an√°lise detalhada da SuperStore, focando em tr√™s √°reas principais: reten√ß√£o de clientes (An√°lise de Cohort), segmenta√ß√£o de clientes (RFM) e desempenho de produtos e localiza√ß√µes.

**Crit√©rios de Sucesso:**
Os crit√©rios de sucesso definidos foram abordados de maneira adequada, incluindo a cria√ß√£o de um painel interativo e um relat√≥rio consolidado, focando nas necessidades espec√≠ficas da SuperStore.

### 2. Avalia√ß√£o T√©cnica

**An√°lise do Aluno:**
- **C√°lculos e Gr√°ficos:** A planilha de solu√ß√£o cont√©m a an√°lise de cohort e gr√°ficos apropriados que mostram os dados representativos de reten√ß√£o de clientes. Verificarei a precis√£o dos c√°lculos e gr√°ficos na planilha.
- 

## 1.1 Adicionando os arquivos na cria√ß√£o da thread

In [19]:
wait_for_run_completion(client=client, thread_id=thread2.id, run_id=run2.id)

Run completed in 00:00:17
Assistant Response: ### Feedback sobre o Projeto de An√°lise de Dados

#### 1. Compreens√£o do Desafio
O aluno abordou um problema pr√°tico da SuperStore com foco na reten√ß√£o de clientes, segmenta√ß√£o e desempenho de produtos. As √°reas de an√°lise incluem os crit√©rios de sucesso: an√°lise de cohort, segmenta√ß√£o RFM e desempenho regional dos produtos. O objetivo principal de identificar insights que possam guiar decis√µes estrat√©gicas foi claramente identificado e abordado.

#### 2. Avalia√ß√£o T√©cnica
Baseando-se nos dados fornecidos e no relat√≥rio, a an√°lise pareceu bem estruturada. A planilha deve conter os c√°lculos de reten√ß√£o, distribui√ß√£o de clientes por segmento e an√°lises de vendas por produto e localiza√ß√£o. 

- **C√°lculos**: Precisarei revisar os c√°lculos diretamente para verificar sua precis√£o.
- **Gr√°ficos e Insights**: A descri√ß√£o dos gr√°ficos e insights apresentados no relat√≥rio parece alinhada com os dados, por√©m, a val

In [13]:
file_ids = ["file-JG1N2ZtcwfP88H4ZFWc56e", "file-5SDn7GP229CjJpyuxgTotw"]
THREAD_ID = "thread_jXjv6KlFMfMNlbLsjbeBPBo4"

message = client.beta.threads.messages.create(
    thread_id=THREAD_ID,
    role="user",
    content=[{"type": "text", "text": "Aqui est√° o relat√≥rio e a planilha."}],
    attachments=[{"file_id": 'file-JG1N2ZtcwfP88H4ZFWc56e', "tools": [{"type": "file_search"}]},
                 {"file_id": 'file-5SDn7GP229CjJpyuxgTotw', "tools": [{"type":"code_interpreter"}]}] 


)

In [16]:
thread2 = client.beta.threads.create(
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Aqui est√° o relatorio e a planilha."
        },
      
      ],
      "attachments": [
          {
              "file_id": txt_file_id,
              "tools": [{"type":"file_search"}]
          },
          {
              "file_id": xls_file_id,
              "tools": [{"type":"code_interpreter"}]
          }
      ]
    }
  ]
)

In [17]:
run2 = client.beta.threads.runs.create(
    thread_id=thread2.id,
    assistant_id='asst_KKUFGJemuqQd9ZE1NdoKt73V',
)

In [18]:
thread2.id

'thread_ezaMmUJcYLc85jSYfndvtEAD'

In [34]:
file_ids = ['file-WBXe6LzkeA41shXQ7PdYeQ', 'file-5vhKz2M6ADsaUGChekvqsC']

In [11]:
model = 'gpt-4o-mini'
response = client.beta.threads.create_and_run(
        model=model,
        messages=messages,
        file_ids=[xls_file_id, txt_file_id],  # IDs dos arquivos enviados
        max_tokens=500,
        temperature=0.1
    )

TypeError: Missing required arguments; Expected either ('assistant_id') or ('assistant_id' and 'stream') arguments to be given

# 0.2 Functions

In [7]:
def ler_docx(file_path):
    """L√™ um arquivo .docx e retorna seu conte√∫do como string"""
    doc = Document(file_path)
    texto = "\n".join([paragrafo.text for paragrafo in doc.paragraphs])
    return texto


def get_completion(xls_file_path, doc_text, prompt_text, model="gpt-4o-mini"):

    xls_data = pd.read_excel(xls_file_path)
    xls_text = xls_data.to_string(index=False)

    

    # Criando mensagens
    messages = [
        {"role": "system", "content": prompt_text},
        {"role": "user", "content": f"Aqui est√£o os dois arquivos:\n\nüìÑ **Arquivo Excel:**\n{xls_text}\n\nüìÑ **Arquivo Texto:**\n{doc_text}\n\n"}
    ]

    #Fazendo a requisi√ß√£o para OpenAI
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        max_tokens=500,
        temperature=0.1
    )

    return response.choices[0].message.content
    #return messages

# 1.0 Dev

In [8]:
resultado = get_completion(xls_path, doc_text, prompt_text)
print(resultado)

### Feedback Detalhado sobre o Projeto de An√°lise de Dados

#### 1. Compreens√£o do Desafio
O aluno abordou o desafio de forma adequada, focando nas tr√™s √°reas principais: reten√ß√£o de clientes, segmenta√ß√£o de clientes e desempenho de produtos e localiza√ß√µes. O relat√≥rio apresenta uma an√°lise coerente e insights relevantes, alinhando-se aos objetivos estabelecidos no desafio.

#### 2. Avalia√ß√£o T√©cnica
- **Precis√£o dos C√°lculos e Gr√°ficos**: A an√°lise de cohort foi bem executada, com a apresenta√ß√£o de um heatmap que ilustra a reten√ß√£o de clientes. No entanto, seria interessante incluir uma an√°lise mais detalhada sobre os fatores que influenciam a reten√ß√£o, como sazonalidade e campanhas espec√≠ficas.
- **Segmenta√ß√£o RFM**: A segmenta√ß√£o foi realizada corretamente, mas faltaram gr√°ficos que ilustrassem a distribui√ß√£o dos segmentos de clientes. A inclus√£o de gr√°ficos de barras ou pizza poderia facilitar a visualiza√ß√£o dos dados.
- **Desempenho de Produto