# Conversor de Arquivo CSV para JSONL

Este script converte um arquivo CSV contendo colunas de perguntas e respostas em diferentes formatos JSONL,
utilizados para ajuste fino de modelos de IA.

## O que é Ajuste Fino?
Ajuste fino (fine-tuning) é o processo de treinamento adicional de um modelo de IA já existente
com dados específicos, permitindo que ele aprenda padrões e contextos mais específicos para determinada aplicação.

## Formato de Entrada e Saída:
O arquivo CSV deve conter duas colunas:
- `input:` -> Pergunta do usuário
- `output:` -> Resposta correspondente

Os dados serão convertidos para diferentes formatos JSONL para serem utilizados em treinamentos de IA.

1.   Item da lista
2.   Item da lista



## Converte CSV em JSONL

para o seguinte formato:



```
{"input:":"sua pergunta","output:":"A resposta para a pergunta"}
```



In [7]:
import pandas as pd

# Carregar CSV (com colunas 'input' e 'output')
df = pd.read_csv("/content/variacoes_perguntas.csv")

# Salvar como JSONL
df.to_json("formatted_dataset_1.jsonl", orient="records", lines=True)


## Converte CSV em JSONL

para o seguinte formato:



```
{"messages": [{"role": "user", "content": "Sua Pergunta"}, {"role": "assistant", "content": "Resposta para a pergunta"}]}
```



In [8]:
import pandas as pd
import json

# Carregar CSV (com colunas 'input' e 'output')
df = pd.read_csv("/content/variacoes_perguntas.csv")

# Criar lista de mensagens no formato correto
data = []
for _, row in df.iterrows():
    formatted_entry = {
        "messages": [
            {"role": "user", "content": row["input"]},
            {"role": "assistant", "content": row["output"]}
        ]
    }
    data.append(formatted_entry)

# Salvar no formato JSONL correto
with open("formatted_dataset_2.jsonl", "w", encoding="utf-8") as f:
    for entry in data:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")

print("✅ Conversão concluída! Arquivo salvo como 'dataset_corrected.jsonl'.")


✅ Conversão concluída! Arquivo salvo como 'dataset_corrected.jsonl'.


## Converte CSV em JSONL


para o seguinte formato:



```
{"contents": [{"role": "user", "parts": [{"text": "Sua pergunta"}]}, {"role": "model", "parts": [{"text": "Resposta para a pergunta"}]}]}
```


In [9]:
import pandas as pd
import json

# Carregar CSV (com colunas 'input' e 'output')
df = pd.read_csv("/content/variacoes_perguntas.csv")

# Criar lista de mensagens no formato correto
data = []
for _, row in df.iterrows():
    formatted_entry = {
        "contents": [
            {"role": "user", "parts": [{"text": row["input"]}]},  # Entrada do usuário
            {"role": "model", "parts": [{"text": row["output"]}]}  # Resposta do modelo
        ]
    }
    data.append(formatted_entry)

# Salvar no formato JSONL correto
with open("formatted_dataset_3.jsonl", "w", encoding="utf-8") as f:
    for entry in data:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")

print("✅ Conversão concluída! Arquivo salvo como 'dataset_corrected.jsonl'.")


✅ Conversão concluída! Arquivo salvo como 'dataset_corrected.jsonl'.
