### Verificação do arquivo original após a randomização

In [1]:
import pandas as pd
import numpy as np
import csv

def verificar_colunas():
    """
    Verifica a estrutura do arquivo CSV, mostrando informações sobre as colunas
    e garantindo que as vírgulas dentro das frases sejam protegidas.
    """
    input_path = "../dados/MQD_1465_randomizado.csv"
    
    # Primeiro, vamos verificar a estrutura do arquivo
    try:
        # Lê o arquivo usando o parâmetro quoting para proteger campos entre aspas
        df = pd.read_csv(
            input_path,
            sep='\t',  # Usa tab como separador para evitar problemas com vírgulas
            quoting=csv.QUOTE_ALL,
            quotechar='"',
            encoding='utf-8'
        )
        
        print("Informações sobre o arquivo:")
        print(f"Total de registros: {len(df)}")
        print(f"Total de colunas: {len(df.columns)}")
        
        print("\nNomes das colunas:")
        for i, col in enumerate(df.columns):
            print(f"{i}: {col}")
            
        print("\nAmostra dos dados:")
        print(df.head())

        
        return df
        
    except Exception as e:
        print(f"Erro ao ler o arquivo: {str(e)}")
        return None

# Executa a verificação
df = verificar_colunas()

Informações sobre o arquivo:
Total de registros: 1465
Total de colunas: 4

Nomes das colunas:
0: id
1: frase
2: classificacao
3: juizes

Amostra dos dados:
     id                                              frase  classificacao  \
0  1039  Você sabia que o menino que mais vai te dar va...              1   
1   213  Hoje com 21 anos, como que por auxilio lá do a...              0   
2   314  Nesse momento to evitando ela, e ta me dando u...             -1   
3   598  Meus sentidos de garota diziam que tinha algum...             -1   
4   931  Aquela promessa que eu te fiz naquele natal, e...              1   

   juizes  
0       2  
1       2  
2       3  
3       3  
4       3  


### Limpeza do arquivo randomizado com identificação dos blocos

In [1]:
import pandas as pd
import csv

def processar_arquivo_randomizado():
    """
    Processa o arquivo randomizado aplicando as seguintes transformações:
    1. Renomeia a coluna id para id_original
    2. Cria novo id sequencial
    3. Adiciona coluna de bloco (incremento a cada 150 registros)
    """
    input_path = "../dados/MQD_1465_randomizado.csv"
    
    # Carrega arquivo usando tab como separador e protegendo aspas
    df = pd.read_csv(
        input_path,
        sep='\t',
        usecols=['id', 'frase'],
        quoting=csv.QUOTE_ALL,
        quotechar='"',
        encoding='utf-8'
    )
    
    # Renomear coluna id para id_original
    df = df.rename(columns={'id': 'id_original'})
    
    # Criar novo id sequencial começando de 1
    df.insert(0, 'id', range(1, len(df) + 1))
    
    # Criar coluna de bloco (incremento a cada 150 registros)
    df['bloco'] = (df.index // 150) + 1
    
    # Salvar novo arquivo mantendo as aspas e usando tab como separador
    output_path = "../dados/MQD_1465_blocos_randomizados.csv"
    df.to_csv(
        output_path,
        sep='\t',
        index=False,
        quoting=csv.QUOTE_ALL,
        quotechar='"'
    )
    
    print(f"Arquivo processado e salvo em: {output_path}")
    print(f"Total de registros: {len(df)}")
    print(f"Total de blocos: {df['bloco'].max()}")
    
    print("\nPrimeiras linhas do arquivo processado:")
    print(df.head())
    
    return df

# Executar processamento
df_blocos_randomizados = processar_arquivo_randomizado()

Arquivo processado e salvo em: ../dados/MQD_1465_blocos_randomizados.csv
Total de registros: 1465
Total de blocos: 10

Primeiras linhas do arquivo processado:
   id  id_original                                              frase  bloco
0   1         1039  Você sabia que o menino que mais vai te dar va...      1
1   2          213  Hoje com 21 anos, como que por auxilio lá do a...      1
2   3          314  Nesse momento to evitando ela, e ta me dando u...      1
3   4          598  Meus sentidos de garota diziam que tinha algum...      1
4   5          931  Aquela promessa que eu te fiz naquele natal, e...      1
