In [1]:
import pandas as pd
import unidecode
import re

def clean_text(text):
    """Remove accents and special characters, convert to lowercase"""
    text = text.lower()
    text = unidecode.unidecode(text)
    text = re.sub(r'[^a-z0-9\s]', '', text)
    return text

def validate_output(output):
    """Check if output has exactly 5 lines"""
    lines = output.strip().split('\n')
    return len(lines) == 5


df = pd.read_csv('../cleaned_dataset3.csv')

cleaned_data = {} 
for _, row in df.iterrows():
    input_text = clean_text(row['input'])
    output_text = row['output']
    
    if validate_output(output_text) and input_text not in cleaned_data:
        cleaned_data[input_text] = output_text

cleaned_df = pd.DataFrame([
    {'input': k, 'output': v} for k, v in cleaned_data.items()
])

cleaned_df.to_csv('../cleaned_dataset3.csv', index=False)

print("Sample of cleaned data:")
print(cleaned_df.head())
print(f"\nOriginal dataset size: {len(df)}")
print(f"Cleaned dataset size: {len(cleaned_df)}")
print(f"Removed entries: {len(df) - len(cleaned_df)}")
print(f"Duplicate inputs removed: {len(df) - len(cleaned_data)}")

Sample of cleaned data:
            input                                             output
0  acessibilidade  Luz mais baixa, gostaria de uma luz mais baixa...
1           agora  Agora, eu quero fazer isso agora, ⏰\nEsperar, ...
2       agradecer  Muito obrigado, quero agradecer de coração, 🙏\...
3           ajuda  Preciso de Ajuda, eu preciso de ajuda, 🤲\nMe D...
4   ajuda emocoes  Falar Sobre Sentimentos, eu quero falar sobre ...

Original dataset size: 6578
Cleaned dataset size: 5815
Removed entries: 763
Duplicate inputs removed: 763
