In [1]:
import pandas as pd
import unidecode
import re

def clean_text(text):
    """Removing accents and special characters and converting to lowercase"""
    text = text.lower()
    text = unidecode.unidecode(text)
    text = re.sub(r'[^a-z0-9\s]', '', text)
    return text

def validate_output(output):
    """Checking if input has exactly 5 lines"""
    lines = output.strip().split('\n')
    return len(lines) == 5

df = pd.read_csv('../dataset.csv')

c_data = []
for _, row in df.iterrows():
    input_text = clean_text(row['input'])
    output_text = row['output']
    
    if validate_output(output_text):
        c_data.append({
            'input': input_text,
            'output': output_text
        })

c_df = pd.DataFrame(c_data)

c_df.to_csv('../cleaned_dataset.csv', index=False)

print("Sample of cleaned data:")
print(c_df.head())
print(f"\nOriginal dataset size: {len(df)}")
print(f"Cleaned dataset size: {len(c_df)}")
print(f"Removed entries: {len(df) - len(c_df)}")

Sample of cleaned data:
            input                                             output
0  acessibilidade  Luz mais baixa, gostaria de uma luz mais baixa...
1           agora  Agora, eu quero fazer isso agora, ⏰\nEsperar, ...
2           agora  Estou aqui, eu estou aqui agora, 👋\nVamos brin...
3       agradecer  Muito obrigado, quero agradecer de coração, 🙏\...
4           ajuda  Preciso de Ajuda, eu preciso de ajuda, 🤲\nMe D...

Original dataset size: 5363
Cleaned dataset size: 5355
Removed entries: 8
