In [16]:
# Importar bibliotecas necessárias
import pandas as pd
import re
import nltk
nltk.download('stopwords')
nltk.download('punkt_tab')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem.snowball import SnowballStemmer

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [17]:
# Definir função de pré-processamento
def preprocess_dataset(df, language):

    # Configurar stemmer e stopwords para o idioma
    stemmer = SnowballStemmer(language)
    stop_words = set(stopwords.words(language))

    def preprocess_text(text):
        # Converter para letras minúsculas
        text = text.lower()
        # Remover caracteres especiais, links e números
        text = re.sub(r'http\S+|www\S+|[^a-zA-Z\s]', '', text)
        # Tokenizar o texto
        tokens = word_tokenize(text)
        # Remover stopwords
        tokens = [word for word in tokens if word not in stop_words]
        # Aplicar stemmização
        tokens = [stemmer.stem(word) for word in tokens]
        # Reconstruir o texto processado
        return ' '.join(tokens)

    # Aplicar a função de pré-processamento no dataset
    df['processed_text'] = df['message'].apply(preprocess_text)
    return df


In [18]:
'''
# Upload de arquivo local
# Faça upload dos arquivos

from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))
'''

'\n# Upload de arquivo local\n# Faça upload dos arquivos\n\nfrom google.colab import files\nuploaded = files.upload()\nfor fn in uploaded.keys():\n  print(\'User uploaded file "{name}" with length {length} bytes\'.format(\n      name=fn, length=len(uploaded[fn])))\n'

In [19]:
# Carregar os três datasets
portuguese_df = pd.read_csv('dataset_pt.csv')
english_df = pd.read_csv('dataset_en.csv')
spanish_df = pd.read_csv('dataset_es.csv')

# Exibir as primeiras linhas de cada dataset
print(portuguese_df.head())
print(english_df.head())
print(spanish_df.head())

   label                                            message
0  ham    Vá até o ponto de Jurong, louco. Disponível ap...
1  ham                       Ok, lar... Brincando com vc...
2  spam   Entrada gratuita em 2 competições semanais par...
3  ham    Você não disse tão cedo... Você já disse então...
4  ham    Não, acho que ele não estuda na USF, mas ele m...
   label                                            message
0  ham    Go until jurong point, crazy.. Available only ...
1  ham                        Ok lar... Joking wif u oni...
2  spam   Free entry in 2 a wkly comp to win FA Cup fina...
3  ham    U dun say so early hor... U c already then say...
4  ham    Nah I don't think he goes to usf, he lives aro...
   label                                            message
0  ham    Ve hasta jurong point, loco.. Disponible solo ...
1  ham             Ok lar... Estoy bromeando contigo oni...
2  spam   Entrada gratuita en 2 concursos semanales para...
3  ham    No lo dijiste tan temprano... 

In [20]:
# Pré-processar cada dataset separadamente
portuguese_df = preprocess_dataset(portuguese_df, 'portuguese')
english_df = preprocess_dataset(english_df, 'english')
spanish_df = preprocess_dataset(spanish_df, 'spanish')

# Adicionar uma coluna indicando o idioma
portuguese_df['language'] = 'portuguese'
english_df['language'] = 'english'
spanish_df['language'] = 'spanish'


In [21]:
# Concatenar os datasets pré-processados
final_df = pd.concat([portuguese_df, english_df, spanish_df], ignore_index=True)

# Exibir as primeiras linhas do dataset
print(final_df.head())

   label                                            message  \
0  ham    Vá até o ponto de Jurong, louco. Disponível ap...   
1  ham                       Ok, lar... Brincando com vc...   
2  spam   Entrada gratuita em 2 competições semanais par...   
3  ham    Você não disse tão cedo... Você já disse então...   
4  ham    Não, acho que ele não estuda na USF, mas ele m...   

                                      processed_text    language  
0  v at pont jurong louc disponvel apen bug n gre...  portuguese  
1                                    ok lar brinc vc  portuguese  
2  entrad gratuit competi seman venc final fa cup...  portuguese  
3                    voc diss to ced voc j diss ento  portuguese  
4                             acho estud usf mor aqu  portuguese  


In [22]:
# Salvar o dataset final em um arquivo CSV
final_df.to_csv('preprocessed_dataset.csv', index=False)
print("Dataset final salvo como 'preprocessed_dataset.csv'.")

Dataset final salvo como 'preprocessed_dataset.csv'.
