# Portuguese

In [44]:
! pip install numpy
! pip install spacy
! pip install nltk
! pip install datasets
! pip install stanza



In [45]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m13.4 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


### Load Dataset

In [46]:
from datasets import load_dataset
import pandas as pd
import re
import nltk
from nltk.tokenize import word_tokenize  # tokenization

nltk.download('punkt')       # Tokenizer model
nltk.download('punkt_tab')

nltk.download('stopwords')   # List of common stopwords for text normalization
from nltk.corpus import stopwords

[nltk_data] Downloading package punkt to /Users/park/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /Users/park/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/park/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [47]:
dataset_pt = load_dataset("wikimedia/wikipedia", "20231101.pt")

In [48]:
df_pt = pd.DataFrame(dataset_pt["train"])
df_sample_pt = df_pt.sample(n=1000, random_state=42)
df_sample_pt.head()

Unnamed: 0,id,url,title,text
240870,1299826,https://pt.wikipedia.org/wiki/Graxa,Graxa,lubrificante é o nome genérico e popular dado ...
764517,4646067,https://pt.wikipedia.org/wiki/Medalha%20Otto%2...,Medalha Otto Warburg,A Medalha Otto Warburg () é concedida desde 19...
181683,644479,https://pt.wikipedia.org/wiki/NGC%202488,NGC 2488,NGC 2488 é uma galáxia elíptica (E-S0) localiz...
902823,5721413,https://pt.wikipedia.org/wiki/10.%C2%AA%20etap...,10.ª etapa do Giro d'Italia de 2018,A 10.ª etapa do Giro d'Italia de 2018 teve lug...
1092406,7082886,https://pt.wikipedia.org/wiki/Snooki,Snooki,"Nicole Elizabeth ""Snooki"" LaValle (nascida Pol..."


### Removing punctuations and symbols

In [49]:
def clean_text_pt(text):
    text = text.lower()
    text = re.sub(r'\n', ' ', text)  # Remove newline characters
    text = re.sub(r'[^A-Za-zÁÀÂÃÉÊÍÓÔÕÚÇáàâãéêíóôõúç0-9\s\'\-]', '', text) # Keep only Portuguese characters
    text = re.sub(r'\s+', ' ', text).strip()  # multiple spaces
    return text

df_sample_pt["clean_text"] = df_sample_pt["text"].apply(clean_text_pt)

### Tokenization

In [50]:
import spacy
nlp = spacy.load("pt_core_news_sm")

df_sample_pt["tokens"] = df_sample_pt["clean_text"].apply(
    lambda x: [token.text for token in nlp(x)]
)

In [51]:
df_sample_pt.head()

Unnamed: 0,id,url,title,text,clean_text,tokens
240870,1299826,https://pt.wikipedia.org/wiki/Graxa,Graxa,lubrificante é o nome genérico e popular dado ...,lubrificante é o nome genérico e popular dado ...,"[lubrificante, é, o, nome, genérico, e, popula..."
764517,4646067,https://pt.wikipedia.org/wiki/Medalha%20Otto%2...,Medalha Otto Warburg,A Medalha Otto Warburg () é concedida desde 19...,a medalha otto warburg é concedida desde 1963 ...,"[a, medalha, otto, warburg, é, concedida, desd..."
181683,644479,https://pt.wikipedia.org/wiki/NGC%202488,NGC 2488,NGC 2488 é uma galáxia elíptica (E-S0) localiz...,ngc 2488 é uma galáxia elíptica e-s0 localizad...,"[ngc, 2488, é, uma, galáxia, elíptica, e-s0, l..."
902823,5721413,https://pt.wikipedia.org/wiki/10.%C2%AA%20etap...,10.ª etapa do Giro d'Italia de 2018,A 10.ª etapa do Giro d'Italia de 2018 teve lug...,a 10 etapa do giro d'italia de 2018 teve lugar...,"[a, 10, etapa, do, giro, d'italia, de, 2018, t..."
1092406,7082886,https://pt.wikipedia.org/wiki/Snooki,Snooki,"Nicole Elizabeth ""Snooki"" LaValle (nascida Pol...",nicole elizabeth snooki lavalle nascida polizz...,"[nicole, elizabeth, snooki, lavalle, nascida, ..."


### Lemmatization

In [52]:
def lemmatize_tokens_spacy(tokens):
    doc = nlp(' '.join(tokens))
    return [token.lemma_ for token in doc]

df_sample_pt['tokens_lemmatized'] = df_sample_pt['tokens'].apply(lemmatize_tokens_spacy)

In [53]:
df_sample_pt.head()

Unnamed: 0,id,url,title,text,clean_text,tokens,tokens_lemmatized
240870,1299826,https://pt.wikipedia.org/wiki/Graxa,Graxa,lubrificante é o nome genérico e popular dado ...,lubrificante é o nome genérico e popular dado ...,"[lubrificante, é, o, nome, genérico, e, popula...","[lubrificante, ser, o, nome, genérico, e, popu..."
764517,4646067,https://pt.wikipedia.org/wiki/Medalha%20Otto%2...,Medalha Otto Warburg,A Medalha Otto Warburg () é concedida desde 19...,a medalha otto warburg é concedida desde 1963 ...,"[a, medalha, otto, warburg, é, concedida, desd...","[o, medalha, otto, Warburg, ser, conceder, des..."
181683,644479,https://pt.wikipedia.org/wiki/NGC%202488,NGC 2488,NGC 2488 é uma galáxia elíptica (E-S0) localiz...,ngc 2488 é uma galáxia elíptica e-s0 localizad...,"[ngc, 2488, é, uma, galáxia, elíptica, e-s0, l...","[ngc, 2488, ser, um, galáxia, elíptico, e-s0, ..."
902823,5721413,https://pt.wikipedia.org/wiki/10.%C2%AA%20etap...,10.ª etapa do Giro d'Italia de 2018,A 10.ª etapa do Giro d'Italia de 2018 teve lug...,a 10 etapa do giro d'italia de 2018 teve lugar...,"[a, 10, etapa, do, giro, d'italia, de, 2018, t...","[a, 10, etapa, de o, giro, d'italia, de, 2018,..."
1092406,7082886,https://pt.wikipedia.org/wiki/Snooki,Snooki,"Nicole Elizabeth ""Snooki"" LaValle (nascida Pol...",nicole elizabeth snooki lavalle nascida polizz...,"[nicole, elizabeth, snooki, lavalle, nascida, ...","[nicole, elizabeth, snooki, lavalle, nascido, ..."


### Normalization

In [54]:
def load_stopwords(language: str):
    filename = f"stopwords/stopwords-{language}.txt"
    try:
        with open(filename, "r", encoding="utf-8") as f:
            stopwords = set(line.strip() for line in f if line.strip())
        return stopwords
    except FileNotFoundError:
        print(f"'{language}' - language not supported")
        return set()
    
stopwords_portuguese = load_stopwords("pt")

In [55]:
# Token Normalization Function (Stopword Removal)
stopwords_dict = {
    # "ko": set(stopwords_korean),
    "pt": set(stopwords_portuguese),
    # "it": set(stopwords_italian),
    # "en": set(stopwords_english),
}

def normalize_tokens(tokens, lang):
    if lang in stopwords_dict:
        stops = stopwords_dict[lang]
    else:
        from nltk.corpus import stopwords
        try:
            stops = set(stopwords.words(lang))  # NLTK stopwords for other languages
        except:
            stops = set()  # Fallback if stopwords are unavailable
    # Remove stopwords and single-character tokens
    normalized_tokens = [w for w in tokens if w not in stops and len(w) > 1]

    return normalized_tokens

# Apply Stopword Removal to the Pre-Tokenized Dataset
df_sample_pt["tokens_norm"] = df_sample_pt["tokens_lemmatized"].apply(lambda x: normalize_tokens(x, lang='pt'))

df_sample_pt.head()

Unnamed: 0,id,url,title,text,clean_text,tokens,tokens_lemmatized,tokens_norm
240870,1299826,https://pt.wikipedia.org/wiki/Graxa,Graxa,lubrificante é o nome genérico e popular dado ...,lubrificante é o nome genérico e popular dado ...,"[lubrificante, é, o, nome, genérico, e, popula...","[lubrificante, ser, o, nome, genérico, e, popu...","[lubrificante, genérico, popular, lubrificante..."
764517,4646067,https://pt.wikipedia.org/wiki/Medalha%20Otto%2...,Medalha Otto Warburg,A Medalha Otto Warburg () é concedida desde 19...,a medalha otto warburg é concedida desde 1963 ...,"[a, medalha, otto, warburg, é, concedida, desd...","[o, medalha, otto, Warburg, ser, conceder, des...","[medalha, otto, Warburg, conceder, 1963, pesqu..."
181683,644479,https://pt.wikipedia.org/wiki/NGC%202488,NGC 2488,NGC 2488 é uma galáxia elíptica (E-S0) localiz...,ngc 2488 é uma galáxia elíptica e-s0 localizad...,"[ngc, 2488, é, uma, galáxia, elíptica, e-s0, l...","[ngc, 2488, ser, um, galáxia, elíptico, e-s0, ...","[ngc, 2488, galáxia, elíptico, e-s0, localizar..."
902823,5721413,https://pt.wikipedia.org/wiki/10.%C2%AA%20etap...,10.ª etapa do Giro d'Italia de 2018,A 10.ª etapa do Giro d'Italia de 2018 teve lug...,a 10 etapa do giro d'italia de 2018 teve lugar...,"[a, 10, etapa, do, giro, d'italia, de, 2018, t...","[a, 10, etapa, de o, giro, d'italia, de, 2018,...","[10, etapa, de o, giro, d'italia, 2018, 15, ma..."
1092406,7082886,https://pt.wikipedia.org/wiki/Snooki,Snooki,"Nicole Elizabeth ""Snooki"" LaValle (nascida Pol...",nicole elizabeth snooki lavalle nascida polizz...,"[nicole, elizabeth, snooki, lavalle, nascida, ...","[nicole, elizabeth, snooki, lavalle, nascido, ...","[nicole, elizabeth, snooki, lavalle, nascido, ..."


### Save File

In [56]:
import os

def save_lang_dataset(df, lang: str, save_dir: str = "data"):
    required_cols = ["text", "clean_text", "tokens", "tokens_lemmatized", "tokens_norm"]
    
    # add language label
    df_to_save = df[required_cols].copy()
    df_to_save["label"] = lang
    
    os.makedirs(save_dir, exist_ok=True)
    output_path = os.path.join(save_dir, f"output_{lang}.parquet")  
    df_to_save.to_parquet(output_path, index=False)
    display(df_to_save)


In [57]:
save_lang_dataset(df_sample_pt, lang="pt")

Unnamed: 0,text,clean_text,tokens,tokens_lemmatized,tokens_norm,label
240870,lubrificante é o nome genérico e popular dado ...,lubrificante é o nome genérico e popular dado ...,"[lubrificante, é, o, nome, genérico, e, popula...","[lubrificante, ser, o, nome, genérico, e, popu...","[lubrificante, genérico, popular, lubrificante...",pt
764517,A Medalha Otto Warburg () é concedida desde 19...,a medalha otto warburg é concedida desde 1963 ...,"[a, medalha, otto, warburg, é, concedida, desd...","[o, medalha, otto, Warburg, ser, conceder, des...","[medalha, otto, Warburg, conceder, 1963, pesqu...",pt
181683,NGC 2488 é uma galáxia elíptica (E-S0) localiz...,ngc 2488 é uma galáxia elíptica e-s0 localizad...,"[ngc, 2488, é, uma, galáxia, elíptica, e-s0, l...","[ngc, 2488, ser, um, galáxia, elíptico, e-s0, ...","[ngc, 2488, galáxia, elíptico, e-s0, localizar...",pt
902823,A 10.ª etapa do Giro d'Italia de 2018 teve lug...,a 10 etapa do giro d'italia de 2018 teve lugar...,"[a, 10, etapa, do, giro, d'italia, de, 2018, t...","[a, 10, etapa, de o, giro, d'italia, de, 2018,...","[10, etapa, de o, giro, d'italia, 2018, 15, ma...",pt
1092406,"Nicole Elizabeth ""Snooki"" LaValle (nascida Pol...",nicole elizabeth snooki lavalle nascida polizz...,"[nicole, elizabeth, snooki, lavalle, nascida, ...","[nicole, elizabeth, snooki, lavalle, nascido, ...","[nicole, elizabeth, snooki, lavalle, nascido, ...",pt
...,...,...,...,...,...,...
1111929,A competição dos 1500 metros masculino no Camp...,a competição dos 1500 metros masculino no camp...,"[a, competição, dos, 1500, metros, masculino, ...","[o, competição, de o, 1500, metro, masculino, ...","[competição, de o, 1500, metro, masculino, em ...",pt
1061142,"Francisco José de Lima Barros (Rio de Janeiro,...",francisco josé de lima barros rio de janeiro 2...,"[francisco, josé, de, lima, barros, rio, de, j...","[Francisco, José, de, Lima, barro, Rio, de, Ja...","[Francisco, José, Lima, barro, Rio, Janeiro, 2...",pt
652001,Malala Yousafzai (em pachto ملاله یوسفزۍ Malā...,malala yousafzai em pachto mallah ysafzay suat...,"[malala, yousafzai, em, pachto, mallah, ysafza...","[Malala, yousafzai, em, pachto, Mallah, ysafza...","[Malala, yousafzai, pachto, Mallah, ysafzay, s...",pt
119542,As leis de Ranganathan são cinco leis fundamen...,as leis de ranganathan são cinco leis fundamen...,"[as, leis, de, ranganathan, são, cinco, leis, ...","[o, lei, de, ranganathan, ser, cinco, lei, fun...","[lei, ranganathan, lei, fundamental, instituír...",pt
