In [1]:
import os
import requests
import pandas as pd
import nltk
from nltk.corpus import stopwords
import numpy as np

In [2]:
os.chdir("..")

In [3]:


def download_csv(url, save_path):
  # Get the content of the CSV file from the given URL
  response = requests.get(url)

  # Open the file in write mode
  with open(save_path, 'w') as file:
    # Write the content of the CSV file to the file
    file.write(response.text)

In [4]:
url_train = 'https://raw.githubusercontent.com/dumitrescustefan/Romanian-Transformers/examples/examples/sentiment_analysis/ro/train.csv'
url_test = 'https://raw.githubusercontent.com/dumitrescustefan/Romanian-Transformers/examples/examples/sentiment_analysis/ro/test.csv'
save_path_train = 'data/ro_sent_train.csv'
save_path_test = 'data/ro_sent_test.csv'



In [6]:
download_csv(url_train, save_path_train)
download_csv(url_test, save_path_test)

In [7]:
def load_ro_sent_train(save_path_train):
    return pd.read_csv(save_path_train, encoding="utf-8", index_col="index")

In [8]:
def load_ro_sent_test(save_path_test):
    return pd.read_csv(save_path_test, encoding="utf-8",  index_col="Unnamed: 0")

In [9]:
ro_sent_train = load_ro_sent_train(save_path_train)
ro_sent_test = load_ro_sent_test(save_path_test)

In [10]:
ro_sent_train.head()

Unnamed: 0_level_0,text,label
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,acest document mi-a deschis cu adevarat ochii ...,1
1,tine mancarea rece. ce altceva ii mai trebuie?...,1
2,excelent\r\nrecomand!,1
3,"ca un rocker imbatranit, acest film mentioneaz...",1
4,"ei bine, a facut o groaza veche si foarte intu...",1


In [11]:
ro_sent_test.head()

Unnamed: 0,text,label
0,am vazut recent episoadele 1-4 si acum nu pot ...,1
1,anii cei mai buni ai vietii noastre capteaza p...,1
2,"aceasta apartine in clasa lor superioara, desi...",1
3,lucrare stralucitoare. actorii minunati se diz...,1
4,oamenii par sa se astepte la citizen kane aici...,1


In [12]:
def remove_romanian_stopwords(text):
    try:
        # get the list of Romanian stopwords from NLTK
        romanian_stopwords = stopwords.words('romanian')

        # split the text into a list of words
        words = text.split()

        # remove the stopwords from the list of words
        filtered_words = [word for word in words if word not in romanian_stopwords]

        # join the filtered words back into a single string
        filtered_text = ' '.join(filtered_words)

        return filtered_text
    except:
        return text

In [13]:
value = ro_sent_test.iloc[1]['text']
value

'anii cei mai buni ai vietii noastre capteaza perfect epoca tineretii mele si a sentimentelor din acea vreme. distributia a fost uniforma minunata. acesta a fost probabil cel mai bun rol al carierei lui dana andrews si ar fi trebuit, de asemenea, sa fie nominalizat la premiul oscar. exista atat de multe scene minunate in acest film, este aproape imposibil sa le enumeram pe toate. cinematografia este printre cele mai bune din orice film. acest film este o capsula de timp a ceea ce a fost ca in anii 1940. trebuie sa vezi filmul pentru orice fan adevarat. unii critici au spus ca acest film a imbatranit. nu sunt de acord. tema dorintelor umane este atemporala. si obstacolele cu care se confrunta veteranii care se intorc de la razboi vor fi intotdeauna cu noi. acesta este doar un film grozav - unul care poate fi urmarit mereu si repetat.'

In [14]:
no_stopwords = remove_romanian_stopwords(value)
no_stopwords

'anii cei mai buni ai vietii noastre capteaza perfect epoca tineretii mele si a sentimentelor din acea vreme. distributia a fost uniforma minunata. acesta a fost probabil cel mai bun rol al carierei lui dana andrews si ar fi trebuit, de asemenea, sa fie nominalizat la premiul oscar. exista atat de multe scene minunate in acest film, este aproape imposibil sa le enumeram pe toate. cinematografia este printre cele mai bune din orice film. acest film este o capsula de timp a ceea ce a fost ca in anii 1940. trebuie sa vezi filmul pentru orice fan adevarat. unii critici au spus ca acest film a imbatranit. nu sunt de acord. tema dorintelor umane este atemporala. si obstacolele cu care se confrunta veteranii care se intorc de la razboi vor fi intotdeauna cu noi. acesta este doar un film grozav - unul care poate fi urmarit mereu si repetat.'

In [14]:
def remove_non_letters(text):
    try:  
        return ''.join(c for c in text if c.isalpha() or c.isspace())
    except:
        return text
        

In [15]:
no_stopwords_clean = remove_non_letters(no_stopwords)
no_stopwords_clean

'anii buni vietii capteaza perfect epoca tineretii sentimentelor vreme distributia uniforma minunata probabil bun rol carierei dana andrews trebuit asemenea nominalizat premiul oscar exista scene minunate film aproape imposibil enumeram toate cinematografia printre bune film film capsula timp anii  trebuie vezi filmul fan adevarat critici spus film imbatranit acord tema dorintelor umane atemporala obstacolele confrunta veteranii intorc razboi intotdeauna noi film grozav  urmarit repetat'

In [15]:
import spacy

In [16]:
!python -m spacy download ro_core_news_sm

Collecting ro-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ro_core_news_sm-3.4.0/ro_core_news_sm-3.4.0-py3-none-any.whl (12.9 MB)
     -------------------------------------- 12.9/12.9 MB 739.7 kB/s eta 0:00:00
Installing collected packages: ro-core-news-sm
Successfully installed ro-core-news-sm-3.4.0
[+] Download and installation successful
You can now load the package via spacy.load('ro_core_news_sm')


In [17]:
nlp = spacy.load("ro_core_news_sm")

In [18]:
def get_lemma(text):
    try:
        doc = nlp(text)
        empty_list = []
        for token in doc:
            empty_list.append(token.lemma_)

        final_string = ' '.join(map(str,empty_list))
        return final_string
    except:
        return text

In [19]:
no_stopwords_clean

NameError: name 'no_stopwords_clean' is not defined

In [21]:
no_stopwords_clean = no_stopwords

In [22]:
test_lemma = get_lemma(no_stopwords_clean)
test_lemma

'an cel mai bun al vietii meu captează perfect epocă tineretă meu si al sentiment din acel vreme . distributie avea fi uniformă minunată . acesta avea fi probabil cel mai bun rol al carieră lui dană andrews si avea fi trebui , de asemenea , său fi nominaliza la premiu oscar . exista ata de mult scenă minuna in acest film , fi aproape imposibil său el enumeram pe tot . cinematografia fi printre cel mai bun din orice film . acest film fi un capsula de timp a acela ce avea fi ca in an 1940 . trebui său vedea film pentru orice fan adevarat . un critică avea spune ca acest film avea imbatrani . nu fi de acord . temă dorintelor uman fi atemporală . si obstacol cu care sine confrunta veteran care sine intoarce de la razboi vrea fi intotdeaună cu eu . acesta fi doar un film grozav - unul care putea fi urmari mereu si repetat .'

In [23]:
ro_sent_train_pairs = []
for pair in zip(ro_sent_train["text"], ro_sent_train["label"]):
    ro_sent_train_pairs.append(list(pair))


In [24]:
ro_sent_train_pairs

[['acest document mi-a deschis cu adevarat ochii la ceea ce oamenii din afara statelor unite s-au gandit la atacurile din 11 septembrie. acest film a fost construit in mod expert si prezinta acest dezastru ca fiind mai mult decat un atac asupra pamantului american. urmarile acestui dezastru sunt previzionate din multe tari si perspective diferite. cred ca acest film ar trebui sa fie mai bine distribuit pentru acest punct. de asemenea, el ajuta in procesul de vindecare sa vada in cele din urma altceva decat stirile despre atacurile teroriste. si unele dintre piese sunt de fapt amuzante, dar nu abuziv asa. acest film a fost extrem de recomandat pentru mine, si am trecut pe acelasi sentiment.',
  1],
 ['tine mancarea rece. ce altceva ii mai trebuie?\r\nam frigiderul de vreun an, utilizare continua.\r\nzgomotul e decent spre scazut daca esti in aceeasi incapere cu el. nu il auzi din dormitory cu usile inchise.\r\ne un frigider ce sa zici despre el?\r\no sa tina mancarea rece, la temperatur

In [25]:
for element in ro_sent_train_pairs:
    element[0] = get_lemma(remove_romanian_stopwords(remove_non_letters(element[0])))
    

NameError: name 'remove_non_letters' is not defined

In [26]:
for element in ro_sent_train_pairs:
    element[0] = get_lemma(remove_romanian_stopwords(element[0]))
    

In [27]:
ro_sent_train_pairs

[['acest document eu avea deschide cu adevarat ochi la acela ce om din afara stat unit sine avea gandi la atacură din 11 septembrie . acest film avea fi construi in mod expert si prezint acest dezastru ca fi mai mult deca un atac asupra pamant american . urmarile acest dezastru fi previziona din mult tar si perspectivă diferit . crede ca acest film avea trebui său fi mai bine distribui pentru acest punct . de asemenea , el ajuta in proces de vindecare său vadă in acela din urmă altceva decat stirile despre atac terorist . si unul dintre piesă fi de fapt amuzant , dar nu abuziv asă . acest film avea fi extrem de recomanda pentru eu , si avea trece pe acelasi sentiment .',
  1],
 ['tu mancare rece . ce altceva doi mai trebui ? \r\n avea frigider de vreun an , utilizare continua . \r\n zgomot fi decent spre scazut dacă esti in aceeasi incapere cu el . nu il auzi din dormitory cu usile inchise . \r\n fi un frigider ce său zice despre el ? \r\n el său tina mancare rece , la temperatură indi