In [1]:
import os
import requests
import pandas as pd
import nltk
from nltk.corpus import stopwords
import numpy as np

In [2]:
os.chdir("..")

In [3]:


def download_csv(url, save_path):
  # Get the content of the CSV file from the given URL
  response = requests.get(url)

  # Open the file in write mode
  with open(save_path, 'w') as file:
    # Write the content of the CSV file to the file
    file.write(response.text)

In [4]:
url_train = 'https://raw.githubusercontent.com/dumitrescustefan/Romanian-Transformers/examples/examples/sentiment_analysis/ro/train.csv'
url_test = 'https://raw.githubusercontent.com/dumitrescustefan/Romanian-Transformers/examples/examples/sentiment_analysis/ro/test.csv'
save_path_train = 'data/ro_sent_train.csv'
save_path_test = 'data/ro_sent_test.csv'



In [5]:
download_csv(url_train, save_path_train)
download_csv(url_test, save_path_test)

In [6]:
def load_ro_sent_train(save_path_train):
    return pd.read_csv(save_path_train, encoding="utf-8", index_col="index")

In [7]:
def load_ro_sent_test(save_path_test):
    return pd.read_csv(save_path_test, encoding="utf-8",  index_col="Unnamed: 0")

In [8]:
ro_sent_train = load_ro_sent_train(save_path_train)
ro_sent_test = load_ro_sent_test(save_path_test)

In [9]:
ro_sent_train.head()

Unnamed: 0_level_0,text,label
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,acest document mi-a deschis cu adevarat ochii ...,1
1,tine mancarea rece. ce altceva ii mai trebuie?...,1
2,excelent\r\nrecomand!,1
3,"ca un rocker imbatranit, acest film mentioneaz...",1
4,"ei bine, a facut o groaza veche si foarte intu...",1


In [10]:
ro_sent_test.head()

Unnamed: 0,text,label
0,am vazut recent episoadele 1-4 si acum nu pot ...,1
1,anii cei mai buni ai vietii noastre capteaza p...,1
2,"aceasta apartine in clasa lor superioara, desi...",1
3,lucrare stralucitoare. actorii minunati se diz...,1
4,oamenii par sa se astepte la citizen kane aici...,1


In [11]:
def remove_romanian_stopwords(text):
    try:
        # get the list of Romanian stopwords from NLTK
        romanian_stopwords = stopwords.words('romanian')

        # split the text into a list of words
        words = text.split()

        # remove the stopwords from the list of words
        filtered_words = [word for word in words if word not in romanian_stopwords]

        # join the filtered words back into a single string
        filtered_text = ' '.join(filtered_words)

        return filtered_text
    except:
        return text

In [12]:
value = ro_sent_test.iloc[1]['text']
value

'anii cei mai buni ai vietii noastre capteaza perfect epoca tineretii mele si a sentimentelor din acea vreme. distributia a fost uniforma minunata. acesta a fost probabil cel mai bun rol al carierei lui dana andrews si ar fi trebuit, de asemenea, sa fie nominalizat la premiul oscar. exista atat de multe scene minunate in acest film, este aproape imposibil sa le enumeram pe toate. cinematografia este printre cele mai bune din orice film. acest film este o capsula de timp a ceea ce a fost ca in anii 1940. trebuie sa vezi filmul pentru orice fan adevarat. unii critici au spus ca acest film a imbatranit. nu sunt de acord. tema dorintelor umane este atemporala. si obstacolele cu care se confrunta veteranii care se intorc de la razboi vor fi intotdeauna cu noi. acesta este doar un film grozav - unul care poate fi urmarit mereu si repetat.'

In [13]:
no_stopwords = remove_romanian_stopwords(value)
no_stopwords

'anii buni vietii capteaza perfect epoca tineretii sentimentelor vreme. distributia uniforma minunata. probabil bun rol carierei dana andrews trebuit, asemenea, nominalizat premiul oscar. exista scene minunate film, aproape imposibil enumeram toate. cinematografia printre bune film. film capsula timp anii 1940. trebuie vezi filmul fan adevarat. critici spus film imbatranit. acord. tema dorintelor umane atemporala. obstacolele confrunta veteranii intorc razboi intotdeauna noi. film grozav - urmarit repetat.'

In [14]:
def remove_non_letters(text):
    try:  
        return ''.join(c for c in text if c.isalpha() or c.isspace())
    except:
        return text
        

In [15]:
no_stopwords_clean = remove_non_letters(no_stopwords)
no_stopwords_clean

'anii buni vietii capteaza perfect epoca tineretii sentimentelor vreme distributia uniforma minunata probabil bun rol carierei dana andrews trebuit asemenea nominalizat premiul oscar exista scene minunate film aproape imposibil enumeram toate cinematografia printre bune film film capsula timp anii  trebuie vezi filmul fan adevarat critici spus film imbatranit acord tema dorintelor umane atemporala obstacolele confrunta veteranii intorc razboi intotdeauna noi film grozav  urmarit repetat'

In [16]:
import spacy

In [17]:
!python -m spacy download ro_core_news_sm

Collecting ro-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ro_core_news_sm-3.4.0/ro_core_news_sm-3.4.0-py3-none-any.whl (12.9 MB)
[+] Download and installation successful
You can now load the package via spacy.load('ro_core_news_sm')


You should consider upgrading via the 'C:\Misc\GIT\DLNLPProject\venv\Scripts\python.exe -m pip install --upgrade pip' command.


In [18]:
nlp = spacy.load("ro_core_news_sm")

In [19]:
def get_lemma(text):
    try:
        doc = nlp(text)
        empty_list = []
        for token in doc:
            empty_list.append(token.lemma_)

        final_string = ' '.join(map(str,empty_list))
        return final_string
    except:
        return text

In [20]:
no_stopwords_clean

'anii buni vietii capteaza perfect epoca tineretii sentimentelor vreme distributia uniforma minunata probabil bun rol carierei dana andrews trebuit asemenea nominalizat premiul oscar exista scene minunate film aproape imposibil enumeram toate cinematografia printre bune film film capsula timp anii  trebuie vezi filmul fan adevarat critici spus film imbatranit acord tema dorintelor umane atemporala obstacolele confrunta veteranii intorc razboi intotdeauna noi film grozav  urmarit repetat'

In [21]:
test_lemma = get_lemma(no_stopwords_clean)
test_lemma

'an bun vietie captează perfect epocă tineretii sentiment vreme distributie uniformă minunată probabil bun rol carieră dană andrews trebuit asemenea nominaliza premiu oscar exista scenă minunat film aproape imposibil enumeram tot cinematografia printre bun film film capsula timp an   trebui vedea film fan adevarat critică spune film imbatranit acord temă dorintelor uman atemporală obstacol confrunta veteran intorc razboi intotdeaună nou film grozav   urmarit repetat'

In [22]:
ro_sent_train_pairs = []
for pair in zip(ro_sent_train["text"], ro_sent_train["label"]):
    ro_sent_train_pairs.append(list(pair))


In [23]:
ro_sent_train_pairs

[['acest document mi-a deschis cu adevarat ochii la ceea ce oamenii din afara statelor unite s-au gandit la atacurile din 11 septembrie. acest film a fost construit in mod expert si prezinta acest dezastru ca fiind mai mult decat un atac asupra pamantului american. urmarile acestui dezastru sunt previzionate din multe tari si perspective diferite. cred ca acest film ar trebui sa fie mai bine distribuit pentru acest punct. de asemenea, el ajuta in procesul de vindecare sa vada in cele din urma altceva decat stirile despre atacurile teroriste. si unele dintre piese sunt de fapt amuzante, dar nu abuziv asa. acest film a fost extrem de recomandat pentru mine, si am trecut pe acelasi sentiment.',
  1],
 ['tine mancarea rece. ce altceva ii mai trebuie?\r\nam frigiderul de vreun an, utilizare continua.\r\nzgomotul e decent spre scazut daca esti in aceeasi incapere cu el. nu il auzi din dormitory cu usile inchise.\r\ne un frigider ce sa zici despre el?\r\no sa tina mancarea rece, la temperatur

In [24]:
for element in ro_sent_train_pairs:
    element[0] = get_lemma(remove_romanian_stopwords(remove_non_letters(element[0])))
    

In [25]:
ro_sent_train_pairs

[['document mia deschide adevarat ochi om afara stat unit gandit atac septembrie film construit expert prezint dezastru fi deca atac pamant american urmarile dezastru previzionat tar perspectiv diferit crede film trebui bine distribuit punct asemenea ajuta proces vindecare vadă urma deca stire atac terorist piesă fapt amuzant abuziv film extrem recomanda trece sentiment',
  1],
 ['mancare rece trebui frigider an utilizare continua zgomot decent scazut esti incaper auzi dormitory usil inchise frigider zice tină mancare rece temperatură indicat recomand spalati bine dispenser lichid utilizar contamina apă bun simți d',
  1],
 ['excelent recomanda', 1],
 ['rocker imbatranit film mentionează heep and quo doi trupe preferat vreodat distributie incredibilă lume poveste fantastică plăcea piesă geniu creativ nul recomanda mick Jones adaugat leader scriitor principal alat mare cantaret rock lou gramm vazut mare lucrare bill nighy voce jimmy nail talent risipest por astrid Karen putea cere rocke