1. Setup

Importovanje potrebnih biblioteka

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter
import seaborn as sb
import string
from wordcloud import WordCloud
import re

Ucitavanje podataka

In [None]:
df = pd.read_csv("../data/synthetic_emotions.csv")

print("Shape:", df.shape) # daje broj redova i kolona
print('\n')

print(df.head()) # daje header i prvih 5 redova
print('\n')

print(df.isnull().sum())

2. Osnovna analiza sirovih podataka

Distribucija klasa

In [None]:
plt.figure(figsize=(6,4))
sb.countplot(data=df, x='emotion', order=df['emotion'].value_counts().index)
plt.title("Distribucija emocija")
plt.xlabel("Emocija")
plt.ylabel("Broj primera")
plt.show()

Duzina tekstova

In [None]:
# duzina u karakterima
df['text_length'] = df['text'].apply(len) #ovo ce da doda ovuu kolonu 

plt.figure(figsize=(6,4))
sb.histplot(df['text_length'], bins=50)
plt.title("Duzina tekstova po broju karaktera")
plt.xlabel("Broj karaktera")
plt.ylabel("Broj primera")
plt.show()

# duzina po broju reci
df['word_count'] = df['text'].apply(lambda x: len(x.split())) # ovo ce da doda ovuu kolonu 
plt.figure(figsize=(6,4))
sb.histplot(df['word_count'], bins=50)
plt.title("Duzina tekstova po broju reci")
plt.xlabel("Broj reci")
plt.ylabel("Broj primera")
plt.show()

Raspodela duzina po klasi

In [None]:
plt.figure(figsize=(8,5))
sb.boxplot(data=df, x='emotion', y='text_length')
plt.title("Duzina tekstova po klasi")
plt.ylabel("Broj karaktera")
plt.show()

3. Ciscenje podataka

Uklanjanje duplikata

In [None]:
print("Dupliktai: ", df.duplicated().sum())

#uklanjanje duplikata
df = df.drop_duplicates()

print("Novi shape: ", df.shape)
print(df.head())

Provera suma u tekstu

In [None]:
#brzi pregled uzorka teksta
df['text'].sample(10)

Provera specijalnih znakova

In [None]:
def has_special_chars(text):
    return bool(re.search(r'[^a-zA-Z\s]', text))

df['has_special'] = df['text'].apply(has_special_chars)
print(df['has_special'].value_counts())

svi redovi imaju barem jedan specijalni znak

Provera brojeva

In [None]:
def has_numbers(text):
    return any(char.isdigit() for char in text)

df['has_numbers'] = df['text'].apply(has_numbers)
print(df['has_numbers'].value_counts())

samo 7 redova ima brojeve, sto nije znacajan brij i ne treba trositi vreme i resurse na njihovo uklanjanje

4. Preprocessing dataseta

Uklanjanje znakova interpunkcije

In [None]:
df['text'] = df['text'].apply(lambda x: x.translate(str.maketrans('', '', string.punctuation)))

Pretvaranje svih slova u mala slova
ovo radimo da bi model bio konzistentniji i kako bismo smanjili broj razlicitih tokena

In [None]:
df['text'] = df['text'].apply(lambda x: x.translate(str.maketrans('', '', string.punctuation)).lower())

5. Analiza posle ciscenja dataseta

Najcesce reci po klasi

In [None]:
stopwords = set(['the', 'a', 'an', 'and', 'or', 'to', 'of', 'in', 'on', 'for', 'with', 'as', 'by', 'at', 'from', 'that', 'this', 'it', 'he', 'she', 'his', 'her', 
    'they', 'them', 'is', 'was', 'were', 'be', 'been', 'are', 'am', 'but', 'not', 'you', 'i', 'eyes', 'has', 'had', 'him', 'into', 'every'])

def clean_text(texts):
    words = " ".join(texts).lower().split()
    words = [w.translate(str.maketrans('', '', string.punctuation)) for w in words]
    words = [w for w in words if w and w not in stopwords]
    return " ".join(words)

for emotion in df['emotion'].unique():
    text = clean_text(df[df['emotion'] == emotion]['text'])
    
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
    
    plt.figure(figsize=(8,4))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.title(f"Word cloud - {emotion}")
    plt.axis('off')
    plt.show()

6. Priprema za model

Odredjivanje max_seq_len

In [None]:
max_seq_len = int(df['word_count'].quantile(0.95))
print("max_seq_len: ", max_seq_len)

95% tekstova ima do 71 rec, pa je max_seq_len postavljen na 71
Duzi tekstovi ce biti skraceni, a kraci ce biti dopunjeni paddingom

Label encoding
Nazive emocija cemo zameniti brojevima kako bi ih model razumeo

In [None]:
labels = df['emotion'].unique()
print(labels)

In [None]:
label_to_idx = {label: idx for idx, label in enumerate(labels)}
idx_to_label = {idx: label for label, idx in label_to_idx.items()}

print(label_to_idx)

Mapiranja ce biti sledeca:
Love -> 0
Sad -> 1
Anger -> 2
Fun -> 3
Hate -> 4
Surprise -> 5
Happines -> 6

Primena mapiranja na dataset

In [None]:
df['label'] = df['emotion'].map(label_to_idx)

7. Zavrsni koraci

Cuvanje ocistenog dataseta

In [None]:
df.to_csv("../data/emotions_cleaned.csv", index=False)