# Przygotowanie danych tekstowych

W poniższym notatniku skupimy się głównie na przygotowaniu danych tekstowych - ich wektoryzacji, ekstrakcji cechy i czyszczeniu. Następnie przejdziemy do budowy modelu regresji logistycznej.

Cały plik stanowi efekt postępów w projekcie pomiędzy 24.03.2022 a 21.04.2022. Najważniejsze punkty:
1. Normalizacja tekstu
2. Usunięcie z tekstu tzw. *stop words*
3. Stemming tekstu za pomocą pakietu *SnowballStemmer*
4. Lematyzacja słów komentarzy z użyciem biblioteki *spaCy*
5. Wektoryzacja:
    * aspekty teoretyczne (*Bag of words*, *N_gram*)
    * wektoryzacja z użyciem pakietu TfidfVectorizer
    * wektoryzacja alternatywna - stworzenie tensorów dwuwymiarowych w postaci zmiennych binarnych (eksperyment)
6. Pierwsze próby budowania modelu

In [None]:
#wczytanie podstawowych pakietów
import pandas as pd
import numpy as np

In [None]:
train = pd.read_csv('train.csv') #wczytanie zbioru danych

In [None]:
train.drop(axis = 1, labels = "id", inplace = True) #id komentarzy nie będą nam potrzebne w dalszej klasyfikacji

In [None]:
train.head() 

Unnamed: 0,comment_text,toxic,severe_toxic,obscene,threat,insult,identity_hate
0,Explanation\nWhy the edits made under my usern...,0,0,0,0,0,0
1,D'aww! He matches this background colour I'm s...,0,0,0,0,0,0
2,"Hey man, I'm really not trying to edit war. It...",0,0,0,0,0,0
3,"""\nMore\nI can't make any real suggestions on ...",0,0,0,0,0,0
4,"You, sir, are my hero. Any chance you remember...",0,0,0,0,0,0


In [None]:
#podział na zmienne objaśniające i objaśniane
X_train = train.comment_text
y_train = train.drop(axis = 1, labels = "comment_text")

In [None]:
X_train 

0         Explanation\nWhy the edits made under my usern...
1         D'aww! He matches this background colour I'm s...
2         Hey man, I'm really not trying to edit war. It...
3         "\nMore\nI can't make any real suggestions on ...
4         You, sir, are my hero. Any chance you remember...
                                ...                        
159566    ":::::And for the second time of asking, when ...
159567    You should be ashamed of yourself \n\nThat is ...
159568    Spitzer \n\nUmm, theres no actual article for ...
159569    And it looks like it was actually you who put ...
159570    "\nAnd ... I really don't think you understand...
Name: comment_text, Length: 159571, dtype: object

In [None]:
X_train[]

"The Mitsurugi point made no sense - why not argue to include Hindi on Ryo Sakazaki's page to include more information?"

In [None]:
y_train

Unnamed: 0,toxic,severe_toxic,obscene,threat,insult,identity_hate
0,0,0,0,0,0,0
1,0,0,0,0,0,0
2,0,0,0,0,0,0
3,0,0,0,0,0,0
4,0,0,0,0,0,0
...,...,...,...,...,...,...
159566,0,0,0,0,0,0
159567,0,0,0,0,0,0
159568,0,0,0,0,0,0
159569,0,0,0,0,0,0


##  Stop words, normalizacja, stemming, lematyzacja

In [None]:
import re
import string
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from wordcloud import WordCloud
from nltk.stem.snowball import SnowballStemmer
from sklearn.model_selection import train_test_split
import pickle
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.metrics import roc_auc_score , accuracy_score , confusion_matrix , f1_score
from sklearn.multiclass import OneVsRestClassifier
from sklearn.feature_extraction.text import TfidfVectorizer

## Normalizacja
Normalizacja tekstu polega na takim jego przetworzeniu, aby miał spójną formę, która ułatwi dalszą interpretację tekstu (przykłady: zmiana liter na małe bądź wielkie, rozwinięcie skrótów, normalizacja skrótowców, konwersja wyrażeń numerycznych i wyrażeń słowno-numerycznych do postaci słownej, normalizacja znaków specjalnych – takich jak symbol akapitu czy znak zastrzeżenia prawa autorskiego, usunięcie lub zmiana znaków interpunkcyjnych itd.).


In [None]:
#kod do normalizacji
print("I\r\r\r\r'am")

I'am


In [None]:
def  clean_text(text):
    text =  text.lower()
    text = re.sub(r"i'm", "i am", text)
    text = re.sub(r"\r", "", text)
    text = re.sub(r"he's", "he is", text)
    text = re.sub(r"she's", "she is", text)
    text = re.sub(r"it's", "it is", text)
    text = re.sub(r"that's", "that is", text)
    text = re.sub(r"what's", "that is", text)
    text = re.sub(r"where's", "where is", text)
    text = re.sub(r"how's", "how is", text)
    text = re.sub(r"\'ll", " will", text)
    text = re.sub(r"\'ve", " have", text)
    text = re.sub(r"\'re", " are", text)
    text = re.sub(r"\'d", " would", text)
    text = re.sub(r"\'re", " are", text)
    text = re.sub(r"won't", "will not", text)
    text = re.sub(r"can't", "cannot", text)
    text = re.sub(r"n't", " not", text)
    text = re.sub(r"n'", "ng", text)
    text = re.sub(r"'bout", "about", text)
    text = re.sub(r"'til", "until", text)
    text = re.sub(r"[-()\"#/@;:<>{}`+=~|.!?,]", "", text)
    text = text.translate(str.maketrans('', '', string.punctuation)) 
    text = re.sub("(\\W)"," ",text) 
    text = re.sub('\S*\d\S*\s*','', text)
    
    return text

In [None]:
X_train = X_train.apply(clean_text)

In [None]:
X_train[:10]

0    explanation why the edits made under my userna...
1    daww he matches this background colour i am se...
2    hey man i am really not trying to edit war it ...
3     more i cannot make any real suggestions on im...
4    you sir are my hero any chance you remember wh...
5      congratulations from me as well use the tool...
6         cocksucker before you piss around on my work
7    your vandalism to the matt shirvington article...
8    sorry if the word nonsense was offensive to yo...
9    alignment on this subject and which are contra...
Name: comment_text, dtype: object

## Stop words
Są to najczęściej występujące słowa języka, które na ogół nie niosą ze sobą żadnych istotnych treści. Są zatem zazwyczaj usuwane w celu optymalizacji modelu.

W celu wykrycia i usunięcia wspomnianych słów skorzystamy z biblioteki *spaCy*, a konkretnie z anglojęzycznego pakietu *STOP_WORDS*.

In [None]:
from spacy.lang.en import English
from spacy.lang.en.stop_words import STOP_WORDS

nlp = English()
# "nlp" Obiekt służy do tworzenia dokumentów z adnotacjami lingwistycznymi

def stop_words_remove(text):
    nlp_doc = nlp(text)

    #tworzymi listę tokenów z przetwarzanego tekstu
    tokens = []
    for token in nlp_doc:
        tokens.append(token.text)

    # usuwamy 'stop words' i tworzymy nową listę tokenów
    filtered_tokens =[] 

    for word in tokens:
        word_id = nlp.vocab[word]
        if word_id.is_stop == False:
            filtered_tokens.append(word)
    
    filtered_comment = ' '.join(filtered_tokens) 
    
    return filtered_comment

**Przykład działania**

In [None]:
X_train[8]

'sorry if the word nonsense was offensive to you anyway i am not intending to write anything in the articlewow they would jump on me for vandalism i am merely requesting that it be more encyclopedic so one can use it for school as a reference i have been to the selective breeding page but it is almost a stub it points to animal breeding which is a short messy article that gives you no info there must be someone around with expertise in eugenics '

In [None]:
stop_words_remove(X_train[8])

'sorry word nonsense offensive intending write articlewow jump vandalism merely requesting encyclopedic use school reference selective breeding page stub points animal breeding short messy article gives info expertise eugenics'

**Usunięcie '*stop words*' ze zbioru treningowego**

In [None]:
X_train_stop = X_train.apply(stop_words_remove)
X_train_stop

0         explanation edits username hardcore metallica ...
1         daww matches background colour seemingly stuck...
2         hey man trying edit war guy constantly removin...
3           real suggestions improvement   wondered sect...
4                             sir hero chance remember page
                                ...                        
159566    second time asking view completely contradicts...
159567                ashamed    horrible thing talk page  
159568    spitzer    umm s actual article prostitution r...
159569      looks like actually speedy version deleted look
159570        think understand   came idea bad right awa...
Name: comment_text, Length: 159571, dtype: object

## Stemming 
Stemming jest procesem usunięcia końcówki fleksyjnej ze słowa, w  czego efekcie pozostaje tylko temat wyrazu. 


In [None]:
#nltk.download('stopwords')
sn = SnowballStemmer(language='english')


def stemmer(text):
    words =  text.split()
    train = [sn.stem(word) for word in words if not word in set(stopwords.words('english'))]
    return ' '.join(train)

In [None]:
X_train_stem = X_train_stop.apply(stemmer)

In [None]:
# żeby uniknąć każdorazowego uruchamiania stemmingu zapisujemy wynikową tabelę do pliku .csv
X_train_stem = pd.DataFrame(X_train_stem)
X_train_stem.to_csv('X_train_stem.csv') 

In [None]:
stem_csv = pd.read_csv('X_train_stem.csv')['comment_text']
stem_csv

0         explan edit made usernam hardcor metallica fan...
1         daww match background colour seem stuck thank ...
2         hey man realli tri edit war guy constant remov...
3         cannot make real suggest improv wonder section...
4                                sir hero chanc rememb page
                                ...                        
159566    second time ask view complet contradict covera...
159567                    asham horribl thing put talk page
159568    spitzer umm there actual articl prostitut ring...
159569    look like actual put speedi first version dele...
159570    realli think understand came idea bad right aw...
Name: comment_text, Length: 159571, dtype: object

## Lematyzacja

Lematyzacja to sprowadzenie słowa do jego podstawowej postaci. Na przykład w przypadku czasownika to najczęściej będzie bezokolicznik, w przypadku rzeczownika sprowadzamy do mianownika liczby pojedynczej.

In [None]:
import spacy


#budujemy model
#NER - Named Entity Recognition - wyłączamy
#'parser' daje informacje składniowe - póki co ich nie potrzebujemy. 
# https://spacy.io/usage/linguistic-features#disabling

# Wyłączenie parsera sprawi, że SpaCy będzie ładował się i działał znacznie szybciej
# https://spacy.io/usage/linguistic-features#named-entities
load_model = spacy.load('en_core_web_sm', disable = ['parser','ner'])

def lemmatization(text):
    text_model = load_model(text)
    result = " ".join([token.lemma_ for token in text_model])
    return result

In [None]:
X_train_lem = X_train_stop.apply(lemmatization)

**Przykład działania**

In [None]:
X_train_stop[0]

'explanation edits username hardcore metallica fan reverted vandalisms closure gas voted new york dolls fac remove template talk page retired'

In [None]:
X_train_lem[0]

'explanation edit username hardcore metallica fan revert vandalism closure gas vote new york doll fac remove template talk page retire'

In [None]:
# żeby uniknąć każdorazowego uruchamiania funkcji z lematyzacją zapisujemy wynikową tabelę do pliku .csv
X_train_lemm = pd.DataFrame(X_train_lem)
X_train_lemm.to_csv('X_train_lem.csv') 

## Wektoryzacja

Na początku przedstawimy kilka podstawowych pojęć związanych z przetwarzaniem języka naturalnego.
### „Bag of words” 
Aby algorytm mógł sobie poradzić z tekstem, musimy najpierw podzielić ten tekst na mniejsze fragmenty. Stworzenie tzw. "worka słów" jest jednym ze sposób na uzyskanie takiego podziału. Każde słowo użyte w tekście zostaje wyodrębnione i wrzucone do multizbioru. Dla przykładu, jeśli mamy dwa zdania: „Marcin ma kota.” oraz „Patryk ma psa.”, to w worku słów znajdzie się pięć słów: Marcin, ma, kota, Patryk, psa. Ich kolejność nie będzie odgrywała roli.


### N_gram
W naszym worku mogą się znaleźć nietylko pojedyńcze słowa, ale pewne sekwencje słów. N-gram jest ciągiem elementów z danej próbki tekstu bądź mowy. Zazwyczaj jednym elementem jest pojedyncze słowo (ale w określonych przypadkach mogą też być to fonemy, litery lub sylaby).

### Wektoryzacja

Z "bag of words" blisko związanym terminem jest wektoryzacjia. Najprostszym wektoryzatorem jest CountVectorizer. Zlicza on liczbę wystąpień każdego wyrazu (lub n_gramu) w tekście i przedstawia za pomocą wektora składającego się z liczb naturalnych. Każda liczba informuje, ile razy dany element wystąpił w analizowanym tekście.

Przykładem innego wektoryzatora, który rozpatrywaliśmy w naszym projekcie, jest wektoryzator TF-IDF. Opiera się on na metodzie obliczania wagi słów w oparciu o liczbę ich wystąpień w całym zbiorze jak i w pojedyńczych dokumentach.

$$\text{Dla termu }t_i\text{ w dokumencie }d_j\text{ mamy:}$$

$$(tf-idf)_{i,j} = (tf)_{i,j} \times (idf)_{i}$$
gdzie:

$(tf)_{i,j}-$ term frequency, liczba wystąpień termu $t_i$ w dokumencie $d_j$ podzielona przez liczbę wszystkich termów w $d_j.$

$(idf)_i-$ inverse document frequency, $(idf)_i = ln\left( \dfrac{|D|}{|\{j\ : f_i \in d_j\}|} \right)$ - gdzie $D$ to zbiór wszystkich dokumentów.


In [None]:
word_vectorizer = TfidfVectorizer(
    strip_accents='unicode', #normalizacja tekstu, usuwanie akcentów itp. unicode jest wolniejsza, ale radzi sobie z dowolnymi znakami   
    token_pattern=r'\w{1,}',  #co zaliczamy jako token - tutaj są to obiekty typu r'\w' czyli o kategorii alfabetonumerycznej, o długości 1 lub większej   
    ngram_range=(1, 3),      #liczba możliwych n-gramów - tutaj dopuszczamy mono-, bi-, i tri-gramy  
    stop_words='english', #jaka kategoria dla stopwords, domyślnie jest None, dostępna jest opcja 'english' lub inna własna lista
    sublinear_tf=True) #zamiast term frequency (tf) oddaje 1+ln(tf)

word_vectorizer.fit(X_train)    
train_word_features = word_vectorizer.transform(X_train)

In [None]:
X_train_transformed = word_vectorizer.transform(x_train)

In [None]:
print(X_train_transformed)

źródła: https://www.statystyczny.pl/klasyfikacja-tekstu-text-classification/

### Wektoryzacja - tensor ze zmiennymi binarnymi

Alternatywnym sposobem wektoryzacji będzie stworzenie tensora ze zmiennymi zero-jedynkowymi. Każda z nich odpowiada za wystąpienie bądź niewystąpienie danego słowa w danym komentarzu. Postać binarna macierzy powinna zapobiec problemowi zbyt dużej złożoności obliczeniowej.

Jednak żeby uniknąć macierzy o zbyt dużych wymiarach wybierzemy jedynie 1000 najczęściej występujących słów w zbiorze. 

In [None]:
full_text = ' '.join(list(X_train_lem))
full_text = full_text.split()
words = pd.DataFrame(full_text).value_counts()

In [None]:
words_5000 = words.rename_axis(['word'])\
            .reset_index()\
            .rename(columns={0:'count'})\
            .sort_values(by=['count'], ascending=False)

words_sequence = words_5000.loc[0:5000,'word'].values
words_sequence

        word  count
0    article  72932
1       page  56447
2  wikipedia  37072
3       edit  36560
4       talk  33962


array(['article', 'page', 'wikipedia', ..., 'resonance', 'intact',
       'physician'], dtype=object)

In [None]:
def vectorize_sequences(dataset, sequences, dimension=1000):
    results = np.zeros(shape = (dataset.shape[0], dimension), dtype=int)
    for j in range(dataset.shape[0]):
        for i,sequence in enumerate(sequences[0:1000]):
            if sequence in dataset[j]:
                results[j,i] = 1
                
    return results

In [None]:
#X_train_vect_bin = vectorize_sequences(X_train_bin_vect, list(words_sequence))