# Preprocesarea Datelor

Limbajul scris conține multe elemente care nu relevă informație neapărat relevantă pentru taskul curent. De multe ori este mai bine să eliminăm declinările, punctuația, numerele etc. din modelarea textului. Depinzând de problema curentă, putem alege una sau mai multe metode de curățare a textului:
- Tokenizarea textului
- Transformarea în litere mici
- Eliminarea cifrelor / numerelor sau transformarea lor în cuvinte
- Eliminarea linkurilor [LINK]
- Eliminarea userilor (@) [USER]
- Eliminarea sau înlocuirea hashtagurilor (#)
- Eliminarea sau transformarea în cuvinte a emoticoanelor ( :) :D) și a emojiurilor (💙 🐱)
- Eliminarea punctuației
- Eliminarea cuvintelor comune din limbă (stopwords)
- Stemming / lemmatizare

# RegEx

Un [RegEx](https://www.w3schools.com/python/python_regex.asp) (_Regular Expression_ / _Expresie Regulată_) reprezintă un șir de caractere care definește un șablon de căutare. Poate fi folosit pentru a identifica un subșir într-un string, pentru a-l înlocui sau pentru a împărți textul în jurul lui.

Puteți vedea cum funcționează un regex pe un text anume folosind acest link: https://pythex.org/.

In [None]:
import re

txt = "The rain   in Spain stays mainly   in the plain"
x = re.search("Spai.", txt)
x

<re.Match object; span=(14, 19), match='Spain'>

Căutarea unui string nu returnează nimic dacă nu găsește niciun match, altfel returnează un obiect cu matchul exact și poziția la care se află. Stringul devine relevant când folosim alte simboluri pentru pattern matching, cum ar fi:
- . - orice caracter
- \+ - mai multe apariții ale caracterului anterior
- \* - un număr nedefinit de apariții are caracterului anterior, incluzând 0

In [None]:
x = re.split(" +.", txt)
print(x)

['The', 'ain', 'n', 'pain', 'tays', 'ainly', 'n', 'he', 'lain']


Alte caractere speciale:
- \d - cifre
- \D - nu cifre
- \s - spațiu
- \S - nu spațiu
- \w - litere mici, majuscule, caracterul "_"
- \W - tot ce nu e \w
- [a-m] - setul de caractere din interior. Poate include intervale

Librăria completă poate fi găsită aici https://docs.python.org/3/library/re.html.

Putem folosi un regex să identificăm toate cuvintele care includ secvența "ai":


In [None]:
x = re.findall("\w*ai\w", txt)
print(x)

['rain', 'Spain', 'main', 'plain']


# Tokenizare

Tokenizarea este procesul de împărțire a textului în _tokens_. Tokenii nu sunt neapărat cuvinte sau propoziții, ci o secvență de caractere împărțite după o anumită regulă.

Pentru următoarele exerciții vom folosi un corpus din [NLTK](https://www.nltk.org/) pentru analiza sentimentelor.

In [None]:
import nltk
from nltk.corpus import twitter_samples

nltk.download('punkt')
nltk.download('twitter_samples')
tweets = twitter_samples.strings('positive_tweets.json')
negative_tweets = twitter_samples.strings('negative_tweets.json')
tweets

In [None]:
from nltk import sent_tokenize, word_tokenize

print(tweets[6])
print(sent_tokenize(tweets[6]))
print(word_tokenize(tweets[6]))

We don't like to keep our lovely customers waiting for long! We hope you enjoy! Happy Friday! - LWWF :) https://t.co/smyYriipxI
["We don't like to keep our lovely customers waiting for long!", 'We hope you enjoy!', 'Happy Friday!', '- LWWF :) https://t.co/smyYriipxI']
['We', 'do', "n't", 'like', 'to', 'keep', 'our', 'lovely', 'customers', 'waiting', 'for', 'long', '!', 'We', 'hope', 'you', 'enjoy', '!', 'Happy', 'Friday', '!', '-', 'LWWF', ':', ')', 'https', ':', '//t.co/smyYriipxI']


Observați cum nltk desparte cuvântul "don't". Alte tokenizatoare îl pot păstra întreg. Acesta este un exemplu de decizie de tokenizare care trebuie făcută.

# Emoticoane & emojiuri

Tokenizarea se bazează de obicei pe spații și punctuație, ceea ce înseamnă că nu știe să gestioneze emoticoanele. O variantă este să ne creăm propriul regex care să identifice simbolurile să să le înlocuiască cu emoția corespunzătoare.

Un scurt exemplu:

In [None]:
emoticons = {
    "happy": r":[\)|D+]",
    "laugh": r":\)\)+",
    "sad": r":\(+"
}

Pentru emoticoane putem folosi biblioteca [emoji](https://pypi.org/project/emoji/):

In [None]:
!pip install emoji

Collecting emoji
  Downloading emoji-2.8.0-py2.py3-none-any.whl (358 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/358.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m358.4/358.9 kB[0m [31m12.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m358.9/358.9 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji
Successfully installed emoji-2.8.0


In [None]:
import emoji

print(tweets[24])
emoji.demojize(tweets[24])

💅🏽💋 - :)))) haven't seen you in years


":nail_polish_medium_skin_tone::kiss_mark: - :)))) haven't seen you in years"

# Lematizare vs. Stemming

De cele mai multe ori formatul exact în care apare un text nu este relevant, ci ne interesează mai mult informația pe care o transmite și frecvența sa în text. Din acest motiv putem reduce cuvintele la cea mai simplă formă a lor.

În cazul lematizării cea mai simplă formă este forma de dicționar și se numește _lemă_. Stemmingul folosește regex pentru a elimina prefixele și sufixele, ceea ce înseamnă că un _stem_ nu reprezintă neapărat un cuvânt real, sau poate reprezenta un alt cuvânt deja existent.

În general folosim stemmingul când vrem un răspuns rapid sau când avem de-a face cu multe cuvinte scrise incorect (ca pe rețelele de socializare).

![1_HLQgkMt5-g5WO5VpNuTl_g.jpeg](https://miro.medium.com/max/564/1*HLQgkMt5-g5WO5VpNuTl_g.jpeg)

Aici este un exemplu de cum putem folosi lematizarea sau stemmingul pentru limba engleză:

In [None]:
nltk.download('wordnet')

In [None]:
word = "leaves"

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(f"{word} :", lemmatizer.lemmatize(word))

leaves : leaf


In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print(f"{word} :", stemmer.stem(word))

leaves : leav


# Cuvinte comune (Stopwords)

Stopwords reprezintă cele mai des utilizate cuvinte dintr-o limbă. Deși au valoare sintactică și morfologică, stopwords nu au foarte multă valoare semantică. Cele mai multe sunt pronume ("we"), prepoziții ("for") sau conjuncții ("and"), dar putem regăsi și verbe ("is") sau numerale ("two").

[Fun fact](https://www.youtube.com/watch?v=fCn8zs912OE)

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.corpus import stopwords

stop_words_nltk = set(stopwords.words('english'))
print(stop_words_nltk)

{'through', 'on', 'each', 'out', "don't", 'me', 'o', 'in', "won't", 'before', "that'll", 'm', 'ourselves', "shouldn't", 'nor', 'it', "you'll", 'has', 'all', 'some', 're', 'to', 'did', 'with', "wasn't", 'this', "isn't", 'during', 'further', "haven't", 'while', 'the', 'over', 'couldn', 'same', 'and', 'have', 'here', "she's", 'between', 'aren', "hasn't", 'had', 'by', 'other', 'because', "weren't", 'than', 't', 'haven', 'until', 'but', 'y', "couldn't", 'why', 'do', 've', "needn't", 'yourselves', 'having', 's', 'is', 'just', 'isn', 'theirs', 'their', 'myself', 'whom', 'him', 'where', 'yours', 'hasn', 'doing', 'being', "you'd", 'they', 'were', 'if', 'shan', 'wasn', 'as', "should've", 'll', "mustn't", 'off', 'we', 'own', 'under', 'too', "aren't", 'shouldn', 'i', 'ma', 'he', 'above', 'once', 'will', 'against', 'his', 'hadn', 'ain', "didn't", 'that', 'how', 'there', 'most', 'hers', 'itself', 'our', "hadn't", 'then', "doesn't", 'd', 'her', 'them', 'be', 'very', 'can', 'she', 'more', 'ours', "you

# Exerciții



1. Scrie o funcție care împarte un text în tokeni folosind regex.
2. Scrie o funcție care înlocuiește toate emoticoanele (nu doar cele date ca exemplu) și emojiurile din text.
3. Scrie o funcție care primește un text și returnează varianta preprocesată. Funcția va converti toate numerele în cuvinte folosind [num2words](https://pypi.org/project/num2words/), va elimina linkurile, hashtagurile, mentions, punctuația, stopwords, va face toate textele literă mică și va aplica lematizarea sau stemming.
4. Analizează setul de date. Uită-te la elemente de preprocesare sau alte features folosind ce ați învățat în primul laborator. Ce pare important?
5. Pe baza analizei anterioare scrie o funcție de preprocesare care elimină doar informația irelevantă. Poți generaliza funcția originală specificând în lista de parametri ce modificări vrei să faci la apelarea funcției. Alternativ, poți face o clasă care include o serie de funcții care pot fi alese la inițializare. Cu cât e mai general cu atât mai bine.
6. Compară metodele de preprocesare.