# Preprocesare

Limbajul scris conține o serie de elemente care nu transmit neapărat informații relevante pentru problema pe care încercăm să o rezolvăm. Mai jos este o listă de acțiuni pe care le putem face asupra textului pentru a elimina caracterele nedorite:
- tokenizare (împărțim în cuvinte / tokeni)
- transformarea tuturor literelor în litere mici
- eliminarea cifrelor / transformarea lor în cuvinte
- eliminarea semnelor de punctuație
- eliminarea (sau înlocuirea) linkurilor [LINK], tagurilor [TAG] și mențiunilor [USER]
- eliminarea (sau înlocuirea) emoticoanelor ( :) :D) și emojiurilor (💙 🐱)
- eliminarea cuvintelor de legătură (stopwords)
- transformarea cuvintelor în cea mai simplă formă a lor (lematizare / stemming)

In [2]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('twitter_samples')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package twitter_samples to /root/nltk_data...
[nltk_data]   Unzipping corpora/twitter_samples.zip.


True

Vom folosi un set de date pentru sentiment analysis:

In [3]:
from nltk.corpus import twitter_samples

tweets = twitter_samples.strings('positive_tweets.json')
negative_tweets = twitter_samples.strings('negative_tweets.json')
tweets[:20]

['#FollowFriday @France_Inte @PKuchly57 @Milipol_Paris for being top engaged members in my community this week :)',
 '@Lamb2ja Hey James! How odd :/ Please call our Contact Centre on 02392441234 and we will be able to assist you :) Many thanks!',
 '@DespiteOfficial we had a listen last night :) As You Bleed is an amazing track. When are you in Scotland?!',
 '@97sides CONGRATS :)',
 'yeaaaah yippppy!!!  my accnt verified rqst has succeed got a blue tick mark on my fb profile :) in 15 days',
 '@BhaktisBanter @PallaviRuhail This one is irresistible :)\n#FlipkartFashionFriday http://t.co/EbZ0L2VENM',
 "We don't like to keep our lovely customers waiting for long! We hope you enjoy! Happy Friday! - LWWF :) https://t.co/smyYriipxI",
 '@Impatientraider On second thought, there’s just not enough time for a DD :) But new shorts entering system. Sheep must be buying.',
 'Jgh , but we have to go to Bayan :D bye',
 'As an act of mischievousness, am calling the ETL layer of our in-house warehousing 

Din această listă ne vom uita la tweetul numărul 6:

In [4]:
text = tweets[4]
text

'yeaaaah yippppy!!!  my accnt verified rqst has succeed got a blue tick mark on my fb profile :) in 15 days'

## RegEx

Un [RegEx](https://www.w3schools.com/python/python_regex.asp) (_Regular Expression_ / _Expresie Regulată_) reprezintă un șir de caractere care definește un șablon de căutare. Poate fi folosit pentru a identifica un subșir într-un string, pentru a-l înlocui sau pentru a împărți textul în jurul lui.

Puteți vedea cum funcționează un regex pe un text anume folosind acest link: https://pythex.org/.

In [5]:
import re

txt = "The rain   in Spain stays mainly   in the plain"
x = re.search("Spai.", txt)
x

<re.Match object; span=(14, 19), match='Spain'>

Căutarea unui string nu returnează nimic dacă nu găsește niciun match, altfel returnează un obiect cu matchul exact și poziția la care se află. Stringul devine relevant când folosim alte simboluri pentru pattern matching, cum ar fi:
- . - orice caracter
- \+ - mai multe apariții ale caracterului anterior
- \* - un număr nedefinit de apariții are caracterului anterior, incluzând 0

In [6]:
x = re.split(" +.", txt)
print(x)

['The', 'ain', 'n', 'pain', 'tays', 'ainly', 'n', 'he', 'lain']


Alte caractere speciale:
- \d - cifre
- \D - nu cifre
- \s - spațiu
- \S - nu spațiu
- \w - litere mici, majuscule, caracterul "_"
- \W - tot ce nu e \w
- [a-m] - setul de caractere din interior. Poate include intervale

Librăria completă poate fi găsită aici https://docs.python.org/3/library/re.html.

Putem folosi un regex să identificăm toate cuvintele care includ secvența "ai":


In [7]:
x = re.findall("\w*ai\w", txt)
print(x)

['rain', 'Spain', 'main', 'plain']


## Tokenizare

Putem separa cuvintele în funcție de spațiu:

In [8]:
text.split()

['yeaaaah',
 'yippppy!!!',
 'my',
 'accnt',
 'verified',
 'rqst',
 'has',
 'succeed',
 'got',
 'a',
 'blue',
 'tick',
 'mark',
 'on',
 'my',
 'fb',
 'profile',
 ':)',
 'in',
 '15',
 'days']

Sau cu ajutorul unei funcții:

In [9]:
from nltk import word_tokenize

word_tokenize(text)

['yeaaaah',
 'yippppy',
 '!',
 '!',
 '!',
 'my',
 'accnt',
 'verified',
 'rqst',
 'has',
 'succeed',
 'got',
 'a',
 'blue',
 'tick',
 'mark',
 'on',
 'my',
 'fb',
 'profile',
 ':',
 ')',
 'in',
 '15',
 'days']

In [10]:
word_tokenize("we don't like to keep our lovely customers waiting for long! we hope you enjoy! happy friday! - lwwf :) https://t.co/smyyriipxi")

['we',
 'do',
 "n't",
 'like',
 'to',
 'keep',
 'our',
 'lovely',
 'customers',
 'waiting',
 'for',
 'long',
 '!',
 'we',
 'hope',
 'you',
 'enjoy',
 '!',
 'happy',
 'friday',
 '!',
 '-',
 'lwwf',
 ':',
 ')',
 'https',
 ':',
 '//t.co/smyyriipxi']

Putem separa propozițiile între ele tot cu ajutorul unei funcții:

In [11]:
from nltk import sent_tokenize

sent_tokenize(text)

['yeaaaah yippppy!!!',
 'my accnt verified rqst has succeed got a blue tick mark on my fb profile :) in 15 days']

## Litere mici (lowercase)

Transformarea literelor în minuscule este cea mai simplă operație:

In [12]:
text.lower()

'yeaaaah yippppy!!!  my accnt verified rqst has succeed got a blue tick mark on my fb profile :) in 15 days'

## Eliminarea cifrelor

In [13]:
"63".isdigit()

True

In [14]:
"not5".isdigit()

False

Pentru a transforma numerele în cuvinte putem folosi librăria num2words:

In [15]:
!pip install num2words

Collecting num2words
  Downloading num2words-0.5.13-py3-none-any.whl (143 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/143.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━[0m [32m92.2/143.3 kB[0m [31m2.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.3/143.3 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6.2 (from num2words)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13706 sha256=3a47730838a9cf79616653383a1cd0c426f372fceeca26ff52b7debd4b838b71
  Stored in directory: /root/.cache/pip/wheels/fc/ab/d4/5da2067ac95b36618c629a5f93f809425700506f72c9732fac
Successfully built docopt
Installin

In [16]:
from num2words import num2words

num2words(15)

'fifteen'

Cum putem identifica toate numerele dintr-un text?

In [30]:
text = "yeaaaah yippppy!!!  my accnt verified rqst has succeed got a blue tick mark on my fb profile :) in 15 days"

In [31]:
# TODO: Parcurge tokenii din text si afiseaza numerele
def get_numbers_1(text):
  """ Varianta C++ """
  numbers = []
  for token in word_tokenize(text):
    if token.isdigit():
      numbers.append(token)
  return numbers


def get_numbers_2(text):
  """ Varianta cu list comprehension """
  return [token for token in word_tokenize(text) if token.isdigit()]


def get_numbers_3(text):
  """ Varianta cu RegEx """
  return re.findall(r"\d+", text)


get_numbers_3(text)

['15']

In [35]:
# TODO: Creeaza o lista cu toate cuvintele din text inafara de numere
def filter_numbers(text):
  return [token for token in word_tokenize(text) if not token.isdigit()]


filter_numbers(text)

['yeaaaah',
 'yippppy',
 '!',
 '!',
 '!',
 'my',
 'accnt',
 'verified',
 'rqst',
 'has',
 'succeed',
 'got',
 'a',
 'blue',
 'tick',
 'mark',
 'on',
 'my',
 'fb',
 'profile',
 ':',
 ')',
 'in',
 'days']

## Eliminarea semnelor de punctuatie

Exista o librarie care deja contine toate semnele de punctuatie:

In [37]:
from string import punctuation

print(punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Elimina toate semnele de punctuatie din text:

In [38]:
# TODO: Creeaza o lista cu toate cuvintele din text inafara de semnele de punctuatie
def filter_punctuation(text):
  return [token for token in word_tokenize(text) if token not in punctuation]


filter_punctuation(text)

['yeaaaah',
 'yippppy',
 'my',
 'accnt',
 'verified',
 'rqst',
 'has',
 'succeed',
 'got',
 'a',
 'blue',
 'tick',
 'mark',
 'on',
 'my',
 'fb',
 'profile',
 'in',
 '15',
 'days']

## Eliminarea linkurilor, tagurilor si mentiunilor

Linkurile incep (de obicei) cu caracterele "http", tagurile cu "#" si mentiunile cu "@". Cum ne putem folosi de informatia asta pentru a le elimina din text?

In [65]:
# TODO: Elimina linkurile, tagurile si mentiunile din text
text = "@BhaktisBanter @PallaviRuhail This one is irresistible :)\n#FlipkartFashionFriday http://t.co/EbZ0L2VENM"

def filter_other(text):
  return re.sub(r"(@|#|http)(\w|:|/|\.)*", "", text)


filter_other(text)

'  This one is irresistible :)\n '

## Emoticoane & emojiuri

Tokenizarea se bazează de obicei pe spații și punctuație, ceea ce înseamnă că nu știe să gestioneze emoticoanele. O variantă este să ne creăm propriul regex care să identifice simbolurile să să le înlocuiască cu emoția corespunzătoare.

Un scurt exemplu:

In [66]:
emoticons = {
    "happy": r":[\)|D+]",
    "laugh": r":\)\)+",
    "sad": r":\(+"
}

Pentru emoticoane putem folosi biblioteca [emoji](https://pypi.org/project/emoji/):

In [67]:
!pip install emoji

Collecting emoji
  Downloading emoji-2.11.0-py2.py3-none-any.whl (433 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/433.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.6/433.8 kB[0m [31m5.8 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m430.1/433.8 kB[0m [31m7.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m433.8/433.8 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji
Successfully installed emoji-2.11.0


In [68]:
import emoji

print(tweets[24])
emoji.demojize(tweets[24])

💅🏽💋 - :)))) haven't seen you in years


":nail_polish_medium_skin_tone::kiss_mark: - :)))) haven't seen you in years"

## Eliminarea cuvintelor de legatura (stopwords)

In [69]:
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
stop_words[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

Elimina toate cuvintele din text care se regasesc in lista de cuvinte de legatura:

In [71]:
# TODO: Elimina stopwords din text
def filter_stopwords(text):
  return ' '.join([token for token in word_tokenize(text) if token not in stop_words])

filter_stopwords(text)

'@ BhaktisBanter @ PallaviRuhail This one irresistible : ) # FlipkartFashionFriday http : //t.co/EbZ0L2VENM'

## Lematizare sau Stemming

Ne amintim ca lematizarea aduce un cuvant la forma sa de dictionar, in timp ce stemmingul elimina o serie de prefixe / sufixe predefinite:

![1_HLQgkMt5-g5WO5VpNuTl_g.jpeg](https://miro.medium.com/max/564/1*HLQgkMt5-g5WO5VpNuTl_g.jpeg)

In [72]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print("leaves :", lemmatizer.lemmatize("leaves"))

leaves : leaf


In [73]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print("leaves :", stemmer.stem("leaves"))

leaves : leav


# Exercitiu

Creaza o functie care primeste un tweet ca parametru si returneaza o lista de cuvinte asupra carora am aplicat toate operatiile de preprocesare discutate până acum.

In [76]:
def preprocess(text):
  return [lemmatizer.lemmatize(token.lower()) for token in emoji.demojize(text).split() \
          if not token.isdigit() and \
          token not in punctuation and \
          token[0] not in ['#', '@'] and token[:3] not in ['htt', 'www'] and \
          token not in stop_words]

preprocess(text)

['this', 'one', 'irresistible', ':)']

# Exercitiu

Testează mai multe combinații de preprocesări și embeddings pe setul de date de azi folosind unul din modelele de data trecută.