# Natural Language Toolkit (NLTK)

In [0]:
import nltk
nltk.download("all")

In [0]:
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."

In [0]:
tokens = nltk.word_tokenize(sentence)
tokens

In [0]:
tagged = nltk.pos_tag(tokens)
tagged

**Extensive list Part Of Speech (POS) tag**
 *   CC coordinating conjunction
 *   CD cardinal digit
 *   DT determiner
 *   EX existential there (like: "there is" ... think of it like "there exists")
 *   FW foreign word
 *   IN preposition/subordinating conjunction
 *   JJ adjective 'big'
 *   JJR adjective, comparative 'bigger'
 *   JJS adjective, superlative 'biggest'
 *   LS list marker 1)
 *   MD modal could, will
 *   NN noun, singular 'desk'
 *   NNS noun plural 'desks'
 *   NNP proper noun, singular 'Harrison'
 *   NNPS proper noun, plural 'Americans'
 *   PDT predeterminer 'all the kids'
 *   POS possessive ending parent's
 *   PRP personal pronoun I, he, she
 *   PRP\$ possessive pronoun my, his, hers
 *   RB adverb very, silently,
 *   RBR adverb, comparative better
 *   RBS adverb, superlative best
 *   RP particle give up
 *   TO to go 'to' the store.
 *   UH interjection errrrrrrrm
 *   VB verb, base form take
 *   VBD verb, past tense took
 *   VBG verb, gerund/present participle taking
 *   VBN verb, past participle taken
 *   VBP verb, sing. present, non-3d take
 *   VBZ verb, 3rd person sing. present takes
 *   WDT wh-determiner which
 *   WP wh-pronoun who, what
 *   WP\$ possessive wh-pronoun whose
 *   WRB wh-abverb where, when




In [0]:
from nltk.sentiment.util import mark_negation



In [0]:
sent = "I didn't like this movie . It was bad .".split()
mark_negation(sent)

['I',
 "didn't",
 'like_NEG',
 'this_NEG',
 'movie_NEG',
 '.',
 'It',
 'was',
 'bad',
 '.']

In [0]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [0]:
sentence1 = "I hate running"
sentence2 = "I love NLP"
list_sentence = [sentence1, sentence2]

In [0]:
for sentence in list_sentence:
  print(sentence, SentimentIntensityAnalyzer().polarity_scores(sentence))

I hate running {'neg': 0.787, 'neu': 0.213, 'pos': 0.0, 'compound': -0.5719}
I love NLP {'neg': 0.0, 'neu': 0.192, 'pos': 0.808, 'compound': 0.6369}


# TEXT Cleaning

In [0]:
import re
import numpy as np
def clean_data(lines):
  # prepare translation table for removing punctuation
  clean_text = list()
  for line in lines:
    # tokenize on white space
    line = re.sub('[éëèêë]', 'e', line)
    line =re.sub('[áàâä]','a', line)
    line =re.sub('[ù]','u', line)
    line = line.split()
    # convert to lowercase
    line = [word.lower() for word in line]
    line = [w.strip() for w in line]
    # store as string
    clean_text.append(' '.join(line))
  return np.array(clean_text)

In [0]:
sentence = ['ésmi   Ahmed w oùmri 10 snin', 'le NLP est interessant', 'le nlp ést interessant']

In [0]:
clean_data(sentence)

array(['esmi ahmed w oumri 10 snin', 'le nlp est interessant',
       'le nlp est interessant'], dtype='<U26')

In [0]:
from nltk.corpus import stopwords
stop_words = list(set(stopwords.words('english')))
sentence = "a set of words that is complete in itself, typically containing a subject and predicate, conveying a statement, question, \
              exclamation, or command, and consisting of a main clause and sometimes one or more subordinate clauses."
tokens = nltk.word_tokenize(sentence)
preserved = [w for w in tokens if not w in stop_words]
preserved

['set',
 'words',
 'complete',
 ',',
 'typically',
 'containing',
 'subject',
 'predicate',
 ',',
 'conveying',
 'statement',
 ',',
 'question',
 ',',
 'exclamation',
 ',',
 'command',
 ',',
 'consisting',
 'main',
 'clause',
 'sometimes',
 'one',
 'subordinate',
 'clauses',
 '.']

# Web Scraping

In [0]:
from urllib.request import urlopen
!pip install bs4
from bs4 import BeautifulSoup



In [0]:
url = urlopen("http://www.asslemafm.net/2019/01/bejikaidsebsijournal04012019.html?fbclid=IwAR2QhzxeXorQ1w9IybSAvkVVj3UP95LVgNOLKd8BfM3wz8R7Mu5jXY3S4aA")
bs = BeautifulSoup(url, "html.parser")

In [0]:
tag =bs.find('div',itemprop="articleBody")
l = tag.find_all('b')
res = ''
for x in l :
  res += ' '+ x.text

In [0]:
res

' خلال إستقباله أمس، الخميس 3 جانفي 2019، لأعضاء الهيئة المديرة للجامعة التونسيّة لمديري الصحف، شدد رئيس الجمهورية الباجي قائد السبسي على الدور الأساسي للصحافة في تدعيم وحماية المسار الديمقراطي في تونس وعبّر عن تفهّمه لمشاغل القطاع وأكد حرصه الشخصي على ضمان المناخ الملائم والإمكانيّات الضرورية لتطوير قطاع الصحافة الورقيّة والإكترونية، وتقديم ما يلزم من دعم ومساندة بالتنسيق مع الحكومة ومجلس نواب الشعب خاصة من خلال العمل على التسريع بمناقشة مشروع قانون إحداث الوكالة الوطنية للتصرّف في الإشهار العمومي والإشتراكات. وفي معرض حديثه عن الأزمة التي تمر بها الصحف التونسي، أشار إلى أنه على وعي تام بهذه الأزمة وبعمقها، وقال “لست مستعدا أن أنهض الخامسة صباحا ولا أجد صحفا أقرأها ” . وكان اللقاء قد إستعرض مشاغل قطاع الصحافة الورقيّة والاكترونيّة والمشاكل التي يمرّ بها القطاع وخاصة الصعوبات الماديّة للمؤسّسات الاعلاميّة وضرورة توفير مداخيل قارة لها عبر التوزيع العادل للاشتراكات والإشهار العمومي وفق مقاييس موضوعيّة وشفّافة لا حسب الولاءات. وأكد رئيس الجمهورية أنه متابع للصحف التونسية وإستحضر أمام أعضا

In [0]:
import tensorflow as tf
import numpy as np
tf.cast(s[:, :, np.newaxis, np.newaxis], x.dtype)

NameError: ignored

In [0]:
import numpy as np
p1 = np.array([[[1, 2] , [1, 2]], [[1, 2] , [1, 2]]] * 2 )
p2 = np.array([[[5, 3], [5, 3]], [[5, 3], [5, 3]]] * 2 )
p1 + [] + p2

ValueError: ignored