In [5]:
import nltk

#### Download the nltk data

In [6]:
# nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\marya\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\cmudict.zip.
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\marya\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\gazetteers.zip.
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\marya\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\genesis.zip.
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\marya\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\gutenberg.zip.
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\marya\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     C:\Users\marya\AppData\Roaming\nl

True

#### Load english tokenizer

In [7]:
tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')

In [8]:
text=" Hello everyone. Hope all are fine and doing well. Hope you find the book interesting"

In [9]:
tokenizer.tokenize(text)


[' Hello everyone.',
 'Hope all are fine and doing well.',
 'Hope you find the book interesting']

#### Load French tokenizer

In [10]:
french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')

In [13]:
text_fr = "Deux agressions en quelques jours, voilà ce qui a motivé hier matin  le débrayage collège franco-britanniquedeLevallois-Perret. Deux agressions en quelques jours, voilà ce qui a motivé hier matin le débrayage Levallois. L'équipe pédagogique de ce collège de 750 élèves avait déjà été choquée par l'agression, janvier , d'un professeur d'histoire. L'équipe pédagogique de ce collège de 750 élèves avait déjà été choquée par l'agression, mercredi , d'un professeur d'histoire"

In [14]:
french_tokenizer.tokenize(text_fr)

['Deux agressions en quelques jours, voilà ce qui a motivé hier matin  le débrayage collège franco-britanniquedeLevallois-Perret.',
 'Deux agressions en quelques jours, voilà ce qui a motivé hier matin le débrayage Levallois.',
 "L'équipe pédagogique de ce collège de 750 élèves avait déjà été choquée par l'agression, janvier , d'un professeur d'histoire.",
 "L'équipe pédagogique de ce collège de 750 élèves avait déjà été choquée par l'agression, mercredi , d'un professeur d'histoire"]

#### Tokenization of sentences into words

In [19]:
from nltk.tokenize import TreebankWordTokenizer

In [20]:
tokenizer  = TreebankWordTokenizer()

In [21]:
tokenizer.tokenize("Have a nice day. I hope you find the book interesting")

['Have',
 'a',
 'nice',
 'day.',
 'I',
 'hope',
 'you',
 'find',
 'the',
 'book',
 'interesting']

TreebankWordTokenizer ises conventions according to Penn Treebank Corpus. it works by separating contractions.

In [22]:
text = nltk.word_tokenize("Don't hesitate to ask questions")

In [23]:
text

['Do', "n't", 'hesitate', 'to', 'ask', 'questions']

Another word tokenizer is PunktWordTokenizer . It works by splitting punctuation; each word is
kept instead of creating an entirely new token. Another word tokenizer is WordPunctTokenizer . It
provides splitting by making punctuation an entirely new token. This type of splitting is usually
desirable:

In [24]:
from nltk.tokenize import WordPunctTokenizer

In [25]:
tokenizer = WordPunctTokenizer()

In [26]:
tokenizer.tokenize("Don't hesitate to ask questions")

['Don', "'", 't', 'hesitate', 'to', 'ask', 'questions']

#### Tokenization using regular expression (regex)

The tokenization of words can be performed by constructing regular expressions in these two ways:
- By matching with words
- By matching spaces or gaps


We can import RegexpTokenizer from NLTK. We can create a Regular Expression that can match
the tokens present in the text:

In [27]:
from nltk.tokenize import RegexpTokenizer

In [28]:
tokenizer=RegexpTokenizer("[\w]+")

In [29]:
tokenizer.tokenize("Don't hesitate to ask questions")

['Don', 't', 'hesitate', 'to', 'ask', 'questions']

Instead of instantiating class, an alternative way of tokenization would be to use this function:


In [31]:
from nltk.tokenize import regexp_tokenize

In [32]:
sent="Don't hesitate to ask questions"

In [33]:
print(regexp_tokenize(sent, pattern="\w+|$[\d.]+|\S+"))

['Don', "'t", 'hesitate', 'to', 'ask', 'questions']


For a list of regular expressions symbols please read:

https://www.rexegg.com/regex-quickstart.html

#### Conversion into lowercase and uppercase

In [37]:
text = "HARdWork IS KEy to SUCCESS"

In [38]:
text.lower()

'hardwork is key to success'

In [39]:
text.upper()

'HARDWORK IS KEY TO SUCCESS'

#### Dealing with stop words:

NLTK has a list of stop words for many languages. We need to unzip datafile so
that the list of stop words can be accessed from nltk_data/corpora/stopwords/ :


In [40]:
from nltk.corpus import stopwords

In [41]:
stops = set(stopwords.words("english"))

In [42]:
words = ["Don't", "hesitate", "to", "ask", "questions"]

In [44]:
[word for word in words if word not in stops]

["Don't", 'hesitate', 'ask', 'questions']

The instance of nltk.corpus.reader.WordListCorpusReader is a stopwords corpus. It has the words()
function, whose argument is fileid . Here, it is English; this refers to all the stop words present in the
English file. If the words() function has no argument, then it will refer to all the stop words of all
the languages. Other languages in which stop word removal can be done, or the number of
languages whose file of stop words is present in NLTK can be found using the fileids() function:

In [45]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [9]:
from replacers import RegexpReplacer

In [10]:
replacer= RegexpReplacer()

In [11]:
replacer.replace("Don't hesitate to ask questions")


'Do not hesitate to ask questions'

In [12]:
replacer.replace("She must've gone to the market but she didn't go")

'She must have gone to the market but she did not go'

#### Performing substitution before tokenization

In [6]:
from nltk.tokenize import word_tokenize

In [2]:
from replacers import RegexpReplacer

In [4]:
replacer = RegexpReplacer()

In [7]:
word_tokenize("Don't hesitate to ask questions")

['Do', "n't", 'hesitate', 'to', 'ask', 'questions']

In [8]:
word_tokenize(replacer.replace("Don't hesitate to ask questions"))

['Do', 'not', 'hesitate', 'to', 'ask', 'questions']

#### Lemmatization

Lemmatization is the process in which we transform the word into a form with a different word
category. The word formed after lemmatization is entirely different. The built-in morphy() function
is used for lemmatization in WordNetLemmatizer. The inputted word is left unchanged if it is not
found in WordNet. In the argument, pos refers to the part of speech category of the inputted word.
Consider an example of lemmatization in NLTK:

![image.png](attachment:image.png)

In [61]:
from nltk.stem import WordNetLemmatizer

In [62]:
lemmatizer_output = WordNetLemmatizer()

In [63]:
lemmatizer_output.lemmatize("working")

'working'

In [64]:
lemmatizer_output.lemmatize("working", pos="v")

'work'

In [65]:
lemmatizer_output.lemmatize("works")

'work'

The WordNetLemmatizer library may be defined as a wrapper around the so-called WordNet
corpus, and it makes use of the morphy() function present in WordNetCorpusReader to extract a
lemma. If no lemma is extracted, then the word is only returned in its original form. For example,
for works , the lemma returned is the singular form, work .
Let's consider the following code that illustrates the difference between stemming and
lemmatization :

In [66]:
from nltk.stem import PorterStemmer

In [67]:
stemmer_output = PorterStemmer()

In [68]:
stemmer_output.stem("happiness")

'happi'

In [69]:
lemmatizer_output=WordNetLemmatizer()

In [70]:
lemmatizer_output.lemmatize("happiness")

'happiness'

#### Similarity measure

In [71]:
from nltk.metrics import *

In [75]:
edit_distance("relate", "relation")

3

In [76]:
edit_distance("suggestion", "calculation")

7

Applying similarity measures using Jaccard's Coefficient.

Jaccard's coefficient, or Tanimoto coefficient, may be defined as a measure of the overlap of two
sets, X and Y.
It may be defined as follows:
- Jaccard(X,Y)=|X∩Y|/|XUY|
- Jaccard(X,X)=1
- Jaccard(X,Y)=0 if X∩Y=0

Example :

In [77]:
X = set([10, 20, 30, 40])
Y = set([20, 30, 60])

In [78]:
jaccard_distance(X, Y)

0.6

Good to know:

For other tests, more than hundred corpus are available provided by NLTK at: http://www.nltk.org/nltk_data/

In [121]:
from nltk.util import bigrams

In [122]:
text = [["a", "b", "c"], ["a", "b", "c", "d", "e", "f"]]

In [123]:
list(bigrams(text[0]))

[('a', 'b'), ('b', 'c')]

### Practical Work : Analysis of the similarity between 3 Google Articles

In [89]:
from nltk import word_tokenize

In [124]:
import pandas as pd
import os

https://datacorner.fr/nltk/

In [84]:
def read_article(filename):
    with open(f"articles/{filename}", "r") as f:
        article = f.read()
    return article

In [85]:
article1 = read_article("article1.txt")

In [99]:
print(article1)

Twitter bientôt payant ? Elon Musk ouvre la porte à un «petit paiement mensuel»
Le multimilliardaire propriétaire du réseau social a évoqué lundi 18 septembre la possible mise en place d’une tarification pour tous les utilisateurs, afin, selon lui, de lutter contre les «bots» qui pullulent sur la plateforme.

Le réseau social Twitter (renommé X) pourrait devenir payant selon une déclaration de Elon Musk lundi 18 septembre. Le fantasque multimilliardaire a évoqué ce changement comme un rempart contre les «bots», les faux utilisateurs pilotés par des programmes informatiques. Le propriétaire de la plateforme a défendu la création d’un «petit paiement mensuel» en réponse au Premier ministre d’Israël Benyamin Nétanyahou, qui mentionnait les manières dont la plateforme pourrait lutter contre «des armées de robots» «reproduisant et amplifiant» l’antisémitisme en ligne. Musk a estimé qu’il s’agissait du «seul moyen auquel [il] puisse penser pour combattre de vastes armées de robots», un probl

In [87]:
french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')

In [91]:
sentences_article1 = french_tokenizer.tokenize(article1)
sentences_article1

['Twitter bientôt payant ?',
 'Elon Musk ouvre la porte à un «petit paiement mensuel»\nLe multimilliardaire propriétaire du réseau social a évoqué lundi 18 septembre la possible mise en place d’une tarification pour tous les utilisateurs, afin, selon lui, de lutter contre les «bots» qui pullulent sur la plateforme.',
 'Le réseau social Twitter (renommé X) pourrait devenir payant selon une déclaration de Elon Musk lundi 18 septembre.',
 'Le fantasque multimilliardaire a évoqué ce changement comme un rempart contre les «bots», les faux utilisateurs pilotés par des programmes informatiques.',
 'Le propriétaire de la plateforme a défendu la création d’un «petit paiement mensuel» en réponse au Premier ministre d’Israël Benyamin Nétanyahou, qui mentionnait les manières dont la plateforme pourrait lutter contre «des armées de robots» «reproduisant et amplifiant» l’antisémitisme en ligne.',
 'Musk a estimé qu’il s’agissait du «seul moyen auquel [il] puisse penser pour combattre de vastes armée

N'enlève pas les pontuation

In [92]:
word_tokenize(article1, language="french")

['Twitter',
 'bientôt',
 'payant',
 '?',
 'Elon',
 'Musk',
 'ouvre',
 'la',
 'porte',
 'à',
 'un',
 '«',
 'petit',
 'paiement',
 'mensuel',
 '»',
 'Le',
 'multimilliardaire',
 'propriétaire',
 'du',
 'réseau',
 'social',
 'a',
 'évoqué',
 'lundi',
 '18',
 'septembre',
 'la',
 'possible',
 'mise',
 'en',
 'place',
 'd',
 '’',
 'une',
 'tarification',
 'pour',
 'tous',
 'les',
 'utilisateurs',
 ',',
 'afin',
 ',',
 'selon',
 'lui',
 ',',
 'de',
 'lutter',
 'contre',
 'les',
 '«',
 'bots',
 '»',
 'qui',
 'pullulent',
 'sur',
 'la',
 'plateforme',
 '.',
 'Le',
 'réseau',
 'social',
 'Twitter',
 '(',
 'renommé',
 'X',
 ')',
 'pourrait',
 'devenir',
 'payant',
 'selon',
 'une',
 'déclaration',
 'de',
 'Elon',
 'Musk',
 'lundi',
 '18',
 'septembre',
 '.',
 'Le',
 'fantasque',
 'multimilliardaire',
 'a',
 'évoqué',
 'ce',
 'changement',
 'comme',
 'un',
 'rempart',
 'contre',
 'les',
 '«',
 'bots',
 '»',
 ',',
 'les',
 'faux',
 'utilisateurs',
 'pilotés',
 'par',
 'des',
 'programmes',
 'infor

In [95]:
from nltk.tokenize import WordPunctTokenizer
from nltk.tokenize import TreebankWordTokenizer

In [107]:
tokenizer = WordPunctTokenizer()
tokens = tokenizer.tokenize(article1)
tokens

['Twitter',
 'bientôt',
 'payant',
 '?',
 'Elon',
 'Musk',
 'ouvre',
 'la',
 'porte',
 'à',
 'un',
 '«',
 'petit',
 'paiement',
 'mensuel',
 '»',
 'Le',
 'multimilliardaire',
 'propriétaire',
 'du',
 'réseau',
 'social',
 'a',
 'évoqué',
 'lundi',
 '18',
 'septembre',
 'la',
 'possible',
 'mise',
 'en',
 'place',
 'd',
 '’',
 'une',
 'tarification',
 'pour',
 'tous',
 'les',
 'utilisateurs',
 ',',
 'afin',
 ',',
 'selon',
 'lui',
 ',',
 'de',
 'lutter',
 'contre',
 'les',
 '«',
 'bots',
 '»',
 'qui',
 'pullulent',
 'sur',
 'la',
 'plateforme',
 '.',
 'Le',
 'réseau',
 'social',
 'Twitter',
 '(',
 'renommé',
 'X',
 ')',
 'pourrait',
 'devenir',
 'payant',
 'selon',
 'une',
 'déclaration',
 'de',
 'Elon',
 'Musk',
 'lundi',
 '18',
 'septembre',
 '.',
 'Le',
 'fantasque',
 'multimilliardaire',
 'a',
 'évoqué',
 'ce',
 'changement',
 'comme',
 'un',
 'rempart',
 'contre',
 'les',
 '«',
 'bots',
 '»,',
 'les',
 'faux',
 'utilisateurs',
 'pilotés',
 'par',
 'des',
 'programmes',
 'informatiq

In [97]:
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(article1)

['Twitter',
 'bientôt',
 'payant',
 '?',
 'Elon',
 'Musk',
 'ouvre',
 'la',
 'porte',
 'à',
 'un',
 '«petit',
 'paiement',
 'mensuel»',
 'Le',
 'multimilliardaire',
 'propriétaire',
 'du',
 'réseau',
 'social',
 'a',
 'évoqué',
 'lundi',
 '18',
 'septembre',
 'la',
 'possible',
 'mise',
 'en',
 'place',
 'd’une',
 'tarification',
 'pour',
 'tous',
 'les',
 'utilisateurs',
 ',',
 'afin',
 ',',
 'selon',
 'lui',
 ',',
 'de',
 'lutter',
 'contre',
 'les',
 '«bots»',
 'qui',
 'pullulent',
 'sur',
 'la',
 'plateforme.',
 'Le',
 'réseau',
 'social',
 'Twitter',
 '(',
 'renommé',
 'X',
 ')',
 'pourrait',
 'devenir',
 'payant',
 'selon',
 'une',
 'déclaration',
 'de',
 'Elon',
 'Musk',
 'lundi',
 '18',
 'septembre.',
 'Le',
 'fantasque',
 'multimilliardaire',
 'a',
 'évoqué',
 'ce',
 'changement',
 'comme',
 'un',
 'rempart',
 'contre',
 'les',
 '«bots»',
 ',',
 'les',
 'faux',
 'utilisateurs',
 'pilotés',
 'par',
 'des',
 'programmes',
 'informatiques.',
 'Le',
 'propriétaire',
 'de',
 'la',


In [115]:
cleaned = [word for word in tokens if len(word) > 2]

In [116]:
cleaned

['Twitter',
 'bientôt',
 'payant',
 'Elon',
 'Musk',
 'ouvre',
 'porte',
 'petit',
 'paiement',
 'mensuel',
 'multimilliardaire',
 'propriétaire',
 'réseau',
 'social',
 'évoqué',
 'lundi',
 'septembre',
 'possible',
 'mise',
 'place',
 'une',
 'tarification',
 'pour',
 'tous',
 'les',
 'utilisateurs',
 'afin',
 'selon',
 'lui',
 'lutter',
 'contre',
 'les',
 'bots',
 'qui',
 'pullulent',
 'sur',
 'plateforme',
 'réseau',
 'social',
 'Twitter',
 'renommé',
 'pourrait',
 'devenir',
 'payant',
 'selon',
 'une',
 'déclaration',
 'Elon',
 'Musk',
 'lundi',
 'septembre',
 'fantasque',
 'multimilliardaire',
 'évoqué',
 'changement',
 'comme',
 'rempart',
 'contre',
 'les',
 'bots',
 'les',
 'faux',
 'utilisateurs',
 'pilotés',
 'par',
 'des',
 'programmes',
 'informatiques',
 'propriétaire',
 'plateforme',
 'défendu',
 'création',
 'petit',
 'paiement',
 'mensuel',
 'réponse',
 'Premier',
 'ministre',
 'Israël',
 'Benyamin',
 'Nétanyahou',
 'qui',
 'mentionnait',
 'les',
 'manières',
 'dont'

Stopwords

In [117]:
french_stopwords = set(stopwords.words('french'))

In [118]:
[word for word in cleaned if word not in french_stopwords]

['Twitter',
 'bientôt',
 'payant',
 'Elon',
 'Musk',
 'ouvre',
 'porte',
 'petit',
 'paiement',
 'mensuel',
 'multimilliardaire',
 'propriétaire',
 'réseau',
 'social',
 'évoqué',
 'lundi',
 'septembre',
 'possible',
 'mise',
 'place',
 'tarification',
 'tous',
 'utilisateurs',
 'afin',
 'selon',
 'lutter',
 'contre',
 'bots',
 'pullulent',
 'plateforme',
 'réseau',
 'social',
 'Twitter',
 'renommé',
 'pourrait',
 'devenir',
 'payant',
 'selon',
 'déclaration',
 'Elon',
 'Musk',
 'lundi',
 'septembre',
 'fantasque',
 'multimilliardaire',
 'évoqué',
 'changement',
 'comme',
 'rempart',
 'contre',
 'bots',
 'faux',
 'utilisateurs',
 'pilotés',
 'programmes',
 'informatiques',
 'propriétaire',
 'plateforme',
 'défendu',
 'création',
 'petit',
 'paiement',
 'mensuel',
 'réponse',
 'Premier',
 'ministre',
 'Israël',
 'Benyamin',
 'Nétanyahou',
 'mentionnait',
 'manières',
 'dont',
 'plateforme',
 'pourrait',
 'lutter',
 'contre',
 'armées',
 'robots',
 'reproduisant',
 'amplifiant',
 'antis

In [119]:
filtre_stop = lambda text: [token for token in text if token.lower() not in french_stopwords] 

In [120]:
filtre_stop(cleaned)

['Twitter',
 'bientôt',
 'payant',
 'Elon',
 'Musk',
 'ouvre',
 'porte',
 'petit',
 'paiement',
 'mensuel',
 'multimilliardaire',
 'propriétaire',
 'réseau',
 'social',
 'évoqué',
 'lundi',
 'septembre',
 'possible',
 'mise',
 'place',
 'tarification',
 'tous',
 'utilisateurs',
 'afin',
 'selon',
 'lutter',
 'contre',
 'bots',
 'pullulent',
 'plateforme',
 'réseau',
 'social',
 'Twitter',
 'renommé',
 'pourrait',
 'devenir',
 'payant',
 'selon',
 'déclaration',
 'Elon',
 'Musk',
 'lundi',
 'septembre',
 'fantasque',
 'multimilliardaire',
 'évoqué',
 'changement',
 'comme',
 'rempart',
 'contre',
 'bots',
 'faux',
 'utilisateurs',
 'pilotés',
 'programmes',
 'informatiques',
 'propriétaire',
 'plateforme',
 'défendu',
 'création',
 'petit',
 'paiement',
 'mensuel',
 'réponse',
 'Premier',
 'ministre',
 'Israël',
 'Benyamin',
 'Nétanyahou',
 'mentionnait',
 'manières',
 'dont',
 'plateforme',
 'pourrait',
 'lutter',
 'contre',
 'armées',
 'robots',
 'reproduisant',
 'amplifiant',
 'antis

In [166]:
french_stopwords = set(stopwords.words('french'))
filtre_stop_fr = lambda text: [token for token in text if token.lower() not in french_stopwords] 

def pipeline(articles: list):
    cleaned_articles = {}
    for n, article in enumerate(articles):
        tokenizer = TreebankWordTokenizer()
        tokens = tokenizer.tokenize(article)
        cleaned = [word for word in tokens if len(word) > 2]
        filtered_article = filtre_stop_fr(cleaned)
        cleaned_articles[f"article{n+1}"] = filtered_article
    
    return cleaned_articles

In [167]:
os.listdir("articles")

['article1.txt', 'article2.txt', 'article3.txt']

In [168]:
articles = []
for filename in os.listdir("articles"):
    articles.append(read_article(filename))

In [176]:
articles

['Twitter bientôt payant ? Elon Musk ouvre la porte à un «petit paiement mensuel»\nLe multimilliardaire propriétaire du réseau social a évoqué lundi 18 septembre la possible mise en place d’une tarification pour tous les utilisateurs, afin, selon lui, de lutter contre les «bots» qui pullulent sur la plateforme.\n\nLe réseau social Twitter (renommé X) pourrait devenir payant selon une déclaration de Elon Musk lundi 18 septembre. Le fantasque multimilliardaire a évoqué ce changement comme un rempart contre les «bots», les faux utilisateurs pilotés par des programmes informatiques. Le propriétaire de la plateforme a défendu la création d’un «petit paiement mensuel» en réponse au Premier ministre d’Israël Benyamin Nétanyahou, qui mentionnait les manières dont la plateforme pourrait lutter contre «des armées de robots» «reproduisant et amplifiant» l’antisémitisme en ligne. Musk a estimé qu’il s’agissait du «seul moyen auquel [il] puisse penser pour combattre de vastes armées de robots», un 

In [170]:
cleaned_articles = pipeline(articles)

In [171]:
cleaned_articles.keys()

dict_keys(['article1', 'article2', 'article3'])

In [172]:
df_article1 = pd.DataFrame(cleaned_articles["article1"], columns=["article1"]).value_counts(["article1"]).sort_values(ascending=False)

In [173]:
df_article2 = pd.DataFrame(cleaned_articles["article2"], columns=["article2"]).value_counts(["article2"]).sort_values(ascending=False)

In [174]:
df_article3 = pd.DataFrame(cleaned_articles["article3"], columns=["article3"]).value_counts(["article3"]).sort_values(ascending=False)

#### Try with countvectorizer from sklearn

In [165]:
cleaned_articles

{'article1': ['Twitter',
  'bientôt',
  'payant',
  'Elon',
  'Musk',
  'ouvre',
  'porte',
  '«petit',
  'paiement',
  'mensuel»',
  'multimilliardaire',
  'propriétaire',
  'réseau',
  'social',
  'évoqué',
  'lundi',
  'septembre',
  'possible',
  'mise',
  'place',
  'd’une',
  'tarification',
  'tous',
  'utilisateurs',
  'afin',
  'selon',
  'lutter',
  'contre',
  '«bots»',
  'pullulent',
  'plateforme.',
  'réseau',
  'social',
  'Twitter',
  'renommé',
  'pourrait',
  'devenir',
  'payant',
  'selon',
  'déclaration',
  'Elon',
  'Musk',
  'lundi',
  'septembre.',
  'fantasque',
  'multimilliardaire',
  'évoqué',
  'changement',
  'comme',
  'rempart',
  'contre',
  '«bots»',
  'faux',
  'utilisateurs',
  'pilotés',
  'programmes',
  'informatiques.',
  'propriétaire',
  'plateforme',
  'défendu',
  'création',
  'd’un',
  '«petit',
  'paiement',
  'mensuel»',
  'réponse',
  'Premier',
  'ministre',
  'd’Israël',
  'Benyamin',
  'Nétanyahou',
  'mentionnait',
  'manières',
  '

In [163]:
from sklearn.feature_extraction.text import CountVectorizer

In [164]:
coun_vect = CountVectorizer()

In [177]:
articles[0]

'Twitter bientôt payant ? Elon Musk ouvre la porte à un «petit paiement mensuel»\nLe multimilliardaire propriétaire du réseau social a évoqué lundi 18 septembre la possible mise en place d’une tarification pour tous les utilisateurs, afin, selon lui, de lutter contre les «bots» qui pullulent sur la plateforme.\n\nLe réseau social Twitter (renommé X) pourrait devenir payant selon une déclaration de Elon Musk lundi 18 septembre. Le fantasque multimilliardaire a évoqué ce changement comme un rempart contre les «bots», les faux utilisateurs pilotés par des programmes informatiques. Le propriétaire de la plateforme a défendu la création d’un «petit paiement mensuel» en réponse au Premier ministre d’Israël Benyamin Nétanyahou, qui mentionnait les manières dont la plateforme pourrait lutter contre «des armées de robots» «reproduisant et amplifiant» l’antisémitisme en ligne. Musk a estimé qu’il s’agissait du «seul moyen auquel [il] puisse penser pour combattre de vastes armées de robots», un p

In [179]:
count_matrix = coun_vect.fit_transform([articles[0]])

In [192]:
count_array = count_matrix.toarray()
count_array[0].tolist()

[2,
 2,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 1,
 2,
 2,
 2,
 1,
 1,
 1,
 1,
 1,
 4,
 1,
 1,
 1,
 3,
 1,
 1,
 1,
 1,
 25,
 1,
 1,
 6,
 1,
 1,
 1,
 2,
 1,
 2,
 2,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 3,
 11,
 1,
 2,
 2,
 1,
 3,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 16,
 9,
 8,
 2,
 1,
 1,
 1,
 1,
 3,
 2,
 2,
 1,
 1,
 1,
 3,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 3,
 1,
 5,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 3,
 2,
 1,
 1,
 2,
 2,
 2,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 5,
 1,
 1,
 7,
 3,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 2,
 1,
 1,
 1,
 1,
 2,
 2,
 1,
 4,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 4,
 1,
 1,
 1,
 1,
 2,
 1,
 4,
 1,
 2,
 1,
 1,
 1,
 2,
 3,
 2,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 6,
 10,
 2,
 5,
 1,
 1,
 1,
 1,
 2,
 1]

In [182]:
df = pd.DataFrame(data=count_array, columns = coun_vect.get_feature_names_out())

In [183]:
df

Unnamed: 0,18,2022,230,44,550,60,abonnement,abord,accéder,achetée,...,twitter,un,une,utilisateurs,utilisés,vastes,véhiculant,évoquer,évoqué,être
0,2,2,1,1,1,1,2,1,1,1,...,6,10,2,5,1,1,1,1,2,1


In [193]:
count_tokens = dict(zip(coun_vect.get_feature_names_out(), count_array[0].tolist()))

In [194]:
count_tokens

{'18': 2,
 '2022': 2,
 '230': 1,
 '44': 1,
 '550': 1,
 '60': 1,
 'abonnement': 2,
 'abord': 1,
 'accéder': 1,
 'achetée': 1,
 'actifs': 1,
 'afin': 1,
 'agissait': 1,
 'ainsi': 1,
 'alors': 2,
 'amplifiant': 1,
 'américain': 1,
 'anciens': 1,
 'anticipent': 1,
 'antisémitisme': 1,
 'armées': 2,
 'au': 1,
 'auquel': 1,
 'aussi': 2,
 'automatisée': 1,
 'avait': 2,
 'avancés': 1,
 'avant': 1,
 'avec': 1,
 'avoir': 1,
 'badge': 1,
 'bannis': 1,
 'benyamin': 1,
 'bien': 1,
 'bientôt': 1,
 'blue': 1,
 'bot': 1,
 'bots': 2,
 'cause': 1,
 'ce': 1,
 'celui': 2,
 'certifiés': 1,
 'ces': 2,
 'changement': 2,
 'chaque': 2,
 'chiffres': 1,
 'clivante': 1,
 'combattre': 1,
 'comme': 1,
 'compterait': 1,
 'comptes': 4,
 'conception': 1,
 'conserver': 1,
 'contenus': 1,
 'contre': 3,
 'coûteux': 1,
 'création': 1,
 'dans': 1,
 'date': 1,
 'de': 25,
 'depuis': 1,
 'derniers': 1,
 'des': 6,
 'devenait': 1,
 'devenir': 1,
 'disait': 1,
 'dollars': 2,
 'donald': 1,
 'dont': 2,
 'du': 2,
 'déboursant': 1,


#### Filter keys by length

In [199]:
def filter_dict_length(pair):
    key, value = pair
    if len(key) > 2:
        return True
    else:
        return False

In [200]:
filtered_tokens_count  = dict(filter(filter_dict_length, count_tokens.items()))

In [201]:
filtered_tokens_count

{'2022': 2,
 '230': 1,
 '550': 1,
 'abonnement': 2,
 'abord': 1,
 'accéder': 1,
 'achetée': 1,
 'actifs': 1,
 'afin': 1,
 'agissait': 1,
 'ainsi': 1,
 'alors': 2,
 'amplifiant': 1,
 'américain': 1,
 'anciens': 1,
 'anticipent': 1,
 'antisémitisme': 1,
 'armées': 2,
 'auquel': 1,
 'aussi': 2,
 'automatisée': 1,
 'avait': 2,
 'avancés': 1,
 'avant': 1,
 'avec': 1,
 'avoir': 1,
 'badge': 1,
 'bannis': 1,
 'benyamin': 1,
 'bien': 1,
 'bientôt': 1,
 'blue': 1,
 'bot': 1,
 'bots': 2,
 'cause': 1,
 'celui': 2,
 'certifiés': 1,
 'ces': 2,
 'changement': 2,
 'chaque': 2,
 'chiffres': 1,
 'clivante': 1,
 'combattre': 1,
 'comme': 1,
 'compterait': 1,
 'comptes': 4,
 'conception': 1,
 'conserver': 1,
 'contenus': 1,
 'contre': 3,
 'coûteux': 1,
 'création': 1,
 'dans': 1,
 'date': 1,
 'depuis': 1,
 'derniers': 1,
 'des': 6,
 'devenait': 1,
 'devenir': 1,
 'disait': 1,
 'dollars': 2,
 'donald': 1,
 'dont': 2,
 'déboursant': 1,
 'décision': 2,
 'déclaration': 1,
 'déclaré': 1,
 'défendu': 1,
 'déjà

In [202]:
pd.DataFrame.from_dict(filtered_tokens_count)

ValueError: If using all scalar values, you must pass an index