In [3]:
import tensorflow as tf 
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'i love my dog',
    'I, love my cat',
    'You love my dog!'
]

tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)

{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}


# La tokenisation
La tokenisation permet de diviser un texte par mot ou par phrase. Cela vous permet de travailler avec des morceaux de texte plus petits qui sont encore relativement cohérents et significatifs, même en dehors du contexte du reste du texte. C'est la première étape pour transformer des données non structurées en données structurées, plus faciles à analyser.

Lorsque vous analysez un texte, vous procédez à une tokenisation par mot et à une tokenisation par phrase. Voici ce que les deux types de tokenisation apportent :

## Tokénisation par mot :
les mots sont comme les atomes du langage naturel. Ils constituent la plus petite unité de signification qui ait encore un sens en soi. La tokenisation de votre texte par mot vous permet d'identifier les mots qui reviennent particulièrement souvent. Par exemple, si vous analysez un groupe d'offres d'emploi, vous constaterez peut-être que le mot "Python" revient souvent. Cela pourrait suggérer une forte demande de connaissances en Python, mais il faudrait aller plus loin pour en savoir plus.





In [4]:
import numpy as np

def tokenize(text):
    # Convertir le texte en minuscules
    text = text.lower()
    
    # Supprimer les caractères spéciaux et les chiffres
    text = ''.join(char for char in text if char.isalpha() or char.isspace())
    
    # Diviser le texte en mots
    words = text.split()
    
    # Créer un tableau NumPy pour stocker les tokens
    tokens = np.array(words)
    
    return tokens

# Exemple d'utilisation
text = "Bonjour à tous ! Ceci est un exemple de tokenisation."
tokens = tokenize(text)
print(tokens)
print(word_tokenize(text))

['bonjour' 'à' 'tous' 'ceci' 'est' 'un' 'exemple' 'de' 'tokenisation']


NameError: name 'word_tokenize' is not defined

## Tokénisation par phrase :
La tokenisation par phrase permet d'analyser les relations entre les mots et de mieux cerner le contexte. Y a-t-il beaucoup de mots négatifs autour du mot "Python" parce que le responsable du recrutement n'aime pas Python ? Y a-t-il plus de termes du domaine de l'herpétologie que du domaine du développement logiciel, ce qui suggère que vous avez peut-être affaire à un type de Python totalement différent de ce à quoi vous vous attendiez ?

Voici comment importer les parties pertinentes de NLTK afin de pouvoir procéder à une tokenisation par mot et par phrase :

In [5]:
import numpy as np

def tokenize_sentences(text):
    # Diviser le texte en phrases en utilisant les points comme séparateurs
    sentences = text.split('.')
    
    # Nettoyer les espaces vides et les phrases vides
    sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
    
    # Créer un tableau NumPy pour stocker les phrases
    tokens = np.array(sentences)
    
    return tokens

# Exemple d'utilisation
text = "Bonjour à tous ! Ceci est un exemple de tokenisation. Une autre phrase ici."
tokens = tokenize_sentences(text)
print(tokens)


['Bonjour à tous ! Ceci est un exemple de tokenisation'
 'Une autre phrase ici']


In [6]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [7]:
example_string = """
Le NLP révolutionne notre façon de comprendre le langage humain.
En utilisant des techniques avancées de traitement de texte,
nous pouvons extraire des informations précieuses à partir de vastes ensembles de données textuelles.
La tokenisation, première étape cruciale du NLP, consiste à diviser le texte en unités lexicales,
telles que des mots ou des phrases. Cette démarche permet une analyse plus approfondie du langage,
facilitant ainsi la traduction automatique, l'analyse des sentiments et bien d'autres tâches.
Grâce à la tokenisation, nous ouvrons la voie à une meilleure compréhension et interaction avec le langage naturel."""

In [8]:
len(tokenize(example_string))

94

In [9]:
len(word_tokenize(example_string))

106

# application


In [10]:
# Ouverture du fichier en mode lecture ligne par ligne
liste_words=[]
liste_phrase=[]
mon_fichier="French/9-11-in-perspective.txt"
with open(mon_fichier, 'r', encoding='UTF-8') as file:
    # Lire le contenu ligne par ligne
    lignes = file.readlines()
    
    lignes = ''.join(char for char in lignes if char.isalpha() or char.isspace())
    # Afficher chaque ligne
lignes

''

# Filtrage des stop word
Les mots vides sont des mots que vous souhaitez ignorer et que vous filtrez donc dans votre texte lorsque vous le traitez. Des mots très courants comme " in ", " is " et " an " sont souvent utilisés comme mots vides car ils n'ajoutent pas beaucoup de sens à un texte en eux-mêmes.

Voici comment importer les parties pertinentes de NLTK afin de filtrer les mots vides :

In [12]:
import nltk as nltk
nltk.download("stopwords")
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\gcher\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [13]:
worf_quote = "Sir, I protest. I am not a merry man!"

In [14]:
words_in_quote = word_tokenize(worf_quote)
words_in_quote

['Sir', ',', 'I', 'protest', '.', 'I', 'am', 'not', 'a', 'merry', 'man', '!']

Vous disposez d'une liste de mots dans worf_quote, l'étape suivante consiste donc à créer un ensemble de stop words pour filtrer words_in_quote. Pour cet exemple, vous devrez vous concentrer sur les stop words de "english" :

In [15]:
stop_words= set(stopwords.words("english"))


Ensuite, créez une liste vide pour contenir les mots qui ont passé le filtre :

In [16]:
filtered_list = []

Vous avez créé une liste vide, filtered_list, pour contenir tous les mots de words_in_quote qui ne sont pas des stopwords. Vous pouvez maintenant utiliser stop_words pour filtrer words_in_quote :

In [17]:
for word in words_in_quote:
    if word.casefold() not in stop_words:
        filtered_list.append(word)

Vous avez itéré sur words_in_quote avec une boucle for et ajouté tous les mots qui n'étaient pas des stop words à filtered_list. Vous avez utilisé .casefold() sur word pour pouvoir ignorer si les lettres du mot étaient en majuscules ou en minuscules. Cela vaut la peine car stopwords.words('english') n'inclut que les versions minuscules des mots vides.

Vous pouvez également utiliser une compréhension de liste pour établir une liste de tous les mots de votre texte qui ne sont pas des mots vides :


In [18]:
filtered_list = [
    word for word in words_in_quote if word.casefold() not in stop_words
]

Lorsque vous utilisez une compréhension de liste, vous ne créez pas une liste vide et n'ajoutez pas ensuite des éléments à la fin de celle-ci. Au contraire, vous définissez la liste et son contenu en même temps. L'utilisation d'une compréhension de liste est souvent considérée comme plus pythonique.

Jetez un coup d'œil aux mots qui se sont retrouvés dans filtered_list :


In [19]:
filtered_list

['Sir', ',', 'protest', '.', 'merry', 'man', '!']

Vous avez filtré quelques mots comme "am" et "a", mais vous avez également filtré "not", ce qui affecte le sens général de la phrase. (Worf ne sera pas content).

Les mots comme "I" et "not" peuvent sembler trop importants pour être éliminés, et selon le type d'analyse que vous voulez faire, ils peuvent l'être. Voici pourquoi :

Le "je" est un pronom, qui est un mot de contexte plutôt qu'un mot de contenu :

Les mots de contenu vous donnent des informations sur les sujets traités dans le texte ou sur le sentiment de l'auteur par rapport à ces sujets.

Les mots de contexte vous renseignent sur le style d'écriture. Vous pouvez observer des modèles dans la façon dont les auteurs utilisent les mots de contexte afin de quantifier leur style d'écriture. Une fois que vous avez quantifié leur style d'écriture, vous pouvez analyser un texte écrit par un auteur inconnu pour voir dans quelle mesure il suit un style d'écriture particulier afin d'essayer d'identifier l'auteur.

'not' est techniquement un adverbe mais a tout de même été inclus dans la liste des mots vides de NLTK pour l'anglais. Si vous souhaitez modifier la liste des mots interdits pour exclure 'not' ou faire d'autres changements, vous pouvez la télécharger.

Ainsi, "I" et "not" peuvent être des parties importantes d'une phrase, mais cela dépend de ce que vous essayez d'apprendre de cette phrase.

# Stemming

Le stemming est une tâche de traitement de texte qui consiste à réduire les mots à leur racine, qui est la partie centrale du mot. Par exemple, les mots "helping" et "helper" partagent la racine "help". Le stemming vous permet de vous concentrer sur le sens fondamental d'un mot plutôt que sur tous les détails de son utilisation. NLTK dispose de plusieurs logiciels de troncature, mais vous utiliserez le logiciel de troncature Porter.

In [41]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [42]:
stemmer = PorterStemmer() #create a stemmer with PorterStemmer()

In [43]:
string_for_stemming = """
The crew of the USS Discovery discovered many discoveries.
Discovering is what explorers do."""

In [44]:
words = word_tokenize(string_for_stemming)

In [45]:
words

['The',
 'crew',
 'of',
 'the',
 'USS',
 'Discovery',
 'discovered',
 'many',
 'discoveries',
 '.',
 'Discovering',
 'is',
 'what',
 'explorers',
 'do',
 '.']

In [46]:
stemmed_words = [stemmer.stem(word) for word in words]

In [47]:
stemmed_words

['the',
 'crew',
 'of',
 'the',
 'uss',
 'discoveri',
 'discov',
 'mani',
 'discoveri',
 '.',
 'discov',
 'is',
 'what',
 'explor',
 'do',
 '.']

<div class="table-responsive">
<table class="table table-hover">
<thead>
<tr>
<th>Original word</th>
<th>Stemmed version</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>'Discovery'</code></td>
<td><code>'discoveri'</code></td>
</tr>
<tr>
<td><code>'discovered'</code></td>
<td><code>'discov'</code></td>
</tr>
<tr>
<td><code>'discoveries'</code></td>
<td><code>'discoveri'</code></td>
</tr>
<tr>
<td><code>'Discovering'</code></td>
<td><code>'discov'</code></td>
</tr>
</tbody>
</table>
</div>

Ces résultats semblent quelque peu incohérents. Pourquoi "Discovery" donnerait-il "discoveri" alors que "Discovering" donnerait "discov" ?

Understemming  et la overstemming  sont deux façons dont le stemming peut se tromper :

La sous-évaluation se produit lorsque deux mots apparentés devraient être réduits à la même racine, mais ne le sont pas. Il s'agit d'un faux négatif.
Il y a sur-témoignage lorsque deux mots non apparentés sont réduits au même radical alors qu'ils ne devraient pas l'être. Il s'agit d'un faux positif.
L'algorithme d'extraction de Porter date de 1979, il est donc un peu plus ancien. Le troncatureur Snowball, également appelé Porter2, est une amélioration de l'original et est également disponible via NLTK, vous pouvez donc l'utiliser dans vos propres projets. Il convient également de noter que l'objectif du troncteur Porter n'est pas de produire des mots complets, mais de trouver des formes variantes d'un mot.

Heureusement, il existe d'autres moyens de réduire les mots à leur sens principal, comme la lemmatisation, que vous verrez plus loin dans ce tutoriel. Mais tout d'abord, nous devons aborder la question des parties du discours.

# Étiquetage des parties du discours

La partie du discours est un terme grammatical qui traite des rôles joués par les mots lorsqu'ils sont utilisés ensemble dans des phrases. L'étiquetage des parties du discours, ou étiquetage POS, consiste à étiqueter les mots de votre texte en fonction de leur partie du discours.

En anglais, il existe huit parties du discours :

<div class="table-responsive">
<table class="table table-hover">
<thead>
<tr>
<th>Part of speech</th>
<th>Role</th>
<th>Examples</th>
</tr>
</thead>
<tbody>
<tr>
<td>Noun</td>
<td>Is a person, place, or thing</td>
<td>mountain, bagel, Poland</td>
</tr>
<tr>
<td>Pronoun</td>
<td>Replaces a noun</td>
<td>you, she, we</td>
</tr>
<tr>
<td>Adjective</td>
<td>Gives information about what a noun is like</td>
<td>efficient, windy, colorful</td>
</tr>
<tr>
<td>Verb</td>
<td>Is an action or a state of being</td>
<td>learn, is, go</td>
</tr>
<tr>
<td>Adverb</td>
<td>Gives information about a verb, an adjective, or another adverb</td>
<td>efficiently, always, very</td>
</tr>
<tr>
<td>Preposition</td>
<td>Gives information about how a noun or pronoun is connected to another word</td>
<td>from, about, at</td>
</tr>
<tr>
<td>Conjunction</td>
<td>Connects two other words or phrases</td>
<td>so, because, and</td>
</tr>
<tr>
<td>Interjection</td>
<td>Is an exclamation</td>
<td>yay, ow, wow</td>
</tr>
</tbody>
</table>
</div>

In [20]:
sagan_quote = """
... If you wish to make an apple pie from scratch,
... you must first invent the universe."""

In [21]:
words_in_sagan_quote = word_tokenize(sagan_quote)

In [22]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.pos_tag(words_in_sagan_quote)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\gcher\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('If', 'IN'),
 ('you', 'PRP'),
 ('wish', 'VBP'),
 ('to', 'TO'),
 ('make', 'VB'),
 ('an', 'DT'),
 ('apple', 'NN'),
 ('pie', 'NN'),
 ('from', 'IN'),
 ('scratch', 'NN'),
 (',', ','),
 ('you', 'PRP'),
 ('must', 'MD'),
 ('first', 'VB'),
 ('invent', 'VB'),
 ('the', 'DT'),
 ('universe', 'NN'),
 ('.', '.')]

Tous les mots de la citation se trouvent désormais dans un tuple distinct, avec une balise qui représente leur partie du discours. Mais que signifient les balises ? Voici comment obtenir une liste des balises et de leur signification :

In [23]:
nltk.download('tagsets')
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\gcher\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


In [24]:
jabberwocky_excerpt = """
'Twas brillig, and the slithy toves did gyre and gimble in the wabe:
all mimsy were the borogoves, and the mome raths outgrabe."""

In [25]:
words_in_excerpt = word_tokenize(jabberwocky_excerpt)

In [26]:
nltk.pos_tag(words_in_excerpt)


[("'Twas", 'CD'),
 ('brillig', 'NN'),
 (',', ','),
 ('and', 'CC'),
 ('the', 'DT'),
 ('slithy', 'JJ'),
 ('toves', 'NNS'),
 ('did', 'VBD'),
 ('gyre', 'NN'),
 ('and', 'CC'),
 ('gimble', 'JJ'),
 ('in', 'IN'),
 ('the', 'DT'),
 ('wabe', 'NN'),
 (':', ':'),
 ('all', 'DT'),
 ('mimsy', 'NNS'),
 ('were', 'VBD'),
 ('the', 'DT'),
 ('borogoves', 'NNS'),
 (',', ','),
 ('and', 'CC'),
 ('the', 'DT'),
 ('mome', 'JJ'),
 ('raths', 'NNS'),
 ('outgrabe', 'RB'),
 ('.', '.')]

# La lemmatisation
Maintenant que vous connaissez les parties du discours, vous pouvez revenir à la lemmatisation. Comme la troncature, la lemmatisation réduit les mots à leur sens principal, mais elle vous donnera un mot anglais complet qui a un sens en lui-même au lieu d'un fragment de mot comme "discoveri".

In [32]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\gcher\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [33]:
lemmatizer = WordNetLemmatizer() #Create a lemmatizer to use:

In [34]:
lemmatizer.lemmatize("scarves")


'scarf'

In [35]:
string_for_lemmatizing = "The friends of DeSoto love scarves."

In [36]:
words = word_tokenize(string_for_lemmatizing)

In [37]:
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

In [38]:
lemmatized_words

['The', 'friend', 'of', 'DeSoto', 'love', 'scarf', '.']

In [40]:
lemmatizer.lemmatize("worst", pos="a")


'bad'

# Chunking
Alors que la segmentation permet d'identifier les mots et les phrases, le découpage permet d'identifier les expressions.

Remarque : un syntagme est un mot ou un groupe de mots qui fonctionne comme une unité unique pour remplir une fonction grammaticale. Les locutions nominales sont construites autour d'un nom.

En voici quelques exemples :

"Une planète"
"Une planète qui s'incline
"Une planète qui s'incline rapidement

Le découpage en morceaux utilise les étiquettes POS pour regrouper les mots et appliquer les étiquettes de morceaux à ces groupes. Les morceaux ne se chevauchent pas, de sorte qu'une instance d'un mot ne peut se trouver que dans un seul morceau à la fois.

Voici comment importer les parties pertinentes de NLTK afin de procéder au découpage :



In [46]:
lotr_quote = "It's a dangerous business, Frodo, going out your door."

In [47]:
words_in_lotr_quote = word_tokenize(lotr_quote)
words_in_lotr_quote

['It',
 "'s",
 'a',
 'dangerous',
 'business',
 ',',
 'Frodo',
 ',',
 'going',
 'out',
 'your',
 'door',
 '.']

In [48]:
nltk.download("averaged_perceptron_tagger")
lotr_pos_tags = nltk.pos_tag(words_in_lotr_quote)
lotr_pos_tags

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\gcher\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('It', 'PRP'),
 ("'s", 'VBZ'),
 ('a', 'DT'),
 ('dangerous', 'JJ'),
 ('business', 'NN'),
 (',', ','),
 ('Frodo', 'NNP'),
 (',', ','),
 ('going', 'VBG'),
 ('out', 'RP'),
 ('your', 'PRP$'),
 ('door', 'NN'),
 ('.', '.')]

In [49]:
grammar = "NP: {<DT>?<JJ>*<NN>}"

In [50]:
chunk_parser = nltk.RegexpParser(grammar)

In [51]:
chunk_parser

<chunk.RegexpParser with 1 stages>

In [52]:
tree = chunk_parser.parse(lotr_pos_tags)

In [53]:
tree.draw()


# Chinking
Le chinking est utilisé conjointement avec le chunking, mais alors que le chunking est utilisé pour inclure un motif, le chinking est utilisé pour exclure un motif.

Réutilisons la citation que vous avez utilisée dans la section sur le découpage. Vous disposez déjà d'une liste de tuples contenant chacun des mots de la citation ainsi que sa balise de partie du discours :

In [87]:
lotr_pos_tags

[('It', 'PRP'),
 ("'s", 'VBZ'),
 ('a', 'DT'),
 ('dangerous', 'JJ'),
 ('business', 'NN'),
 (',', ','),
 ('Frodo', 'NNP'),
 (',', ','),
 ('going', 'VBG'),
 ('out', 'RP'),
 ('your', 'PRP$'),
 ('door', 'NN'),
 ('.', '.')]

L'étape suivante consiste à créer une grammaire pour déterminer ce que vous voulez inclure et exclure dans vos morceaux. Cette fois, vous allez utiliser plus d'une ligne parce que vous allez avoir plus d'une règle. Comme vous utilisez plus d'une ligne pour la grammaire, vous utiliserez des guillemets triples (""") :

In [88]:
grammar = """
Chunk: {<.*>+}
       }<JJ>{"""

La première règle de votre grammaire est {<.*>+}. Cette règle a des accolades tournées vers l'intérieur ({}) parce qu'elle est utilisée pour déterminer les motifs que vous voulez inclure dans vos morceaux. Dans ce cas, vous voulez tout inclure : <.*>+.

La deuxième règle de votre grammaire est }<JJ>{. Cette règle a des accolades tournées vers l'extérieur (}{) parce qu'elle est utilisée pour déterminer les motifs que vous voulez exclure dans vos morceaux. Dans ce cas, vous voulez exclure les adjectifs : <JJ>.

Créez un analyseur de morceaux avec cette grammaire :

In [89]:
chunk_parser = nltk.RegexpParser(grammar)

In [90]:
tree = chunk_parser.parse(lotr_pos_tags)


In [91]:
tree.draw()

Ici, vous avez exclu l'adjectif "dangereux" de vos morceaux et vous vous retrouvez avec deux morceaux contenant tout le reste. Le premier bloc contient tout le texte apparaissant avant l'adjectif exclu. Le second contient tout ce qui se trouve après l'adjectif exclu.

Maintenant que vous savez comment exclure des motifs de vos morceaux, il est temps de vous pencher sur la reconnaissance des entités nommées (NER).

# Utilisation de la reconnaissance des entités nommées Named Entity Recognition (NER)
Les entités nommées sont des expressions nominales qui font référence à des lieux, des personnes, des organisations, etc. spécifiques. Grâce à la reconnaissance des entités nommées, vous pouvez trouver les entités nommées dans vos textes et déterminer de quel type d'entité nommée il s'agit.

Voici la liste des types d'entités nommées tirée du livre NLTK :

<table class="table table-hover">
<thead>
<tr>
<th>NE type</th>
<th>Examples</th>
</tr>
</thead>
<tbody>
<tr>
<td>ORGANIZATION</td>
<td>Georgia-Pacific Corp., WHO</td>
</tr>
<tr>
<td>PERSON</td>
<td>Eddy Bonte, President Obama</td>
</tr>
<tr>
<td>LOCATION</td>
<td>Murray River, Mount Everest</td>
</tr>
<tr>
<td>DATE</td>
<td>June, 2008-06-29</td>
</tr>
<tr>
<td>TIME</td>
<td>two fifty a m, 1:30 p.m.</td>
</tr>
<tr>
<td>MONEY</td>
<td>175 million Canadian dollars, GBP 10.40</td>
</tr>
<tr>
<td>PERCENT</td>
<td>twenty pct, 18.75 %</td>
</tr>
<tr>
<td>FACILITY</td>
<td>Washington Monument, Stonehenge</td>
</tr>
<tr>
<td>GPE</td>
<td>South East Asia, Midlothian</td>
</tr>
</tbody>
</table>

In [92]:
nltk.download("maxent_ne_chunker")
nltk.download("words")
tree = nltk.ne_chunk(lotr_pos_tags)

[nltk_data] Error loading maxent_ne_chunker: <urlopen error [Errno
[nltk_data]     11001] getaddrinfo failed>
[nltk_data] Error loading words: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


In [93]:
tree.draw()


In [None]:
tree = nltk.ne_chunk(lotr_pos_tags, binary=True)
tree.draw()

In [87]:
quote = """
Men like Schiaparelli watched the red planet—it is odd, by-the-bye, that
for countless centuries Mars has been the star of war—but failed to
interpret the fluctuating appearances of the markings they mapped so well.
All that time the Martians must have been getting ready.

During the opposition of 1894 a great light was seen on the illuminated
part of the disk, first at the Lick Observatory, then by Perrotin of Nice,
and then by other observers. English readers heard of it first in the
issue of Nature dated August 2."""

In [90]:
def extract_ne(quote):
    words = word_tokenize(quote, language="English")
    tags = nltk.pos_tag(words)
    tree = nltk.ne_chunk(tags, binary=True)
    return set(
        " ".join(i[0] for i in t)
        for t in tree
        if hasattr(t, "label") and t.label() == "NE"
    )

In [91]:
extract_ne(quote)


{'Lick Observatory', 'Mars', 'Nature', 'Perrotin', 'Schiaparelli'}

In [92]:
words = word_tokenize(quote, language="English")
tags = nltk.pos_tag(words)
tree = nltk.ne_chunk(tags)

In [93]:
tree.draw()

In [30]:
from datasets import load_dataset

l=load_dataset("wikipedia", language="sw", date="20220120")

FileNotFoundError: Couldn't find file at https://dumps.wikimedia.org/swwiki/20220120/dumpstatus.json

In [31]:
l

NameError: name 'l' is not defined