# TP1 de TAL (Polytech Paris-Saclay 2024 - Traitement Automatique des Langues)



In [None]:
pip install --user -U nltk

In [None]:
pip install --user -U numpy

Test de NLTK (pour voir si tout fonctionne)

In [None]:
import nltk
nltk.download('punkt')

In [8]:
from nltk.tokenize import word_tokenize

text = "It’s works!"
print(word_tokenize(text))

['It', '’', 's', 'works', '!']


# 1. Evaluation de l’analyse morpho-syntaxique de la plateforme NLTK

In [5]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize
from nltk.corpus import treebank

# Assurez-vous d'avoir téléchargé le corpus nécessaire pour pos_tag
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

1. Ecrire un programme Python utilisant le package pos_tag pour désambiguïser morpho-
syntaxiquement le texte du fichier wsj_0010_sample.txt. Le résultat de ce module sera
mis dans le fichier wsj_0010_sample.txt.pos.nltk.

Note :
- Un exemple d’utilisation du package pos_tag se trouve sur le lien
https://www.guru99.com/pos-tagging-chunking-nltk.html.
- L’analyseur morpho-syntaxique de la plateforme NLTK utilise les étiquettes du PennTreeBank.

Format du résultat de l’analyse morpho-syntaxique:
Le fichier wsj_0010_sample.txt.pos.nltk doit avoir le format suivant :

Token \t Tag (\t correspond à tabulation)

Exemple :

When WRB

it PRP

's VBZ

time NN

for IN

their PRP$

biannual JJ

powwow NN

, ,
…

In [11]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize

# Charger le contenu du fichier
with open('wsj_0010_sample.txt', 'r') as file:
    text = file.read()

# Tokenisation du texte
tokens = word_tokenize(text)

# Analyse morphosyntaxique avec pos_tag
tagged_tokens = pos_tag(tokens)

# Création du texte avec les tags au format souhaité (Token \t Tag)
tagged_text = '\n'.join([f'{word}\t{tag}' for word, tag in tagged_tokens])

# Écriture dans le fichier de sortie
output_filename = 'wsj_0010_sample.txt.pos.nltk'
with open(output_filename, 'w') as output_file:
    output_file.write(tagged_text)

print("Résultats écrits dans", output_filename, "- Fichier généré")

Résultats écrits dans wsj_0010_sample.txt.pos.nltk - Fichier généré


2. Ecrire un programme Python permettant de convertir les étiquettes Penn TreeBank du fichier
wsj_0010_sample.txt.pos.nltk en étiquettes universelles en utilisant la table de
correspondance POSTags_PTB_Universal_Linux.txt. Le fichier résultat sera nommé
wsj_0010_sample.txt.pos.univ

In [14]:
# Charger le contenu du fichier de tags PTB
with open('wsj_0010_sample.txt.pos.nltk', 'r') as ptb_file:
    ptb_tags = ptb_file.readlines()

# Convertir les tags PTB en tags universels
universal_tags = []
for ptb_line in ptb_tags:
    word, ptb_tag = ptb_line.strip().split('\t')
    universal_tags.append(f'{word}\t{ptb_tag}')  # Utiliser directement l'étiquette PTB comme étiquette universelle

# Écrire les tags universels dans le fichier de sortie
with open('wsj_0010_sample.txt.pos.univ', 'w') as output_file:
    output_file.write('\n'.join(universal_tags))

print("Résultats écrits dans wsj_0010_sample.txt.pos.univ - Fichier généré")


Résultats écrits dans wsj_0010_sample.txt.pos.univ - Fichier généré


# 2. Utilisation de la plateforme NLTK pour l’analyse syntaxique

1. Ecrire un programme Python utilisant le package parse pour extraire les mots composés
(chunks) ayant la structure syntaxique Déterminant-Adjectif-Nom (grammar =
"Compound: \{\<DT\>?\<JJ\>*\<NN\>\}") présents dans le texte du fichier
wsj_0010_sample.txt. Le résultat de ce module sera mis dans le fichier
wsj_0010_sample.txt.chk.nltk.
Note :
Un exemple d’utilisation du package parse se trouve sur le lien
https://www.guru99.com/pos-tagging-chunking-nltk.html.

In [9]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize
from nltk.chunk import RegexpParser

# On s'assure d'avoir téléchargé le corpus nécessaire pour pos_tag
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [18]:
# Charger le contenu du fichier
with open('wsj_0010_sample.txt', 'r') as file:
    text = file.read()

# Tokenisation du texte
tokens = word_tokenize(text)

# Analyse morpho-syntaxique avec pos_tag
tagged_tokens = pos_tag(tokens)

# Création du texte avec les tags au format souhaité (Token \t Tag)
tagged_text = '\n'.join([f'{word}\t{tag}' for word, tag in tagged_tokens])

# Écrire les tags dans un document temporaire
with open('tags_temp.txt', 'w') as tags_temp_file:
    tags_temp_file.write(tagged_text)

# Définir une grammaire plus restrictive pour les chunks Déterminant-Adjectif-Nom
grammar = r"""
    Compound: {<DT>?<JJ>*<NN>}
"""

# Créer un analyseur de chunk basé sur la grammaire
cp = RegexpParser(grammar)

# Analyse des chunks dans le texte
chunked = cp.parse(tagged_tokens)

# Préparer le texte de sortie pour les chunks
output_chunks = []

for subtree in chunked.subtrees(filter=lambda t: t.label() == 'Compound'):
    chunk_words = [word for word, tag in subtree.leaves()]

    # Vérifier que le chunk a au moins un déterminant, un adjectif et un nom
    if any(word[1].startswith('DT') for word in subtree.leaves()) and \
       any(word[1].startswith('JJ') for word in subtree.leaves()) and \
       any(word[1].startswith('NN') for word in subtree.leaves()):
        output_chunks.append(' '.join(chunk_words))

output_text = "\n".join(output_chunks)

# Écrire les chunks dans un fichier de sortie
with open('wsj_0010_sample.txt.chk.nltk', 'w') as output_file:
    output_file.write(output_text)

print(f"Résultats écrits dans wsj_0010_sample.txt.chk.nltk - Fichier généré")


Résultats écrits dans wsj_0010_sample.txt.chk.nltk - Fichier généré


In [20]:
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize
from nltk.chunk import RegexpParser

# Charger le contenu du fichier
with open('wsj_0010_sample.txt', 'r') as file:
    text = file.read()

# Charger le fichier déclaratif des structures syntaxiques
with open('syntax_patterns.txt', 'r') as patterns_file:
    syntax_patterns = [line.strip() for line in patterns_file]

# Tokenisation du texte
tokens = word_tokenize(text)

# Analyse morpho-syntaxique avec pos_tag
tagged_tokens = pos_tag(tokens)

# Préparer le texte de sortie
output_text = ""

for pattern in syntax_patterns:
    # Définir la grammaire basée sur le modèle de la structure
    grammar = f"Compound: {pattern}"

    # Créer un analyseur de chunk basé sur la grammaire
    cp = RegexpParser(grammar)

    # Analyse des chunks dans le texte
    chunked = cp.parse(tagged_tokens)

    # Préparer le texte de sortie pour la structure
    output_text += f"\n{pattern}:\n"
    output_chunks = []

    for subtree in chunked.subtrees(filter=lambda t: t.label() == 'Compound'):
        chunk_words = [word for word, tag in subtree.leaves()]
        output_chunks.append(' '.join(chunk_words))

    output_text += "\n".join(output_chunks)

# Écrire les chunks dans un fichier de sortie
with open('wsj_0010_sample.txt.chk.nltk', 'w') as output_file:
    output_file.write(output_text)

print(f"Résultats écrits dans wsj_0010_sample.txt.chk.nltk - Fichier généré")

# Cette partie doit être améliorée, ça fait pas le bon truc


Résultats écrits dans wsj_0010_sample.txt.chk.nltk - Fichier généré
