In [4]:
# Installation de la bibliothèque transformers de Hugging Face
!pip install transformers
!pip install transformers torch



# Analyse des sentiments

In [9]:
from transformers import pipeline

analyse_sentiments = pipeline(
    "sentiment-analysis",
    model="cmarkea/distilcamembert-base-sentiment"
)

analyse_sentiments("j'aime le football !")

Device set to use cpu


[{'label': '5 stars', 'score': 0.40852442383766174}]

# Traduction

In [11]:
# Pipeline pour la traduction (Anglais vers Français par exemple)
traducteur = pipeline('translation_en_to_fr', model='t5-base')

# Traduction d'une phrase de l'anglais vers le français
phrase_traduite = traducteur("I am the best.")

# Affichage de la phrase traduite
print(phrase_traduite[0]['translation_text'])

Device set to use cpu


Je suis le meilleur.


# Generation de texte

In [14]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Chargement du tokenizer et du modèle pour la génération de texte
tokenizer = GPT2Tokenizer.from_pretrained("antoiloui/belgpt2")
model = GPT2LMHeadModel.from_pretrained("antoiloui/belgpt2")

# Préparation des entrées pour la génération de texte, avec attention_mask
inputs = tokenizer("j'apprend le deep learnig parce que c'est", return_tensors="pt")
attention_mask = inputs['attention_mask']

# Génération de texte en français en fournissant l'attention_mask et en définissant pad_token_id si nécessaire
text_generation = model.generate(
    input_ids=inputs['input_ids'],
    attention_mask=attention_mask,
    max_length=200,
    num_return_sequences=1,
    pad_token_id=tokenizer.eos_token_id  # Définir si nécessaire
)

# Affichage du texte généré
print(tokenizer.decode(text_generation[0], skip_special_tokens=True))

j'apprend le deep learnig parce que c'est un peu comme si on avait un livre à lire , et que l' on pouvait le lire sans avoir à le lire . Le premier est un peu plus long , mais il est très agréable à lire . Il est donc important de bien choisir son matériel . Il est donc important de bien choisir son matériel . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son matériel de ski . Il est donc important de bien choisir son équipement . Il est donc important de bien choisir son matériel de ski . Il est donc important de


# Classification zeto-shot

In [15]:
from transformers import pipeline

# Pipeline pour la classification à zéro coup
classify_zero_shot = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

# Exemple de classification à zéro coup en français
classify_zero_shot(
    "Cet article traite de l'importance de l'intelligence artificielle dans la société moderne.",
    candidate_labels=["éducation", "politique", "technologie", "économie"],
    hypothesis_template="Cet article est sur {}."
)

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cpu


{'sequence': "Cet article traite de l'importance de l'intelligence artificielle dans la société moderne.",
 'labels': ['technologie', 'politique', 'éducation', 'économie'],
 'scores': [0.7246904969215393,
  0.09451781213283539,
  0.09433716535568237,
  0.08645451813936234]}

# Tokenisation

In [16]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# Nom du modèle pré-entraîné que vous souhaitez utiliser

model_name = "bert-base-multilingual-cased"

# Chargement du tokenizer et du modèle pour la classification de séquences
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Création d'une pipeline de classification de sentiment
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# Exemple de texte à analyser
texte = "Je suis ravi de découvrir des tutoriels sur l'intelligence artificielle."

# Tokenisation du texte
tokens = tokenizer.tokenize(texte)
input_ids = tokenizer.encode(texte)

# Affichage des tokens et des identifiants de tokens
print("Tokens:", tokens)
print("Identifiants de Tokens:", input_ids)

# Exécution de la pipeline de classification de sentiment sur le texte
resultat = classifier(texte)

# Affichage du résultat de l'analyse de sentiment
print("Résultat de l'analyse de sentiment:", resultat)

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu


Tokens: ['Je', 'suis', 'ra', '##vi', 'de', 'découvrir', 'des', 'tuto', '##rie', '##ls', 'sur', 'l', "'", 'intelligence', 'arti', '##ficie', '##lle', '.']
Identifiants de Tokens: [101, 13796, 49301, 11859, 11310, 10104, 91134, 10139, 69635, 12904, 11747, 10326, 180, 112, 30151, 46118, 72138, 11270, 119, 102]
Résultat de l'analyse de sentiment: [{'label': 'LABEL_0', 'score': 0.5915362238883972}]


In [17]:
from transformers import AutoTokenizer

# Nom du modèle pré-entraîné que vous souhaitez utiliser
model_name = "bert-base-multilingual-cased"

# Chargement du tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Exemple de texte à tokeniser
sequence = "Je suis ravi de découvrir des tutoriels sur l'intelligence artificielle."

# Tokenisation de la séquence
tokens = tokenizer.tokenize(sequence)
print("Tokens:", tokens)

Tokens: ['Je', 'suis', 'ra', '##vi', 'de', 'découvrir', 'des', 'tuto', '##rie', '##ls', 'sur', 'l', "'", 'intelligence', 'arti', '##ficie', '##lle', '.']


In [18]:
# Conversion des tokens en identifiants de tokens
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("Identifiants de Tokens:", token_ids)

Identifiants de Tokens: [13796, 49301, 11859, 11310, 10104, 91134, 10139, 69635, 12904, 11747, 10326, 180, 112, 30151, 46118, 72138, 11270, 119]


In [19]:
# Décodage des identifiants de tokens pour récupérer la séquence
decoded_sequence = tokenizer.decode(token_ids)
print("Séquence décodée:", decoded_sequence)

Séquence décodée: Je suis ravi de découvrir des tutoriels sur l ' intelligence artificielle.


# Faire un résumé

In [20]:
from transformers import pipeline

# Charger la pipeline de résumé avec le modèle BART
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# Exemple de texte long à résumer
text = """
L'intelligence artificielle est un domaine de l'informatique qui met l'accent sur la création de machines capables de travailler et de réagir comme des humains. Certains des exemples de travail dans ce domaine sont l'apprentissage automatique, où les ordinateurs, les logiciels et les appareils effectuent via des algorithmes des tâches de manière intelligente. Les algorithmes d'apprentissage automatique, qui sont au cœur de l'intelligence artificielle, permettent aux ordinateurs de s'entraîner sur des données fournies puis d'utiliser ces données pour prédire et prendre des décisions basées sur de nouvelles données. Les avantages de l'intelligence artificielle sont nombreux et peuvent avoir un impact significatif sur les secteurs où la précision et la cohérence sont cruciales.
"""

# Effectuer le résumé
summary = summarizer(text, max_length=50, min_length=30, do_sample=False)

# Afficher le résumé
print(summary[0]['summary_text'])

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cpu


L'intelligence artificielle est un domaine de l'informatique. Les algorithmes d'apprentissage automatique permettent aux ordinateurs de s'entraîner sur des donn


# Générer une description de l'image

In [21]:
from transformers import pipeline



def generer_legende_en_francais(chemin_image):
    """
    Génère une légende pour une image donnée en anglais et la traduit en français.

    :param chemin_image: Le chemin vers l'image pour laquelle générer une légende.
    :type chemin_image: str
    :return: La légende traduite en français.
    :rtype: str
    """

    # Initialiser la pipeline de légendage d'image
    pipeline_legende_image = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")

    # Initialiser la pipeline de traduction de l'anglais vers le français
    pipeline_traduction = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")

    # Génération de la légende en anglais
    resultats_legende = pipeline_legende_image(chemin_image)
    legende_anglaise = resultats_legende[0]['generated_text']

    # Traduction de la légende en français
    legende_francaise = pipeline_traduction(legende_anglaise, max_length=512)
    texte_francais = legende_francaise[0]['translation_text']

    return texte_francais

In [23]:
# Exemple d'appel de la fonction

legende_francaise = generer_legende_en_francais("images.jpeg")
print(legende_francaise)

Device set to use cpu
Device set to use cpu


Il y a deux hommes qui jouent au soccer sur un terrain avec une balle
