In [None]:
# Installation de la bibliothèque transformers de Hugging Face
!pip install transformers

# Analyse des sentiments

In [4]:
from transformers import pipeline
# Pipeline pour l'analyse de sentiments
# analyse_sentiments = pipeline('sentiment-analysis', model="tblard/tf-allocine")
analyse_sentiments = pipeline("text-classification", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Exemple d'analyse de sentiment
analyse_sentiments("J'aime beaucoup la soupe miso!")

config.json: 100%|██████████| 953/953 [00:00<00:00, 955kB/s]
pytorch_model.bin: 100%|██████████| 669M/669M [00:58<00:00, 11.5MB/s] 
tokenizer_config.json: 100%|██████████| 39.0/39.0 [00:00<00:00, 15.0kB/s]
vocab.txt: 100%|██████████| 872k/872k [00:00<00:00, 7.51MB/s]
special_tokens_map.json: 100%|██████████| 112/112 [00:00<00:00, 100kB/s]


[{'label': '5 stars', 'score': 0.5269569754600525}]

# Traduction

In [5]:
# Pipeline pour la traduction (Anglais vers Français par exemple)
traducteur = pipeline('translation_en_to_fr', model='t5-base')

# Traduction d'une phrase de l'anglais vers le français
phrase_traduite = traducteur("I am learning during the #30daysgenerativeai challenge.")

# Affichage de la phrase traduite
print(phrase_traduite[0]['translation_text'])


config.json: 100%|██████████| 1.21k/1.21k [00:00<?, ?B/s]
model.safetensors: 100%|██████████| 892M/892M [01:21<00:00, 11.0MB/s] 
generation_config.json: 100%|██████████| 147/147 [00:00<00:00, 73.2kB/s]
spiece.model: 100%|██████████| 792k/792k [00:00<00:00, 3.06MB/s]
tokenizer.json: 100%|██████████| 1.39M/1.39M [00:00<00:00, 3.25MB/s]
For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-base automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.


J'apprends au cours du défi #30daysgenerativeai.


# Generation de texte

In [4]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Chargement du tokenizer et du modèle pour la génération de texte
tokenizer = GPT2Tokenizer.from_pretrained("antoiloui/belgpt2")
model = GPT2LMHeadModel.from_pretrained("antoiloui/belgpt2")

# Préparation des entrées pour la génération de texte, avec attention_mask
inputs = tokenizer("Le Challenge #30daysgenerativeai c'est", return_tensors="pt")
attention_mask = inputs['attention_mask']

# Génération de texte en français en fournissant l'attention_mask et en définissant pad_token_id si nécessaire
text_generation = model.generate(
    input_ids=inputs['input_ids'],
    attention_mask=attention_mask,
    max_length=200,
    num_return_sequences=1,
    pad_token_id=tokenizer.eos_token_id  # Définir si nécessaire
)

# Affichage du texte généré
print(tokenizer.decode(text_generation[0], skip_special_tokens=True))

Le Challenge #30daysgenerativeai c'est pas pour tout de suite, mais je suis pas sûr que ça soit la bonne solution. Le premier est un peu plus long, mais il est très agréable à lire. Il est donc important de bien choisir son matériel. Il est donc important de bien choisir son matériel de ski. Il est donc important de bien choisir son matériel de ski. Il est donc important de bien choisir son matériel de ski. Il est donc important de bien choisir son matériel de ski. Le premier est un peu plus long, mais il est très agréable à lire. Il est donc important de bien choisir son matériel de ski. Le premier est un peu plus long, mais il est très agréable à lire. Il est donc important de bien choisir son matériel. Le premier est un peu plus long, mais il est très agréable à lire. Il est donc important de bien choisir son matériel. Le premier est un peu plus long, mais il est très agréable à lire


# Classification zeto-shot

La classification à zero-shot fait référence à la capacité d'un modèle à classer correctement des textes dans des catégories sans avoir reçu d'exemples spécifiques lors de son entraînement. 

Le modèle utilise sa compréhension générale de la langue pour faire des hypothèses sur la classification.

In [6]:
from transformers import pipeline

# Pipeline pour la classification à zéro coup
classify_zero_shot = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

# Exemple de classification à zéro coup en français
classify_zero_shot(
    "Cet article traite de l'importance de l'intelligence artificielle dans la société moderne.",
    candidate_labels=["éducation", "politique", "technologie", "économie"],
    hypothesis_template="Cet article est sur {}."
)

{'sequence': "Cet article traite de l'importance de l'intelligence artificielle dans la société moderne.",
 'labels': ['technologie', 'politique', 'éducation', 'économie'],
 'scores': [0.7246902585029602,
  0.0945177674293518,
  0.09433727711439133,
  0.08645474910736084]}

# Tokenisation

In [6]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# Nom du modèle pré-entraîné que vous souhaitez utiliser

model_name = "bert-base-multilingual-cased"

# Chargement du tokenizer et du modèle pour la classification de séquences
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Création d'une pipeline de classification de sentiment
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# Exemple de texte à analyser
texte = "Je suis ravi de découvrir des tutoriels sur l'intelligence artificielle."

# Tokenisation du texte
tokens = tokenizer.tokenize(texte)
input_ids = tokenizer.encode(texte)

# Affichage des tokens et des identifiants de tokens
print("Tokens:", tokens)
print("Identifiants de Tokens:", input_ids)

# Exécution de la pipeline de classification de sentiment sur le texte
resultat = classifier(texte)

# Affichage du résultat de l'analyse de sentiment
print("Résultat de l'analyse de sentiment:", resultat)


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Tokens: ['Je', 'suis', 'ra', '##vi', 'de', 'découvrir', 'des', 'tuto', '##rie', '##ls', 'sur', 'l', "'", 'intelligence', 'arti', '##ficie', '##lle', '.']
Identifiants de Tokens: [101, 13796, 49301, 11859, 11310, 10104, 91134, 10139, 69635, 12904, 11747, 10326, 180, 112, 30151, 46118, 72138, 11270, 119, 102]
Résultat de l'analyse de sentiment: [{'label': 'LABEL_1', 'score': 0.6690822243690491}]


In [7]:
from transformers import AutoTokenizer

# Nom du modèle pré-entraîné que vous souhaitez utiliser
model_name = "bert-base-multilingual-cased"

# Chargement du tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Exemple de texte à tokeniser
sequence = "Je suis ravi de découvrir des tutoriels sur l'intelligence artificielle."

# Tokenisation de la séquence
tokens = tokenizer.tokenize(sequence)
print("Tokens:", tokens)






Tokens: ['Je', 'suis', 'ra', '##vi', 'de', 'découvrir', 'des', 'tuto', '##rie', '##ls', 'sur', 'l', "'", 'intelligence', 'arti', '##ficie', '##lle', '.']


In [8]:
# Conversion des tokens en identifiants de tokens
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("Identifiants de Tokens:", token_ids)

Identifiants de Tokens: [13796, 49301, 11859, 11310, 10104, 91134, 10139, 69635, 12904, 11747, 10326, 180, 112, 30151, 46118, 72138, 11270, 119]


In [9]:
# Décodage des identifiants de tokens pour récupérer la séquence
decoded_sequence = tokenizer.decode(token_ids)
print("Séquence décodée:", decoded_sequence)

Séquence décodée: Je suis ravi de découvrir des tutoriels sur l'intelligence artificielle.


# Faire un résumé

In [7]:
from transformers import pipeline

# Charger la pipeline de résumé avec le modèle BART
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# Exemple de texte long à résumer
text = """
L'intelligence artificielle est un domaine de l'informatique qui met l'accent sur la création de machines capables de travailler et de réagir comme des humains. Certains des exemples de travail dans ce domaine sont l'apprentissage automatique, où les ordinateurs, les logiciels et les appareils effectuent via des algorithmes des tâches de manière intelligente. Les algorithmes d'apprentissage automatique, qui sont au cœur de l'intelligence artificielle, permettent aux ordinateurs de s'entraîner sur des données fournies puis d'utiliser ces données pour prédire et prendre des décisions basées sur de nouvelles données. Les avantages de l'intelligence artificielle sont nombreux et peuvent avoir un impact significatif sur les secteurs où la précision et la cohérence sont cruciales.
"""

# Effectuer le résumé
summary = summarizer(text, max_length=50, min_length=30, do_sample=False)

# Afficher le résumé
print(summary[0]['summary_text'])


config.json: 100%|██████████| 1.58k/1.58k [00:00<00:00, 794kB/s]
model.safetensors: 100%|██████████| 1.63G/1.63G [02:21<00:00, 11.5MB/s]
generation_config.json: 100%|██████████| 363/363 [00:00<00:00, 182kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 2.26MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 1.55MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 7.10MB/s]


L'intelligence artificielle est un domaine de l'informatique. Les algorithmes d'apprentissage automatique permettent aux ordinateurs de s'entraîner sur des donn


# Générer une description de l'image

In [3]:
# Create an image segmentation pipeline
from transformers import pipeline
image_segmentation_pipeline = pipeline(
    task="image-segmentation",
    model="nvidia/segformer-b5-finetuned-ade-640-640"
)

# Path to your input image
input_image_path = "C:\\Users\\gael.jaunin\\OneDrive - Naldeo\\Documents\\1.NDC\\1-NALDIA\\v0\\auth\\chatapp\\sharepoint\\models\\castle.jpg"


# Perform image segmentation
result = image_segmentation_pipeline(input_image_path)

# Access the segmentation mask
segmentation_mask = result[0]['score']
print(segmentation_mask)
# You can now use the segmentation mask as needed

Could not find image processor class in the image processor config or the model config. Loading based on pattern matching with the model's feature extractor configuration.


None


In [8]:
from transformers import pipeline



def generer_legende_en_francais(chemin_image):
    """
    Génère une légende pour une image donnée en anglais et la traduit en français.

    :param chemin_image: Le chemin vers l'image pour laquelle générer une légende.
    :type chemin_image: str
    :return: La légende traduite en français.
    :rtype: str
    """
    
    # Initialiser la pipeline de légendage d'image
    pipeline_legende_image = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")

    # Initialiser la pipeline de traduction de l'anglais vers le français
    pipeline_traduction = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")
    
    # Génération de la légende en anglais
    resultats_legende = pipeline_legende_image(chemin_image)
    legende_anglaise = resultats_legende[0]['generated_text']

    # Traduction de la légende en français
    legende_francaise = pipeline_traduction(legende_anglaise, max_length=512)
    texte_francais = legende_francaise[0]['translation_text']

    return texte_francais




In [9]:
# Exemple d'appel de la fonction

joblib_backups = "C:\\Users\\gael.jaunin\\OneDrive - Naldeo\\Documents\\1.NDC\\1-NALDIA\\v0\\auth\\chatapp\\sharepoint\\models\\"
legende_francaise = generer_legende_en_francais(joblib_backups+"photo.jpg")
print(legende_francaise)

config.json: 100%|██████████| 1.42k/1.42k [00:00<00:00, 472kB/s]
pytorch_model.bin: 100%|██████████| 301M/301M [00:26<00:00, 11.6MB/s] 
generation_config.json: 100%|██████████| 293/293 [00:00<00:00, 234kB/s]
tokenizer_config.json: 100%|██████████| 42.0/42.0 [00:00<?, ?B/s]


ValueError: This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.