# L'API d'OpenAI - https://platform.openai.com/

L’API d'OpenAI permet aux développeurs d'accéder aux modèles de traitement du langage naturel GPT-3 de OpenAI pour diverses applications, allant de la génération de contenu à la création d'applications de chatbot.


<img src='https://images.lifestyleasia.com/wp-content/uploads/sites/6/2023/01/30023721/openai-chatgpt-elon-musk-artificial-intelligence.png?tr=w-1200,h-900'>

A travers [la plateforme d'OpenAI](https://platform.openai.com/), les développeurs ont accès à :
- La page de bienvenue présentant les fonctionnalité principales de l’API.
- La page de documentation qui présente les principe technique de fonctionnement de l’API via des tutoriels.
La page API reference qui présente les point de terminaison de l’API.
- La page Exemple qui présente des cas d’utilisation de l’API.
- La page Playground qui permet de tester les modèles de génération de texte.


# 1. Les modèles GPT
Le modèle GPT (Generative Pre-trained Transformer) est un modèle de traitement du langage naturel (NLP) basé sur la famille des transformaters. Il a été développé par OpenAI et a été publié pour la première fois en 2018.

Le modèle GPT est un modèle de langage pré-entraîné, ce qui signifie qu'il a été entraîné sur un grand corpus de texte non annoté avant d'être fine-tuné pour des tâches spécifiques. GPT a été entraîné sur un corpus de textes en anglais provenant de sources variées telles que des pages web, des livres et des articles de journaux. Il utilise une architecture transformer, qui utilise des couches d'auto-attention pour encoder la séquence d'entrée.

* **GPT-1**, la première version de GPT, a été entraîné sur un corpus de 40 Go de texte.

* **GPT-2**, la deuxième version de GPT, a été entraîné sur un corpus de 1,5 To de texte et est devenu célèbre pour sa capacité à générer des textes de qualité proche de celle de l'homme.

* **GPT-3**, la troisième version de GPT, est l'un des plus grands modèles de langage pré-entraîné au monde, avec 175 milliards de paramètres, et a démontré une capacité impressionnante à effectuer une large gamme de tâches de NLP sans fine-tuning important.

* **GPT-4**, la quatrième itération de la série GPT, représente une avancée significative dans le domaine de l'apprentissage automatique et du traitement du langage naturel avec près de 100 000 milliards de paramètres.

**L'importance du `prompt`**

Un prompt est un texte court qui est utilisé pour initier une tâche ou une interaction avec un système d'IA (intelligence artificielle). Dans le domaine du traitement du langage naturel (NLP), les prompts sont souvent utilisés pour guider la génération de texte ou pour interroger un système de question-réponse.

Par exemple, dans le cadre d'une conversation avec un chatbot, le prompt peut être une question ou une déclaration qui invite le chatbot à fournir une réponse appropriée. Dans le cadre de la génération de texte, le prompt peut être une phrase ou un paragraphe qui sert de point de départ à un modèle de langage pour générer du texte cohérent.

Les prompts sont devenus de plus en plus populaires avec l'avènement des GPT (Generative Pre-trained Transformer) qui sont des modèles de NLP pré-entraînés capables de générer du texte de manière autonome. Les utilisateurs peuvent fournir des prompts à ces modèles pour générer une variété de contenus, y compris des histoires, des articles de blog, des poèmes et même du code informatique.

In [1]:
!pip install openai==0.28.0

Collecting openai==0.28.0
  Downloading openai-0.28.0-py3-none-any.whl.metadata (13 kB)
Collecting aiohttp (from openai==0.28.0)
  Downloading aiohttp-3.9.1-cp311-cp311-win_amd64.whl.metadata (7.6 kB)
Collecting multidict<7.0,>=4.5 (from aiohttp->openai==0.28.0)
  Downloading multidict-6.0.4-cp311-cp311-win_amd64.whl (28 kB)
Collecting yarl<2.0,>=1.0 (from aiohttp->openai==0.28.0)
  Downloading yarl-1.9.4-cp311-cp311-win_amd64.whl.metadata (32 kB)
Collecting frozenlist>=1.1.1 (from aiohttp->openai==0.28.0)
  Downloading frozenlist-1.4.0-cp311-cp311-win_amd64.whl.metadata (5.3 kB)
Collecting aiosignal>=1.1.2 (from aiohttp->openai==0.28.0)
  Downloading aiosignal-1.3.1-py3-none-any.whl (7.6 kB)
Downloading openai-0.28.0-py3-none-any.whl (76 kB)
   ---------------------------------------- 0.0/76.5 kB ? eta -:--:--
   ---------------------------------------- 76.5/76.5 kB 2.1 MB/s eta 0:00:00
Downloading aiohttp-3.9.1-cp311-cp311-win_amd64.whl (364 kB)
   -----------------------------------

In [135]:
import openai
from dotenv import load_dotenv
import os
load_dotenv()

openai.api_key = os.getenv("API_KEY")

[model['id'] for model in openai.Model().list()["data"]]

['text-search-babbage-doc-001',
 'curie-search-query',
 'text-davinci-003',
 'text-search-babbage-query-001',
 'babbage',
 'babbage-search-query',
 'text-babbage-001',
 'text-similarity-davinci-001',
 'davinci-similarity',
 'code-davinci-edit-001',
 'curie-similarity',
 'babbage-search-document',
 'curie-instruct-beta',
 'text-search-ada-doc-001',
 'davinci-instruct-beta',
 'whisper-1',
 'text-similarity-babbage-001',
 'text-search-davinci-doc-001',
 'gpt-3.5-turbo-16k-0613',
 'gpt-3.5-turbo-16k',
 'babbage-similarity',
 'text-embedding-ada-002',
 'davinci-search-query',
 'text-similarity-curie-001',
 'text-davinci-001',
 'text-search-davinci-query-001',
 'ada-search-document',
 'ada-code-search-code',
 'babbage-002',
 'davinci-002',
 'davinci-search-document',
 'curie-search-document',
 'gpt-4-0613',
 'babbage-code-search-code',
 'text-search-ada-query-001',
 'code-search-ada-text-001',
 'babbage-code-search-text',
 'gpt-4-vision-preview',
 'code-search-babbage-code-001',
 'ada-search

In [11]:
openai.Model().list()

<OpenAIObject list at 0x198fc95b170> JSON: {
  "object": "list",
  "data": [
    {
      "id": "text-search-babbage-doc-001",
      "object": "model",
      "created": 1651172509,
      "owned_by": "openai-dev"
    },
    {
      "id": "curie-search-query",
      "object": "model",
      "created": 1651172509,
      "owned_by": "openai-dev"
    },
    {
      "id": "text-davinci-003",
      "object": "model",
      "created": 1669599635,
      "owned_by": "openai-internal"
    },
    {
      "id": "text-search-babbage-query-001",
      "object": "model",
      "created": 1651172509,
      "owned_by": "openai-dev"
    },
    {
      "id": "babbage",
      "object": "model",
      "created": 1649358449,
      "owned_by": "openai"
    },
    {
      "id": "babbage-search-query",
      "object": "model",
      "created": 1651172509,
      "owned_by": "openai-dev"
    },
    {
      "id": "text-babbage-001",
      "object": "model",
      "created": 1649364043,
      "owned_by": "openai"
  

## 1.1 Text Completion

La complétion de texte est une tâche de NLP qui consiste à prédire la suite d'un texte donné. Par exemple, si nous donnons le texte "Je suis un étudiant en informatique", le modèle doit prédire la suite du texte, qui est "à l'Université de Lomé".

In [19]:
# Générateur de texte
response = openai.Completion.create(
    engine="davinci",
    prompt="Je suis un chatbot conçu pour",
    temperature=1,
    max_tokens=300)

response.choices[0].text

' produire des contenus personnalisés (y compris des messages automatiques et des issus de données) et des publicités sur Facebook.\n\nLe chatbot de Groupon est inspiré par sense of sauver.verify_mobile_number Message ne demande de renseignements personnels et ne prend que dix minutes pour obtenir le numéro de téléphone à moins d‘une idée que tout moment entre votre nom, date de naissance et actuelle adresse. Voici un exemple de ce que ce pourrait votre message :\n\nFacebook est co fut initiellement construit autour des interactions de personnes et de groupe, essentiellement des amis, et n‘a jamais aussi bien développé de soutien de base pour les marques. Pourtant, Facebook est devenu un meilleur moyen que Twitter pour les marques d’atteindre leurs communautés et les clients préférentiels ..\n\nChaque entreprise et chaque marque a une identité différente. La marque peut être le nom qu’utilise une entreprise, un personnage dans une campagne promotionnelle et un hashtag'

In [20]:
# Traduction avec ChatGPT
response = openai.Completion.create(
  model="text-davinci-003",
  prompt="Translate this into 1. French, 2. Spanish and 3. Japanese:\n\nWhat rooms do you have available?\n\n1.",
  temperature=0.3,
  max_tokens=100,
  top_p=1.0,
  frequency_penalty=0.0,
  presence_penalty=0.0
)
response.choices[0].text

' Quels salles avez-vous disponibles?\n2. ¿Qué habitaciones tienes disponibles?\n3. どの部屋が利用可能ですか？'

## 1.2 ChatCompletion

Les rôles du model GPT-3 dans le chatbot sont les suivants :
- **system**: le chatbot, on donne ici le role de system au model GPT-3
- **user**: l'utilisateur, on fournira ici la réponse de l'utilisateur
- **agent**: l'agent de l'API d'OpenAI, on fournira ici la réponse de l'agent

In [21]:
import bs4
import requests

query = input('What do you want to search for ? ')
text = requests.get(f'https://www.bing.com/news/search?q={query}').text
soup = bs4.BeautifulSoup(text, 'html.parser')

actu = ' '.join(["- Actualité : " + link.text+ ' \n'  for link in soup.find_all('a', 'title')])
actu

'- Actualité : Economie La France encore championne d\'Europe des dépenses de protection sociale en 2022 \n - Actualité : Tentez de gagner un cadeau France Bleu en trouvant le bon score du match Stade Rennais-Villarreal \n - Actualité : Taxe sur les plateformes d\'écoute de musique en ligne : "La France ne sera plus une priorité pour Spotify", avertit son DG \n - Actualité : Inflation, climat, croissance : Dans les coulisses de ceux qui prédisent l\'économie à la Banque de France \n - Actualité : Air France-KLM vise une marge opérationnelle supérieure à 8% sur la période 2026-2028 \n - Actualité : Miss France 2024 : Noa Dutitre (Miss Champagne-Ardenne 2023) raconte comment son père, célèbre footballeur, l\'aide dans son parcours \n - Actualité : L’invité de la rédaction de France Bleu Lorraine - Christophe Naegelen, député des Vosges \n - Actualité : La Suède domine l\'Allemagne et affrontera la France en demi-finales du Mondial \n'

In [23]:
' '.join(["Bonjour","tout","le","monde"])

'Bonjour tout le monde'

In [24]:
actu.split('\n')

["- Actualité : Economie La France encore championne d'Europe des dépenses de protection sociale en 2022 ",
 ' - Actualité : Tentez de gagner un cadeau France Bleu en trouvant le bon score du match Stade Rennais-Villarreal ',
 ' - Actualité : Taxe sur les plateformes d\'écoute de musique en ligne : "La France ne sera plus une priorité pour Spotify", avertit son DG ',
 " - Actualité : Inflation, climat, croissance : Dans les coulisses de ceux qui prédisent l'économie à la Banque de France ",
 ' - Actualité : Air France-KLM vise une marge opérationnelle supérieure à 8% sur la période 2026-2028 ',
 " - Actualité : Miss France 2024 : Noa Dutitre (Miss Champagne-Ardenne 2023) raconte comment son père, célèbre footballeur, l'aide dans son parcours ",
 ' - Actualité : L’invité de la rédaction de France Bleu Lorraine - Christophe Naegelen, député des Vosges ',
 " - Actualité : La Suède domine l'Allemagne et affrontera la France en demi-finales du Mondial ",
 '']

In [115]:
reponse = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "system",
         "content": f"Tu es un rédacteur web qui synthétise l'actualité en 50 mots sur la thématique '{query}' Tu fais des liaisons entre les articles avec des mots tel que 'mais', 'donc', 'or', 'par contre', 'en revanche', 'en effet', 'cependant', 'toutefois', 'par ailleurs', 'par contre', 'par contre, 'enfin'"},
        {"role": "user",
         "content": "Voici la liste des actualités à synthétiser :" + actu},
    ],
    max_tokens=100,
    temperature=0.9,
)

reponse['choices'][0]['message']["content"]

<OpenAIObject chat.completion id=chatcmpl-8VdFJY725RQEnnNxhCKtgy65V1llB at 0x198fdeeb0b0> JSON: {
  "id": "chatcmpl-8VdFJY725RQEnnNxhCKtgy65V1llB",
  "object": "chat.completion",
  "created": 1702549721,
  "model": "gpt-3.5-turbo-0613",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "La France reste championne d'Europe des d\u00e9penses de protection sociale en 2022. Par contre, Spotify avertit que la France ne sera plus une priorit\u00e9 apr\u00e8s l'introduction d'une taxe sur les plateformes d'\u00e9coute de musique en ligne. En revanche, Air France-KLM vise une marge op\u00e9rationnelle sup\u00e9rieure \u00e0 8% d'ici 2026-2028. Cependant, dans les coulisses de"
      },
      "finish_reason": "length"
    }
  ],
  "usage": {
    "prompt_tokens": 394,
    "completion_tokens": 100,
    "total_tokens": 494
  },
  "system_fingerprint": null
}

# **2. DALL-E et de l'API DALL-E d'OpenAI en Python**

<img src='https://images.openai.com/blob/d3b684dc-eb13-4fbd-a77e-0a397e059fef/dall-e-1.jpg?trim=0,0,0,0&width=3200'>

Dans ce notebook, nous allons explorer l'utilisation de DALL-E, une puissante modèle de génération d'images développé par OpenAI. DALL-E est capable de générer des images à partir de descriptions textuelles, ou de transformer des images existantes en fonction de certaines spécifications.

Nous allons également voir comment utiliser l'API DALL-E d'OpenAI pour intégrer cette technologie dans nos applications Python.


## 2.1 Création d'images à partir de texte

DALL-E est un modèle de génération d'images qui peut créer des images à partir de descriptions textuelles. Il est capable de générer des images à partir de descriptions textuelles, ou de transformer des images existantes en fonction de certaines spécifications.

In [131]:
# Configurations & Imports
from IPython.display import Image
import requests

# Generate image from text
import openai

openai.api_key = os.getenv("API_KEY")

In [75]:
# Generate image from text
response = openai.Image.create(
  prompt="final video game boss fight\n\n",
  n=1,
  size="1024x1024"
)
image_url = response['data'][0]['url']
image_url

'https://oaidalleapiprodscus.blob.core.windows.net/private/org-LQTlKf4xJJRjJoDiPvPOzZJD/user-4kxhq9RGmV01JjHdVuqBCwmK/img-uxlOZZSQ9I3lxYtPWA7utTt2.png?st=2023-12-14T08%3A56%3A22Z&se=2023-12-14T10%3A56%3A22Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-14T09%3A43%3A08Z&ske=2023-12-15T09%3A43%3A08Z&sks=b&skv=2021-08-06&sig=F1y%2BiBDYwXxb/SdYjrXY54PjXyFSr9kjChhFWe3Vgnc%3D'

In [38]:
# Show image
Image(url=image_url)

<Image at 0x198fc8f1c70> JSON: {}

# 2.2 Création d'une variante d'une image

DALL-E peut également être utilisé pour créer des variantes d'une image. Pour ce faire, il suffit de télécharger une image et de la soumettre à DALL-E. Le modèle génère alors une variante de l'image.

In [60]:
#Download image from url
def download_image(url_img, img_name):
    img = requests.get(url_img).content
    with open(img_name, 'wb') as handler:
        handler.write(img)

# Download image
download_image(image_url, 'img.png')

# Show image
Image(url='img.png')

<Image at 0x198fc979130> JSON: {}

In [61]:
# Create image variation
response = Image.create_variation(
  image=open("img.png", "rb"),
  n=1,
  size="1024x1024"
)
image_url = response['data'][0]['url']

Image(url=image_url)

<Image at 0x198fc97abd0> JSON: {}

## 2.3 Edition d'images à partir de texte et d'un masque

DALL-E utilise ces informations pour générer une image éditée qui répond aux spécifications de l'utilisateur. Le modèle combine les informations du texte et du masque pour effectuer les modifications souhaitées sur l'image source.

L'édition d'une image peut se faire à partir de la plateforme DALL-E : https://labs.openai.com/

In [None]:
# Edit image from text and mask
response = openai.Image.create_edit(
  image=open("img.png", "rb"),
  mask=open("mask.png", "rb"),
  prompt="red eyes",
  n=1,
  size="1024x1024"
)
image_url = response['data'][0]['url']

Image(url=image_url)

In [46]:
from chatgpt import TextProcessor 

In [132]:

import openai
import bs4
import requests


class TEST:
    def __init__(self, text):
        self.text = text
    
    def openai_translate(self, language):
        response = openai.Completion.create(
        model="text-davinci-003",
        prompt=f"Translate the text after in {language}:\n\n{self}\n\n1.",
        temperature=0.3,
        max_tokens=100,
        top_p=1.0,
        frequency_penalty=0.0,
        presence_penalty=0.0
        )
        response.choices[0].text
        return response.choices[0].text
    
    def openai_text_summary(self):
        reponse = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system",
                "content": f"resume moi le texte suivant: '{self}' Tu fais des liaisons entre les articles avec des mots tel que 'mais', 'donc', 'or', 'par contre', 'en revanche', 'en effet', 'cependant', 'toutefois', 'par ailleurs', 'par contre', 'par contre, 'enfin'"},
                {"role": "user",
                "content": "Voici la liste des actualités à synthétiser :" + actu},
            ],
            max_tokens=100,
            temperature=0.9,
        )

        return reponse['choices'][0]['message']["content"]
    
    def openai_text_generator(self):

        text = requests.get(f'https://www.bing.com/news/search?q={self}').text
        soup = bs4.BeautifulSoup(text, 'html.parser')

        actu = ' '.join(["- Actualité : " + link.text+ ' \n'  for link in soup.find_all('a', 'title')])

        actu.split('\n')
        reponse = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system",
                "content": f"Tu es un rédacteur web qui synthétise l'actualité en 50 mots sur la thématique '{query}' Tu fais des liaisons entre les articles avec des mots tel que 'mais', 'donc', 'or', 'par contre', 'en revanche', 'en effet', 'cependant', 'toutefois', 'par ailleurs', 'par contre', 'par contre, 'enfin'"},
                {"role": "user",
                "content": "Voici la liste des actualités à synthétiser :" + actu},
            ],
            max_tokens=100,
            temperature=0.9,
        )

        return reponse


    def openai_codex(self):
        reponse = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[
            {"role": "assistant",
            "content": f"Corrige le code envoyé"},
            {"role": "user",
            "content": "Voici le code à corriger :" + self},
        ],
        max_tokens=200,
        temperature=0.9,
    )

        return reponse

    def openai_image(self):
        response = openai.Image.create(
        prompt=self,
        n=1,
        size="1024x1024"
        )
        image_url = response['data'][0]['url']
        image_url
        return image_url

In [106]:
# use openai_translate to translate text
res = TEST.openai_translate("los sientos me llamos pablos escobar", "french")
print(res)

 Nous nous appelons Pablo Escobar.


In [67]:
resa = TEST.openai_text_summary("- Actualité : Economie La France encore championne d'Europe des dépenses de protection sociale en 2022 ")
print(resa)

En 2022, la France conserve sa place de championne d'Europe en termes de dépenses de protection sociale. Cependant, certaines conséquences sont à noter. En effet, Spotify, la plateforme d'écoute de musique en ligne, prévoit de ne plus faire de la France une priorité en raison de la taxe imposée sur ces plateformes. De plus, à la Banque de France, des experts tentent de


In [118]:
resu = TEST.openai_text_generator("economie")
print(resu['choices'][0]['message']["content"])

Dans les coulisses de la Banque de France, des experts prédisent l'économie, mais en 2024, les prix vont augmenter dans les transports, l'électricité, les assurances et le tabac. Dans le domaine social, la France est toujours en tête des dépenses en Europe. Pendant ce temps, la Bourse de Paris atteint des records, mais la guerre entre Israël et le Hamas asphyxie l'économie en


In [130]:
resul = TEST.openai_codex("int a = 5; int b = e; int c = a + b; print(c);")
print(resul["choices"][0]['message']["content"])

Voici le code corrigé :

```java
int a = 5; 
int b = 5; //La variable 'e' n'est pas définie. J'ai remplacé 'e' avec '5' pour que le code puisse s'exécuter sans erreurs.
int c = a + b; 
System.out.println(c); //Pour imprimer une variable en java, on utilise 'System.out.println()'
```


In [134]:
image_url = TEST.openai_image("guerre de troie")
Image(url=image_url)

___
# `Exercice`

### 1. Créez une classe **TextProcessor** qui possède les  méthodes suivantes :
- `openai_translate` : qui traduit le texte passé en entré
- `oepenai_text_sumary` : qui résume le texte passé en entrée
- `openai_text_generator` : qui génère du texte en fonction d’une thématique et d’un contenu.
- `openai_codex` : qui corrige le code passé en entré.
- `openai_image` : qui retourne une image en fonction du prompte passé en argument.


### 2. Concevez une page web qui reprend les différentes fonctionnalités créées précédemment sous forme de chatbot, les fonctionnalités s'activent en fonction des codes envoyés dans la conversation :

**Fonctionnalités standards** :
- `/translate + texte` : Traduit le text envoyé.
- `/summary + texte` : Résume le texte envoyé.
- `/imagine + prompt` : Génère une image à partir du primpt envoyé.
- `/code + text` : Retourne le code corrigé.

**Fonctionnalités Scraping** :
- `/actu + theme` : Fait un résumé de 5 actualités à partir du theme envoyé.
- `/json + url` : Retourne le contenu de l'url envoyé sous forme de json. (Utilisez le site [20minutes](https://www.20minutes.fr) pour faire vos tests).

Le chat doit garder l'historique de la conversation.


Vous pouvez également vous aider de la documentation : [Streamlit](https://docs.streamlit.io/knowledge-base/tutorials/build-conversational-apps)

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.20minutes.fr/search?q=IA#gsc.tab=0&gsc.q=IA&gsc.page=1").text
soup = BeautifulSoup(response, "html.parser")
text = soup.text.replace("\n", " ").replace("\t", " ").replace(' ', '')

text

"Recherche-20MinutesRetoursurlapaged'accueil20MinutesMenuRechercheOkActualitéActualitéSociétéMondeFaitsdiversEconomieSantéPolitiqueJusticeFakeOffAUDIENCE«\xa0T’asquoiàcacher\xa0?\xa0»Face-à-facetenduentreMoniqueOlivieretsonfil…états-unisHunterBidendéfielesrépublicainsetdéfendsonpèreRécapBidenrencontredesfamillesd’otagesaméricainsau68ejourduconflitRégionsRégionsParisMarseilleToulouseLilleNantesLyonBordeauxMontpellierArgumentsLesJOcontrairesàlaluttepourleclimat\xa0?AnneHidalgorépondprocèsEllecroisedansBordeauxl’hommequ’elleaccusedeviolFaitdiversUneballeperduefinitdansletéléviseurd’unlogementenEssonneSportSportFootballBiathlonTennisRugbyBasketHandballCyclismeFormule1FOOTBALLNicolasSarkozyditn’avoireu«\xa0aucunrôle\xa0»danslaprolongationdeMbapp…BIATHLONCommesuivrel'étapedelaCoupedumondedeBiathlonàLenzerheideATHLETISMEKevinMayerreporteàmarssatentativedequalificationolympiqueDivertissementDivertissementCultureT'asvu?PeopleWebTélévisionCinémaSérieLivresCapitalePourquoiBourgesest-elledésignéec

# **Fine-tuning**

Le fine-tuning permet d'entraîner un large modèle de langue tels que GPT3.5 sur des données spécifiques.


Le réglage fin améliore l'apprentissage en quelques étapes en s'entraînant sur beaucoup plus d'exemples que ne peut en contenir l'invite, vous permettant d'obtenir de meilleurs résultats sur un grand nombre de tâches. Une fois qu'un modèle a été affiné, vous n'aurez plus besoin de fournir autant d'exemples dans l'invite. Cela permet de réduire les coûts et de permettre des requêtes à faible latence.

Le réglage fin vous permet de tirer le meilleur parti des modèles disponibles via l'API en fournissant :

1. Des résultats de meilleure qualité que les invites
2. Capacité à s'entraîner sur plus d'exemples que ne peut en contenir une invite
3. Économies de jetons grâce à des invites plus courtes
4. Demandes de latence réduites


<img src='https://images.openai.com/blob/d8d965fd-e54c-4c9b-9d7d-b5d9910d38b2/gpt-3-5-turbo-fine-tuning-and-api-updates.png?trim=0,0,0,0&width=3200'>




**Les modèles supportés par le fine-tuning**

Un réglage fin est actuellement disponible pour les modèles suivants :

- `gpt-3.5-turbo-0613`(recommandé)
- `babbage-002`
- `davinci-002`


**Tarification**

Les coûts de réglage fin sont répartis en deux catégories : le coût de formation initial et le coût d'utilisation :

- Formation : 0,008 $ / 1 000 tokens

- Entrée d'utilisation : 0,012 $ / 1 000 tokens

- Sortie d'utilisation : 0,016 $ / 1 000 tokens

Par exemple, un gpt-3.5-turbotravail de mise au point avec un fichier de formation de 100 000 jetons formés pendant 3 époques aurait un coût attendu de 2,40 $.



**Cas d'utilisation courants**

Quelques cas d'utilisation courants dans lesquels un réglage fin peut améliorer les résultats :

- Définir le style, le ton, le format ou d'autres aspects qualitatifs
- Améliorer la fiabilité pour produire le résultat souhaité
- Correction des échecs de suivi d'invites complexes
- Gérer de nombreux cas extrêmes de manière spécifique
- Exécuter une nouvelle compétence ou une nouvelle tâche difficile à articuler dans une invite

Une manière générale d'envisager ces cas consiste à considérer qu'il est plus facile de « montrer, pas de dire ». Dans les sections à venir, nous explorerons comment configurer les données pour un réglage fin et divers exemples dans lesquels le réglage fin améliore les performances par rapport au modèle de base.

**Méthodologie**

Le réglage fin améliore l'apprentissage en quelques étapes en s'entraînant sur beaucoup plus d'exemples que ne peut en contenir l'invite, vous permettant d'obtenir de meilleurs résultats sur un grand nombre de tâches. Une fois qu'un modèle a été affiné, vous n'aurez plus besoin de fournir autant d'exemples dans l'invite. Cela permet de réduire les coûts et de permettre des requêtes à faible latence.

À un niveau élevé, le réglage fin implique les étapes suivantes :

1. Préparer et télécharger les données d'entraînement
2. Former un nouveau modèle affiné
3. Utilisez votre modèle affiné


### **1. Préparer et télécharger les données d'entraînement**

Le réglage fin nécessite un fichier de formation au format JSONL. Chaque ligne du fichier doit contenir un objet JSON avec les clés/valeurs suivantes :

- Pour les modèles `ChatCompletion` gt3.5-turbo-0613 :

```{
    "message":[
        {
            "role":"system",
            "content":"contenu du message"
        },
        {
            "role":"user",
            "content":"contenu du message"
        },
        {
            "role":"assistant",
            "content":"contenu du message"
        }
    ]
}
```

- Pour les modèles `TextGeneration` :
```
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
```

`**Attention**` : **Chaque message doit être placé sur une ligne dans le fichier JSONL. Les messages peuvent être de n'importe quelle longueur.**

**Au moins 10 messages sont nécessaires** pour entraîner un modèle. Pour obtenir de meilleurs résultats, nous recommandons d'utiliser au moins 100 messages. Pour les modèles de génération de texte, nous recommandons d'utiliser au moins 1000 messages.

Le réglage fin est disponible à partir de la version 0.28.0 de l'[API d'OpenAI](https://platform.openai.com/docs/guides/fine-tuning).

In [None]:
# Structure des données pour l'entrainement d'un modèle ChatCompletion
# Moèle concerné : gpt-3.5-turbo-0613 :

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is fine-tuning in machine learning?"}, {"role": "assistant", "content": "Fine-tuning in machine learning involves training a pre-existing model on a specific task or dataset to make it more accurate or suitable for that task. It's like giving the model specialized knowledge."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Why is fine-tuning important for AI models?"}, {"role": "assistant", "content": "Fine-tuning is crucial because it allows AI models to adapt to specific applications or domains, improving their performance and making them more useful in real-world scenarios."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Can you explain the steps involved in fine-tuning a language model?"}, {"role": "assistant", "content": "Certainly! Fine-tuning typically includes preparing training data, training the model on that data, and then using the fine-tuned model for your specific tasks. It's a process of specialization."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What models can be fine-tuned for language tasks?"}, {"role": "assistant", "content": "Currently, you can fine-tune models like gpt-3.5-turbo-0613, babbage-002, and davinci-002. These models can be adapted to various language-related tasks."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "When should I consider using fine-tuning for AI models?"}, {"role": "assistant", "content": "You should consider fine-tuning when you need to tailor a model for specific tasks or improve its performance on certain applications. It's a powerful tool for customization."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How can fine-tuning benefit natural language processing (NLP) tasks?"}, {"role": "assistant", "content": "Fine-tuning can make NLP models more accurate and contextually aware for tasks like text generation, translation, sentiment analysis, and more. It's all about making the model 'smarter' in a particular domain."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the role of training data in fine-tuning?"}, {"role": "assistant", "content": "Training data is essential for fine-tuning as it helps the model learn from examples. You need a diverse set of conversations or text that reflects the scenarios you want the model to handle."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How many training examples should I provide for fine-tuning?"}, {"role": "assistant", "content": "You should provide at least 10 training examples, but for optimal results, it's often recommended to have between 50 and 100 examples. The right number depends on your specific use case."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What are the token limits for fine-tuning examples?"}, {"role": "assistant", "content": "Each fine-tuning example is limited to 4096 tokens. Make sure the total token count in the messages' content is under 4,000 to fit within this limit."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How can I estimate the costs of fine-tuning?"}, {"role": "assistant", "content": "You can estimate the costs by using this formula: base cost per 1,000 tokens * number of tokens in the input file * number of training epochs. This will give you an idea of the expected cost for your fine-tuning job."}]}


# Structure des données pour l'entrainement d'un modèle Completion
# Moèle concerné : babbage-002 et davinci-002

{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}

### **2. Former un nouveau modèle affiné**

Une fois les instructions de formation préparées et placées dans un fichier `data.jsonl`, vous pouvez commencer à former votre modèle affiné en préparant les données d'entrainement puis en lançant la formation.

In [None]:
import os
import openai


# Préparation des données pour l'entrainement d'un modèle ChatCompletion
openai.api_key = 'YOUR_API_KEY'
response = openai.File.create(
  file=open("./data.jsonl", "rb"),
  purpose='fine-tune'
)
response

In [None]:
# Entrainement du modèle ChatCompletion sur les serveurs d'OpenAI
response_train_model = openai.FineTuningJob.create(
    training_file=response['id'],
    model="gpt-3.5-turbo",
    )

response_train_model

In [None]:
openai.FineTuningJob.list()

### **3. Utilisez votre modèle affiné**

Une fois que votre modèle est formé, vous pouvez l'utiliser pour générer des résultats en utilisant l'API comme vous le feriez avec n'importe quel autre modèle. Il est possible de visualiser la courbe d'apprentissage de votre modèle dans le tableau de bord de votre compte :
https://platform.openai.com/finetune

In [None]:
[model['id'] for model in openai.Model().list()["data"]]

In [None]:
# Utilisation du modèle fine-tuné
reponse = openai.ChatCompletion.create(
    model='ft:gpt-3.5-turbo-0613:dawan::81DNLWeI',
    messages=[
        {"role": "system","content": "Marv is a factual chatbot that is also sarcastic."},
        {"role": "user",
         "content":"What is fine-tuning in machine learning?"},
    ],
)

reponse['choices'][0]['message']["content"]

___

# Exercice

1. A L'aide de ChatGPT, créez un fichier de données d'entrainement au format JSONL contenant au moins 10 messages puis placez le dans un fichier `data.jsonl` Entrainez ensuite un modèle de chatbot sur un domaine de votre choix.
**Astuce** : Copiez le contenu de votre choix (exemple : une page internet) puis demandez à GhatGPT de générer le fichier de données d'entrainement au format JSONL.

2. Créez une méthode `openai_chat_finetune()` qui prend en paramètre le nom du fichier de données d'entrainement et retourne le nom du modèle entrainé.

### **Exemple de prompt à envoyer à ChatGPT**

```

A partir du document suivant crée-moi un fichier jsonl contentant des exemples d'échange entre un chatbot et un utilisateur qui sera utilisé pour le fine-tuning d'un model gpt3 pour répondre aux questions de développeurs qui souhaite comprendre comment fonctionne le finetuning. Le jsonl aura la forme suivante :

{"messages": [{"role": "system", "content": "definir le rol system"}, {"role": "user", "content": "question type posé par un utilisateur"}, {"role": "assistant", "content": "Réponse de l'assistant"}]}


Le modèle du fichier json doit avoir cette forme :
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}


Propose moi à nouveau 20 exemples d'intéraction entre un assistant et un utilisateur au sujet du finetuning en respectant le modèle donné.

Voici la documentation à partir de laquelle tu dois créer les exemples : à compléter

```

