# Etude de l'impact environnemental de l'IA générative 

## Objectifs 

Dans ce projet on souhaite étudier la dépense en énergie et le cout carbone associé des différents modèles utilisés pour générer du texte, qu'on appelle des Large Language Models (LLM). Les objectifs du projet sont :

- comprendre comment fonctionnent les IA générative de ChatGPT ;
- comparer les différents modèles et les coûts associés ;
- quantifier les impacts de l'IA générative sur l'environnement.

## Sources

Les données proviennent du projet Ecologits qui s'intéresse à l'impact environnemental de l'IA. Toute la méthodologie est détaillée sur leur site : https://ecologits.ai/latest/

Quelques points importants sur la base de données : 

- pour un type de modèle, on a l'énergie moyenne consommée en Wattheure (Wh) pour générer 1 Token, puis un Tweet, un email, un résumé d'article, une petite conversation et un rapport de 5 pages ;
- cette énergie peut ensuite être convertie en coût environnemental selon le pays, car la production d'énergie est très dépendante de la source de production (nucléaire, éolienne etc). Le tableau electricity_mix.csv contient la conversion par pays d'1Wh en gramme de CO2 émis (pwh), en énergie primaire (pe) et en ressources abiotiques (minéraux et métaux, adpe);
- pour chaque modèle, on différencie le nombre de paramètres total du modèle du nombre de paramètres actifs. Par exemple si un modèle peut générer du texte, des images et du son, quand on génère seulement du texte, il y aura une partie des paramètres qui seront réellement utilisés, et ce sont ceux qu'on appelle les paramètres actifs. Dans le tableau de données, le nombre de paramètres est en milliards.



## Première partie : Comparaison des différents modèles.

Dans cette partie on étudiera la dépense énergétique d'une petite conversation avec différents modèles. 
On mettra en avant les différences entre les LLM (nombre total de paramètres, nombre de paramètres actifs,... ) et la différence de dépense énergétique associée. 

Commençons par charger la base de données. Quelques pistes pour commencer l'étude : 
- comparer l'énergie dépensée en fonction du type de texte ;
- afficher les dépenses d'énergie en fonction de chaque modèle pour un même type de texte ;
- étudier le lien entre nombre de paramètres et l'énergie dépensée.

In [26]:
import numpy as np
import pandas as pd
cons_ia = pd.read_csv('gen_AI_energy.csv', sep=',')
cons_ia.head()

Unnamed: 0,Provider,Model,Active parameters,Total parameters,Token,Tweet,Email,Resume,Petite_conv,Cinq_pages
0,OpenAI,gpt 4o,137,440,0.0875,4.375,14.875,21.875,35.0,437.5
1,OpenAI,Gpt 3.5,45,45,0.00895,0.4475,1.5215,2.2375,3.58,44.75
2,OpenAI,gpt 4,550,1760,1.1175,55.875,189.975,279.375,447.0,5587.5
3,OpenAI,gpt 4 turbo,275,880,0.2875,14.375,48.875,71.875,115.0,1437.5
4,OpenAI,gpt 4o mini,18,18,0.005175,0.25875,0.87975,1.29375,2.07,25.875


## Etude du coût carbone et comparaison entre les pays

On importe maintenant une nouvelle base de données : \t|electricity_mixes.csv|. Dans cette base de données, on a notamment le coût carbone  d'1Wh en fonction du pays. 

Objectifs de la section : 
    
    - Faire une fonction qui prend en entrée le nom du modèle, le pays et le type de conversation, puis qui renvoie le coût en carbone ;
    
    - Etudier le cout carbone d'une petite conversation en fonction du pays et le représenter sur une carte du monde.

In [21]:
cout_pays = pd.read_csv('electricity_mixes.csv', sep=',')
cout_pays.head()

Unnamed: 0,name,adpe,pe,gwp
0,WOR,7.37708e-08,9.988,0.590478
1,EEE,6.42317e-08,12.873,0.509427
2,ZWE,1.09502e-07,7.75488,0.823938
3,ZMB,1.62193e-07,0.089918,0.014026
4,ZAF,8.62445e-08,11.357,1.14915
