#  TP : Data Centers, Green IT et Data Science
### Master 2 – Data / IA

---

## Objectifs du TP
- Manipuler un **dataset réel** lié aux infrastructures numériques.
- Explorer les **enjeux énergétiques et environnementaux** des data centers.
- Développer des compétences en **nettoyage, analyse et visualisation de données**.
- Relier l’analyse statistique aux **cadres réglementaires (UE, USA, Singapour, Australie)**.
- Appliquer des techniques de **Data Science (corrélations, modèles de régression)**.
- Mettre en œuvre un pipeline simple de **CI/CD** pour automatiser l’analyse.


##  Données
Fichier fourni : `Book1.csv` (extrait d’une base mondiale de data centers).

Variables principales :
- `Country` : pays
- `Continent` : continent
- `Number of data centres` : nombre total recensé
- `Gross Power (MW)` : puissance électrique installée
- `Renewable Energy Usage (%)` : part estimée d’énergie renouvelable
- Autres colonnes liées aux surfaces, capacités, données disponibles…


## Partie 1 — Préparation & Nettoyage des données
**Travail attendu :**
1. Charger le dataset avec `pandas`.
2. Vérifier le nombre de lignes/colonnes et explorer les 5 premières lignes.
3. Identifier et traiter les valeurs manquantes (par suppression ou imputation).
4. Supprimer les colonnes inutiles pour l’analyse.
5. Construire un **mini dictionnaire de données** avec 3 colonnes clés.

 **Question :** pourquoi un dictionnaire de données est-il indispensable dans un projet de gouvernance des données ?

In [None]:
# Votre code ici


## Partie 2 — Exploration et Visualisation
**Travail attendu :**
1. Identifier les **10 pays** avec le plus grand nombre de data centers.
   - Afficher sous forme de tableau.
   - Tracer un graphique en barres.
2. Représenter la distribution de la **puissance installée (MW)**.
3. Tracer un **scatter plot** entre `Gross Power (MW)` et `% renouvelable`.

 **Question :** commentez la relation observée. Est-ce que la puissance d’un data center permet de prédire sa durabilité ?

In [None]:
# Votre code ici


## Partie 3 — Comparaison intercontinentale
**Travail attendu :**
1. Agréger par **continent** le `% d’énergie renouvelable`.
2. Comparer les continents dans un **bar chart**.
3. Focus sur l’Europe vs Amérique du Nord :
   - Calculer la moyenne et l’écart-type du `% renouvelable`.
   - Discuter les différences en lien avec les lois (EED en Europe vs ENERGY STAR aux USA).

 **Question :** que montrent ces écarts sur l’efficacité des lois européennes par rapport aux approches volontaires américaines ?

In [None]:
# Votre code ici


## Partie 4 — Data Science
**Travail attendu :**
1. Calculer les **corrélations** entre variables (`Gross Power`, `% renouvelable`, `Number of data centres`).
2. Construire un **modèle de régression linéaire** simple :
   - `Y = % renouvelable`
   - `X = puissance installée (MW)`
3. Évaluer le modèle avec **R²** et **RMSE**.
4. Tester un **modèle multiple** (ajouter `Number of data centres`).

 **Question :** expliquez pourquoi un R² faible est **aussi une information précieuse** en gouvernance énergétique.

In [None]:
# Votre code ici


## Partie 5 — CI/CD
**Travail attendu :**
1. Créer un fichier `requirements.txt` listant vos dépendances (pandas, matplotlib, scikit-learn, pytest…).
2. Écrire un petit fichier de test `test_sample.py` avec au moins 2 assertions.
3. Créer un workflow GitHub Actions `.github/workflows/python-ci.yml` qui :
   - installe les dépendances,
   - exécute `pytest`,
   - lance le notebook pour vérifier qu’il s’exécute sans erreur.

 **Question :** en quoi l’automatisation CI/CD est-elle une bonne pratique de **Green IT** ?

In [None]:
# Votre code ici


##  Livrables attendus
- Un notebook `TP_Etudiant.ipynb` complété.
- Un mini dictionnaire de données en Markdown.
- Des visualisations (bar chart, scatter plot, comparatif continental).
- Une courte discussion (Europe vs USA).
- `requirements.txt`, `test_sample.py`, et le workflow CI/CD.