# Hello DBMS+ : De SQL aux Empreintes Carbone
Ce notebook présente un parcours complet d'analyse de données, alliant **requêtes SQL**, **exploration de tables multiples**, et **calcul de l’empreinte carbone**.  
L'objectif est de démontrer comment exploiter différentes sources de données pour générer des **insights pertinents**, à la fois pour la compréhension des données mondiales et pour l'évaluation environnementale.

Le notebook est structuré en deux grandes parties :  
1. **Jobs SQL 1 à 9** : exploration, filtrage, agrégation et jointures sur plusieurs tables (`world`, `students`, `nobel`, `SomeCompany`, etc.), permettant de comprendre et manipuler les données de manière progressive et pédagogique.  
2. **Big Job : Empreinte Carbone** : analyse des données de consommation énergétique par pays et région, calcul des émissions de CO2, visualisations et estimation du nombre d’arbres nécessaires pour compenser ces émissions.

In [2]:
# Imports

# Manipulation et analyse de données
import pandas as pd
import numpy as np

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns

# Pour afficher les graphiques directement dans le notebook
%matplotlib inline

# SQL magic pour exécuter des requêtes directement dans les cellules
%load_ext sql


# formatage des DataFrames pour la lisibilité
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

## Exploration et Analyse de Données avec SQL

In [3]:
# connecteur Postgresql
%sql postgresql://postgres:5219--ZmId*@localhost:65432/postgres
# %sql postgresql://postgres:****--****@localhost:*****/postgres

## Big Job

### Nettoyage du fichier csv 

#### Notes : 

1. **CSV et format**  
   - Encodage spécifique : `WIN1252`  
   - Délimiteur : `;`  
   - Ligne 143 complètement vide → problème d’import dans PostgreSQL  

2. **Séparation du dataset en deux tables**  
   - **Table `country`** → toutes les lignes avant `"World"` (noms de pays)  
   - **Table `world`** → ligne `"World"` + toutes les lignes régionales  

3. **Minuscule pour les noms**  
   - Tous les noms de pays sont stockés en minuscules (`LOWER(country)`) pour faciliter les futures requêtes  

4. **Colonnes des tables**  
   - `country` : colonnes → `country, coal, gas, oil, hydro, renewable, nuclear`  
   - `world` : colonnes → `region, coal, gas, oil, hydro, renewable, nuclear`


In [4]:
# import des données du CSV dans un dataframe pandas
csv_path= r"C:\Users\Paul-Emmanuel Buffe\Desktop\la_plateforme\travaux_la_plateforme\hello-dbms\data\carbon-footprint-data.csv"
df =pd.read_csv(csv_path,delimiter=';', encoding= 'windows-1252') # Encodage spécifique

# Suppression des lignes vides
df.dropna(how='all', inplace=True) # on ne supprime que les lignes qui sont complètement vides

In [5]:
print(df.head(3))

   Country  Coal   Gas   Oil  Hydro  Renewable  Nuclear
0  Albania  0.00  0.00  0.00 100.00       0.00     0.00
1  Algeria  0.00 97.80  1.80   0.40       0.00     0.00
2   Angola  0.00  0.00 46.80  53.20       0.00     0.00


### Création des tables
**Table "original_raw"**

In [6]:
# %%sql
# CREATE TABLE IF NOT EXISTS original_raw
#     country VARCHAR(100),
#     coal NUMERIC NULL,
#     gas NUMERIC NULL,
#     oil NUMERIC NULL,
#     hydro NUMERIC NULL,
#     renewable NUMERIC NULL,
#     nuclear NUMERIC NULL
# );

In [7]:
# insertion des données depuis le df
# for i, row in df.iterrows():
#     sql= f"""
#             INSERT INTO original_raw (country, coal, gas, oil, hydro, renewable, nuclear)
#             VALUES ('{row['Country']}', '{row['Coal']}', '{row['Gas']}', '{row['Oil']}', '{row['Hydro']}', '{row['Renewable']}', '{row['Nuclear']}')
#           """
#     %sql {sql}

**Table "country"**

In [8]:
# %%sql
# CREATE TABLE IF NOT EXISTS country(
#     country VARCHAR(100),
#     coal NUMERIC NULL,
#     gas NUMERIC NULL,
#     oil NUMERIC NULL,
#     hydro NUMERIC NULL,
#     renewable NUMERIC NULL,
#     nuclear NUMERIC NULL
# );

In [9]:
# %%sql
# INSERT INTO country(country, coal, gas, oil, hydro, renewable, nuclear)
# SELECT 
#     LOWER(country), 
#     coal, 
#     gas, 
#     oil, 
#     hydro, 
#     renewable, 
#     nuclear
# FROM original_raw
# WHERE country NOT IN ('World', 'East Asia & Pacific', 'Europe & Central',
#                       'Latin America & Caribbean', 'Middle East & North Afrika',
#                       'North America', 'South Asia', 'Sub­Saharan Africa');

**Table "world"**

In [10]:
# %%sql
# CREATE TABLE IF NOT EXISTS world(
#     region VARCHAR(100),
#     coal NUMERIC NULL,
#     gas NUMERIC NULL,
#     oil NUMERIC NULL,
#     hydro NUMERIC NULL,
#     renewable NUMERIC NULL,
#     nuclear NUMERIC NULL
# );

In [11]:
# %%sql
# INSERT INTO world(region, coal, gas, oil, hydro, renewable, nuclear)
# SELECT LOWER(country), 
#         coal, 
#         gas, 
#         oil, 
#         hydro, 
#         renewable, 
#         nuclear
# FROM original_raw
# WHERE country IN ('World', 'East Asia & Pacific', 'Europe & Central',
#                       'Latin America & Caribbean', 'Middle East & North Afrika',
#                       'North America', 'South Asia', 'Sub­Saharan Africa');

**Vérification des tables crées**

In [12]:
%sql SELECT * FROM country LIMIT 3;

 * postgresql://postgres:***@localhost:65432/postgres
3 rows affected.


country,coal,gas,oil,hydro,renewable,nuclear
albania,0.0,0.0,0.0,100.0,0.0,0.0
algeria,0.0,97.8,1.8,0.4,0.0,0.0
angola,0.0,0.0,46.8,53.2,0.0,0.0


In [13]:
%sql SELECT * FROM world LIMIT 3;

 * postgresql://postgres:***@localhost:65432/postgres
3 rows affected.


region,coal,gas,oil,hydro,renewable,nuclear
world,40.7,21.6,4.1,16.2,6.0,10.6
east asia & pacific,60.6,13.5,2.2,15.0,4.2,3.8
europe & central,24.1,24.3,1.3,16.6,10.5,22.4


### Préparation et analyse des sources d’énergie des pays pour l’étude des émissions de CO2

**Analyse des données au niveau mondial**

In [14]:
%%sql
WITH filtered AS (
  SELECT *
  FROM world
  WHERE region = 'world'
)
SELECT 'coal' AS source, coal AS value FROM filtered
UNION ALL
SELECT 'gas' AS source, gas AS value FROM filtered
UNION ALL
SELECT 'oil' AS source, oil AS value FROM filtered
UNION ALL
SELECT 'hydro' AS source, hydro AS value FROM filtered
UNION ALL
SELECT 'renewable' AS source, renewable AS value FROM filtered
UNION ALL
SELECT 'nuclear' AS source, nuclear AS value FROM filtered;




 * postgresql://postgres:***@localhost:65432/postgres
6 rows affected.


source,value
coal,40.7
gas,21.6
oil,4.1
hydro,16.2
renewable,6.0
nuclear,10.6


**Analyse des différents mix energétique des grands ensembles régionaux : Energies Fossiles VS Autres Energies**

In [26]:
%%sql
SELECT
    region,
    CEIL(gas + oil + coal) AS fossil_energie,
    ROUND(hydro + renewable + nuclear) AS others
FROM world WHERE region = 'world'
UNION ALL
SELECT*
FROM (SELECT 
region,
    (gas + oil + coal) AS fossil_energie,
    ROUND(hydro + renewable + nuclear) AS others
FROM world
ORDER BY 2 DESC LIMIT 1)
UNION ALL
SELECT*
FROM (SELECT 
region,
    (gas + oil + coal) AS fossil_energie,
    ROUND(hydro + renewable + nuclear) AS others
FROM world
ORDER BY 2 ASC LIMIT 1)

 * postgresql://postgres:***@localhost:65432/postgres
3 rows affected.


region,fossil_energie,others
world,67.0,33
middle east & north afrika,96.3,3
latin america & caribbean,43.1,55
