L’ACP (Analyse en Composantes Principales), appliquée à p variables quantitatives, a pour but de résumer les liens entre les variables par l'analyse des covariances ou des corrélations, et dresser une « carte » des individus indiquant leur position par rapport à ces liens.

Dans ce notebook, nous allons utiliser l’ACP à des fins exploratoires à l’aide du package Scikit
Learn : https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

Prenez bien le temps de vous approprier le cours fourni dans les ressources : "c-acp-afc-IUTSTID-sept2009.pdf"

In [1]:
import pandas as pd
from os import listdir
from matplotlib import rcParams
rcParams['figure.figsize'] = 10, 10

# Récupération des données nationales

(Source des données : https://opendata.reseaux-energies.fr/pages/accueil/)

Dans un premier temps, nous récupérons à nouveau nos données au niveau national

In [2]:
def create_datetime_index(df):
    df['DateTime'] = pd.to_datetime(df['Date'].map(str) + ' ' + df['Heures'].map(str))
    df.drop(['Date', 'Heures'], axis=1, inplace=True)
    df.set_index('DateTime', inplace=True)
    return 

def read_rte_file(file_name):
    df = pd.read_csv(file_name, encoding='ISO-8859-1', sep='\t', index_col=None, header=None, skiprows=1, na_values='ND')
    df.drop(df.columns[-1], axis=1, inplace=True)
    df_titles = pd.read_csv(file_name, encoding='ISO-8859-1', sep='\t', index_col=None, nrows=0)
    df.columns = df_titles.columns
    return df

In [3]:
DATA_FILE = 'data/data_rte/'

files = [f for f in listdir(DATA_FILE) if f.startswith('eCO2mix_RTE_Annuel-Definitif')]

df_all = []

for f in files:
    df = read_rte_file(DATA_FILE+f)
    df_all.append(df)
df_all = pd.concat(df_all)
df_all = df_all[(~df_all['Date'].isna())&(~df_all['Heures'].isna())]
create_datetime_index(df_all)

# Préparation des données

Nous devons réaliser quelques étapes avant de pouvoir utiliser les données dans notre ACP :
- Supprimer les NA
- Sélectionner une année seulement (afin d'alléger notre ACP dans un premier temps)
- Ajouter des variables mois / saison afin de pouvoir visualiser de potentielles différences à ce niveau là
- Sélectionner les variables qui nous semblent les plus pertinentes (toujours dans le but d'alléger)
=> remarque : ce n'est pas parce qu'on garde plus de variable que notre analyse sera meilleure
- Standardisation des données afin de pouvoir réaliser l'ACP en comparant des choses comparables

Cette démarche vous est transmise à titre indicatif, à vous de voir si vous voulez pimenter les choses !

#### Suppression des NA

#### Sélection de l'année 2018 uniquement

#### Ajout des mois

#### Ajout des saisons

#### Conservation des énergies les plus présentes

#### Standardisation

# ACP / PCA

## Exploration de l'ACP

Exploration de la PCA avec Scikit Learn : 
https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

In [15]:
from sklearn.decomposition import PCA

In [16]:
# n_c = x_stdsc.shape[1] # nb de composantes gardées
n_c = 8 # nb de composantes gardées

### Exploration des différentes sorties de l'ACP

## Réalisation d'une ACP complète avec les graphiques (trimestres)

### Réalisation de l'ACP

### Eboulis des valeurs propres

### Cercle de corrélation des variables et nuage des individus

Ici on pourra jouer avec les différents axes choisi en paramètre : 1 vs 2 ; 1 vs 3 ; 2 vs 3

## Réalisation d'une ACP complète avec les graphiques (mois)