<a href="https://colab.research.google.com/github/RMoulla/TP2/blob/main/TP_ACP_M%C3%A9t%C3%A9o_Julien.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Travaux Pratiques : Analyse en Composantes Principales sur des données météo

Dans ce TP, nous allons voir une application pratique de l'Analyse en Composantes Principales (ACP) sur des données météo. L'ACP est essentiellement utilisée pour la réduction de la dimension d'un problème, en projetant sur une espace plus petit, tout en conservant un mximum d'information. Elle est souvent utilisée à des fins de visualisation de données grande dimension, projetées sur un espace de dimension 2.

Le processus d'application de l'ACP se décline selon les étapes suivantes :

* Standardisation : Les données sont standardisées pour avoir une moyenne de zéro et une variance de un. Cela est crucial pour garantir que toutes les variables contribuent également à l'analyse, indépendamment de leur échelle.

* Matrice de Covariance : On calcule la matrice de covariance des données pour identifier les corrélations entre les variables.

* Valeurs Propres et Vecteurs Propres : On détermine les valeurs propres et les vecteurs propres de la matrice de covariance. Les valeurs propres indiquent l'ampleur de la variance capturée par chaque composante principale, tandis que les vecteurs propres indiquent la direction de ces composantes dans l'espace des données.

* Choix des Composantes : On sélectionne le nombre de composantes principales à conserver. Dans ce tutoriel, nous nous concentrerons sur deux composantes principales pour faciliter la visualisation et l'interprétation.

* Transformation des Données : Les données originales sont transformées dans le nouvel espace de dimensions réduites en utilisant les vecteurs propres sélectionnés. Cela crée un ensemble de données de dimensions inférieures qui capture la majorité de la variance des données originales.



In [None]:
import pandas as pd
data = pd.read_csv('meteo.csv')

# Suppression des colonnes spécifiées
columns_to_drop = ['Unnamed: 0', 'Hour', 'Minute', 'Day', 'Year', 'Month']
data_dropped = data.drop(columns=columns_to_drop)

# Isolation de la variable 'pluie.demain' et suppression de celle-ci du dataset principal
target_variable = data_dropped['pluie.demain']
data_dropped = data_dropped.drop(['pluie.demain'], axis=1)

# Affichage des premières lignes du dataset modifié
data_dropped.head()

Unnamed: 0,Temperature.daily.mean..2.m.above.gnd.,Relative.Humidity.daily.mean..2.m.above.gnd.,Mean.Sea.Level.Pressure.daily.mean..MSL.,Total.Precipitation.daily.sum..sfc.,Snowfall.amount.raw.daily.sum..sfc.,Total.Cloud.Cover.daily.mean..sfc.,High.Cloud.Cover.daily.mean..high.cld.lay.,Medium.Cloud.Cover.daily.mean..mid.cld.lay.,Low.Cloud.Cover.daily.mean..low.cld.lay.,Sunshine.Duration.daily.sum..sfc.,...,Low.Cloud.Cover.daily.max..low.cld.lay.,Low.Cloud.Cover.daily.min..low.cld.lay.,Wind.Speed.daily.max..10.m.above.gnd.,Wind.Speed.daily.min..10.m.above.gnd.,Wind.Speed.daily.max..80.m.above.gnd.,Wind.Speed.daily.min..80.m.above.gnd.,Wind.Speed.daily.max..900.mb.,Wind.Speed.daily.min..900.mb.,Wind.Gust.daily.max..sfc.,Wind.Gust.daily.min..sfc.
0,13.45,77.88,1015.76,0.1,0.0,65.04,33.12,36.88,45.08,350.81,...,100,0,14.06,2.41,21.61,1.44,28.77,4.39,23.4,3.24
1,14.27,83.58,1016.39,0.0,0.0,80.95,31.62,10.83,80.54,68.66,...,100,0,15.26,2.74,20.47,3.71,40.76,2.1,24.12,3.24
2,19.88,66.58,1018.18,0.0,0.0,0.0,0.0,0.0,0.0,891.68,...,0,0,8.71,0.51,18.67,0.72,21.97,0.51,15.84,0.72
3,19.31,72.0,1013.6,0.4,0.0,49.69,24.12,24.33,49.25,666.7,...,100,0,16.62,0.51,20.88,0.72,41.41,3.6,32.76,0.72
4,22.06,74.29,1005.01,2.0,0.0,58.77,48.42,54.67,22.17,400.71,...,100,0,21.65,3.22,27.57,2.16,25.92,4.02,27.72,3.24


Nous allons d'abord standardiser les données en utilisant `StandardScaler` de `scikit-learn`. La standardisation est une étape cruciale pour l'ACP. Elle garantit que toutes les variables sont à la même échelle, une condition préalable à la bonne application de l'ACP car celle-ci est sensible aux échelles des variables. Sans standardisation, les variables avec de grandes valeurs domineraaient celles avec de petites valeurs.

Après standardisation, chaque variable aura une moyenne de 0 et un écart-type de 1.

In [None]:
from sklearn.preprocessing import StandardScaler
# Standardiser les données


L'ACP est ensuite appliquée aux données standardisées. Dans un premier temps, nous allons considérer l'ensemble des composantes dans le nouvel espace.

In [None]:
from sklearn.decomposition import PCA
# Appliquer une ACP aux données standardisées
# Sauvegarder les composantes dans un dataframe


Les valeurs propres sont calculées est normalisées. Elles sont ensuite affichées sous forme de "scree plot" pour visualiser la contribution de chaque composante dans la variance expliquée.

In [None]:
import matplotlib.pyplot as plt
# Extraire les valeurs propres calculées
# Normaliser les valeurs propres
# Visualiser les valeurs propres normalisées sous forme de scree plot*


Les observation peuvent être projetées sur le plan défini par les deux premières composantes principales.

In [None]:
import seaborn as sns
# Ajouter la variable "pluie.demain" au dataframe contenant les composantes
# Visualiser les observations sur le plan défini par les deux premières composantes principales
# en les distinguant selon les deux modalités de "pluie.demain".


Les variables originelles peuvent également être visualisées en fonction des deux premières composantes principales.

In [None]:
# Tracer les variables originelles sur le plan défini par les deux premières composantes principales
