# Exploration des donnés avant de modéliser nos données

#### Nous allons plusieurs questions et points à explorer avant de définitivement lancer un modèle cible. Réflexions :


1. Nous prénons le CO2 comme référence cible. Il y a des données entre 2014 et 2019, même s'ils éxistent de trous toute au longue de cette période.

2. Pour voir où l'interpolation a de sense, nous allons explorer la taille des trous (valeur manquantes) des variales. Quand ils sont trop grandes, ça n'a pas de sense. Par contre si nous retrouvons des manques d'une ou deux heures on pourrait les intepoler. 

3. Les températures externes "ext" éxistent entre 2014 et 2017. Nous pourrons tester notre future modèle sans elle entre 2014 et 2019 et avec elles entre 2014 et 2017.

4. Nous pouvons écarter ext_so2 et ext_co parce qu'il n'y a pas assez de données. 

5. Nous pouvons envisager de prédire des pics également.

6. Etant notre cible le CO2 (qui devrait être lié au nombre des personnes, nous porrons envisager également de predire NO2 ou NO.

## Libraries à importer

In [3]:
library("tidyverse")

"package 'tidyverse' was built under R version 3.6.3"-- Attaching packages ------------------------------------------------------------------------------- tidyverse 1.3.0 --
v ggplot2 3.3.2     v purrr   0.3.4
v tibble  3.0.4     v dplyr   1.0.2
v tidyr   1.1.2     v stringr 1.4.0
v readr   1.4.0     v forcats 0.5.0
"package 'forcats' was built under R version 3.6.3"-- Conflicts ---------------------------------------------------------------------------------- tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()


## Variables globales

In [4]:
DATA_PATH="C://Formation IA//CEPE//Projet//QAIR//Data//Prepared//"
DATA_FILE_IN="DataCorrelated.csv"
DATA_FILE_OUT="data_model.csv"

## Lecture des données

D'abord, nous allons récupérer les données prépares suite au travail d'exploration et préparation des données.

In [5]:
fichier_donnees=paste(DATA_PATH,DATA_FILE_IN,sep="")
df<-read.csv(fichier_donnees)

bien lu?

In [6]:
df

X,Index,Date_Heure_Locale,Heure_Local,Timestamp,Annee,Mois,Heure,Semaine_de_lannee,Jour_de_la_Semaine,...,no,no2,humidite,particules_fines,ext_pm25,ext_pm10,ext_o3,ext_no2,ext_so2,ext_co
1,1,2013-01-01 01:00:00,1,2013-01-01 00:00:00,2013,1,0,1,2,...,,,,,,,,,,
2,2,2013-01-01 02:00:00,2,2013-01-01 01:00:00,2013,1,1,1,2,...,23,41,65.6,26,,,,,,
3,3,2013-01-01 03:00:00,3,2013-01-01 02:00:00,2013,1,2,1,2,...,43,61,65.0,18,,,,,,
4,4,2013-01-01 04:00:00,4,2013-01-01 03:00:00,2013,1,3,1,2,...,22,52,63.3,45,,,,,,
5,5,2013-01-01 05:00:00,5,2013-01-01 04:00:00,2013,1,4,1,2,...,27,56,63.7,22,,,,,,
6,6,2013-01-01 06:00:00,6,2013-01-01 05:00:00,2013,1,5,1,2,...,27,57,63.3,15,,,,,,
7,7,2013-01-01 07:00:00,7,2013-01-01 06:00:00,2013,1,6,1,2,...,20,50,63.2,17,,,,,,
8,8,2013-01-01 08:00:00,8,2013-01-01 07:00:00,2013,1,7,1,2,...,24,51,63.7,17,,,,,,
9,9,2013-01-01 09:00:00,9,2013-01-01 08:00:00,2013,1,8,1,2,...,10,37,64.1,20,,,,,,
10,10,2013-01-01 10:00:00,10,2013-01-01 09:00:00,2013,1,9,1,2,...,11,40,64.0,13,,,,,,


## Exploration des données

### Première exploration

A première vue

In [7]:
head(df)

X,Index,Date_Heure_Locale,Heure_Local,Timestamp,Annee,Mois,Heure,Semaine_de_lannee,Jour_de_la_Semaine,...,no,no2,humidite,particules_fines,ext_pm25,ext_pm10,ext_o3,ext_no2,ext_so2,ext_co
1,1,2013-01-01 01:00:00,1,2013-01-01 00:00:00,2013,1,0,1,2,...,,,,,,,,,,
2,2,2013-01-01 02:00:00,2,2013-01-01 01:00:00,2013,1,1,1,2,...,23.0,41.0,65.6,26.0,,,,,,
3,3,2013-01-01 03:00:00,3,2013-01-01 02:00:00,2013,1,2,1,2,...,43.0,61.0,65.0,18.0,,,,,,
4,4,2013-01-01 04:00:00,4,2013-01-01 03:00:00,2013,1,3,1,2,...,22.0,52.0,63.3,45.0,,,,,,
5,5,2013-01-01 05:00:00,5,2013-01-01 04:00:00,2013,1,4,1,2,...,27.0,56.0,63.7,22.0,,,,,,
6,6,2013-01-01 06:00:00,6,2013-01-01 05:00:00,2013,1,5,1,2,...,27.0,57.0,63.3,15.0,,,,,,


##### Nombre de registres

In [8]:
nrow(df)

##### Résumée des variables

In [9]:
summary(df)

       X             Index                 Date_Heure_Locale  Heure_Local   
 Min.   :    1   Min.   :    1   2013-10-27 02:00:00:    2   Min.   : 0.00  
 1st Qu.:17539   1st Qu.:17539   2014-10-26 02:00:00:    2   1st Qu.: 5.75  
 Median :35077   Median :35077   2015-10-25 02:00:00:    2   Median :11.50  
 Mean   :35077   Mean   :35077   2016-10-30 02:00:00:    2   Mean   :11.50  
 3rd Qu.:52614   3rd Qu.:52614   2017-10-29 02:00:00:    2   3rd Qu.:17.25  
 Max.   :70152   Max.   :70152   2018-10-28 02:00:00:    2   Max.   :23.00  
                                 (Other)            :70140                  
               Timestamp         Annee           Mois            Heure      
 2013-01-01 00:00:00:    1   Min.   :2013   Min.   : 1.000   Min.   : 0.00  
 2013-01-01 01:00:00:    1   1st Qu.:2015   1st Qu.: 4.000   1st Qu.: 5.75  
 2013-01-01 02:00:00:    1   Median :2017   Median : 7.000   Median :11.50  
 2013-01-01 03:00:00:    1   Mean   :2017   Mean   : 6.521   Mean   :11.50  

## Conclusions

##### 1. Les congés scolaires ont comme des valeurs différentes les différents types de congés par zone. 
Par exemple, il  y a plusiers types de congés d'hiver : 'Vacances d\'hiver - Zone A', '["Vacances d\'hiver - Zone A","Vacances d\'hiver - Zone B"]','Vacances d\'hiver - Zone B' ... etc au lieu d'un seule type. Nous pouvons le réduire à un seul type parce que surtout nous avons à côté la région à laquelle sa corresponde dans la colonnes "Conge_zones".

##### 2. Les conges scolaires et le temps present ont des nommes trop longues et compliqués à gerer

##### 3. Le champ conges_raison en réalité corresponde à ferie_raison, nous changons le nom

##### 4. Nous n'avons pas besoin que des congés parisiens. 

## Actions

##### 1. Changement des factors : Conges scolaire raison

In [10]:
levels(df$Conge_scolaire_raison) <- c("ete","hiver","hiver","hiver","hiver","hiver","hiver","hiver","Toussaint","Noel","printemps","printemps","printemps","printemps","printemps","printemps","printemps","")

##### 2. Changement des factors : temps present

In [11]:
levels(df$temps_present)<-c('Clairs','Clairs','Averse','Neige','Averse','Averse','Averse','Averse','Averse','Averse','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Brouillard','Bruine','Bruine','Bruine','Bruine','Bruine','Bruine','Bruine','Bruine','Brume','Brume','Neige','Neige','Neige','Nuages','Brouillard','Neige','Neige','Nuages','Nuages','Orage','Orage','Orage','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie','Pluie')

##### 3. Changer le nom de la colonne conges_raison

In [12]:
names(df)[11]<-"Ferie"
names(df)[12]<-"Ferie_raison"

##### 4. Etant nos stations à Paris, nous prennons que la zone C comme référence

In [13]:
#Supprimer congés qui n'appartient pas à la zone parisiènne
df[df["Conges_Escolaire_Zone_C"]==0,]["Conge_scolaire_raison"]<-"[]"

#Les conges escolaires doivent corresponder aux congés de la zone C
df["Conges_Escolaire"]<-df["Conges_Escolaire_Zone_C"]==1

#Nous supprimons les colonnes dont nous n'avons plus besoin
df$Conge_zones<-NULL
df$Conges_Escolaire_Zone_A<-NULL
df$Conges_Escolaire_Zone_B<-NULL
df$Conges_Escolaire_Zone_C<-NULL

"invalid factor level, NA generated"

##### 5. On peut pas s'en servir de "ext_so2" et "ext_co" n'ayant pas assez des données. 

In [14]:
df$ext_so2<-NULL
df$ext_co<-NULL

#### Mes tests

In [15]:
summary(df)

       X             Index                 Date_Heure_Locale  Heure_Local   
 Min.   :    1   Min.   :    1   2013-10-27 02:00:00:    2   Min.   : 0.00  
 1st Qu.:17539   1st Qu.:17539   2014-10-26 02:00:00:    2   1st Qu.: 5.75  
 Median :35077   Median :35077   2015-10-25 02:00:00:    2   Median :11.50  
 Mean   :35077   Mean   :35077   2016-10-30 02:00:00:    2   Mean   :11.50  
 3rd Qu.:52614   3rd Qu.:52614   2017-10-29 02:00:00:    2   3rd Qu.:17.25  
 Max.   :70152   Max.   :70152   2018-10-28 02:00:00:    2   Max.   :23.00  
                                 (Other)            :70140                  
               Timestamp         Annee           Mois            Heure      
 2013-01-01 00:00:00:    1   Min.   :2013   Min.   : 1.000   Min.   : 0.00  
 2013-01-01 01:00:00:    1   1st Qu.:2015   1st Qu.: 4.000   1st Qu.: 5.75  
 2013-01-01 02:00:00:    1   Median :2017   Median : 7.000   Median :11.50  
 2013-01-01 03:00:00:    1   Mean   :2017   Mean   : 6.521   Mean   :11.50  

## Ecriture des données en disque

In [16]:
fichier_donnees=paste(DATA_PATH,DATA_FILE_OUT,sep="")
write.csv(df,fichier_donnees)