# Chapitre I, exercice 4 : Etude préliminaire du CAC 40

## Importation des données

### Option 1 : à partir d'un fichier de données

#### Source : Datastream

Datastream est une base de données payante accessible à la BU Dauphine. Elle présente l'avantage de fournir des données complètes. Le séparateur de décimale est le point "."

In [1]:
CAC40_df_1<-read.csv2("./data/cac40_datastream.csv",dec=".",col.names = c('Date','CAC40'))
head(CAC40_df_1)

Date,CAC40
09/07/1987,1482.89
10/07/1987,1490.42
13/07/1987,1490.42
14/07/1987,1490.42
15/07/1987,1490.42
16/07/1987,1474.22


On convertit la colonne Date au format date Year/Month/Day

In [2]:
CAC40_df_1$Date<-as.Date(CAC40_df_1$Date,format = "%d/%m/%Y")
tail(CAC40_df_1$Date)


#library(lubridate)
#CAC40_df_1$Date<-dmy(CAC40_df_1$Date)

On vérifie qu'il n'y a pas de données manquantes

In [None]:
sapply(CAC40_df_1,function(x) sum(is.na(x)))

Les données commencent en "1987-07-09". On décide d'étudier la série à partir de "1990-01-01" en partie pour avoir le même échantillon que les autres sources de données.

In [None]:
CAC40_df_1<-CAC40_df_1[CAC40_df_1$Date>="1990-01-01",]

#### Source : fichier csv provenant de Yahoo Finance
Les données de Yahoo contiennent des données manquantes représentées par le terme ''null''. Avec R, "null" n'est pas le symbole habituel des données manquantes qui est "na". Dans l'importation des données à partir de la fonction read.csv, on ajoute l'option na.strings=c("null") pour lui indiquer que le symbole des données manquantes dans le fichier ^FCHI.csv.

In [3]:
install.packages("readr")
CAC40_df_2<-read.csv("./data/^FCHI.csv",na.strings=c("null"))
class(CAC40_df_2)
str(CAC40_df_2)

also installing the dependencies 'vctrs', 'rlang', 'tidyselect', 'cli', 'lifecycle', 'vroom'




  There are binary versions available but the source versions are later:
           binary source needs_compilation
vctrs       0.3.8  0.6.3              TRUE
rlang      0.4.11  1.1.1              TRUE
tidyselect  1.1.1  1.2.0             FALSE
cli         2.5.0  3.6.1              TRUE
lifecycle   1.0.0  1.0.3             FALSE
vroom       1.4.0  1.6.3              TRUE
readr       1.4.0  2.1.4              TRUE

  Binaries will be installed
package 'vctrs' successfully unpacked and MD5 sums checked
package 'rlang' successfully unpacked and MD5 sums checked
package 'cli' successfully unpacked and MD5 sums checked
package 'vroom' successfully unpacked and MD5 sums checked
package 'readr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\ylepen\AppData\Local\Temp\RtmpY9WkE9\downloaded_packages


installing the source packages 'tidyselect', 'lifecycle'

"installation of package 'tidyselect' had non-zero exit status"

'data.frame':	8605 obs. of  7 variables:
 $ Date     : Factor w/ 8605 levels "1990-03-01","1990-03-02",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ Open     : num  1836 1831 1866 1869 1874 ...
 $ High     : num  1838 1860 1874 1875 1881 ...
 $ Low      : num  1827 1831 1862 1866 1874 ...
 $ Close    : num  1832 1860 1874 1872 1880 ...
 $ Adj.Close: num  1832 1860 1874 1872 1880 ...
 $ Volume   : int  0 0 0 0 0 0 0 0 0 0 ...


Décompte des données manquantes : 

In [4]:
sapply(CAC40_df_2,function(x) sum(is.na(x)))

Il existe plusieurs manières de gérer les données manquantes. On décide ici de supprimer les dates ayant des données manquantes car elles peuvent empécher l'éxécution de certaines fonctions de R. 

In [None]:
CAC40_df_2<-na.omit(CAC40_df_2)
sapply(CAC40_df_2,function(x) sum(is.na(x)))

Rappel : Les fonctions 
class() : affiche la classe d'un objet
str() : affiche la structure d'un objet
head() : affiche les premières lignes d'un objet
tail() : affiche les dernières lignes d'un objet


In [None]:
class(CAC40_df_2)

In [None]:
str(CAC40_df_2)

In [None]:
head(CAC40_df_2)
tail(CAC40_df_2)

### Option 2 : Importation des données à partir d'un site internet

#### librairie quantmod

In [5]:
install.packages('TT')

installing the source package 'TT'



In [6]:
library(TT)
library(quantmod)


CAC40 <-getSymbols('^FCHI',auto.assign = FALSE,from ='1990-01-01')
class(CAC40) # an xts object

CAC40_df<-data.frame(date=index(CAC40),coredata(CAC40))# conversion xts en dataframe avec les dates comme indices
colnames(CAC40_df)<-c("Date","Open","High","Low","Close","Vol","Adj.Close")
sapply(CAC40_df,function(x) sum(is.na(x)))
CAC40_df<-na.omit(CAC40_df)
sapply(CAC40_df,function(x) sum(is.na(x)))
class(CAC40_df)

Loading required package: xts
Loading required package: zoo

Attaching package: 'zoo'

The following objects are masked from 'package:base':

    as.Date, as.Date.numeric

Registered S3 method overwritten by 'xts':
  method     from
  as.zoo.xts zoo 
Loading required package: TTR
Registered S3 method overwritten by 'quantmod':
  method            from
  as.zoo.data.frame zoo 
Version 0.4-0 included new data defaults. See ?getSymbols.
'getSymbols' currently uses auto.assign=TRUE by default, but will
use auto.assign=FALSE in 0.5-0. You will still be able to use
'loadSymbols' to automatically load data. getOption("getSymbols.env")
and getOption("getSymbols.auto.assign") will still be checked for
alternate defaults.

This message is shown once per session and may be disabled by setting 



ERROR: Error in new.session(): Could not establish session after 5 attempts.


In [7]:
head(CAC40_df)

ERROR: Error in head(CAC40_df): objet 'CAC40_df' introuvable


### Utilisation de la librairie yahoofinancer 
Il existe aussi la librairie yahoofinancer mais elle ne semble pas capable d'importer des données dès qu'elles contiennent des observations manquantes. On importe ici des données mensuelles et non quotidiennes.


In [None]:
install.packages('yahoofinancer')

In [None]:
library(yahoofinancer)
cac40<-Index$new('^FCHI')
cac40_data<-cac40$get_history(start = '1990-01-01',interval = '1mo')

## Représentation graphique de l'indice CAC40
On utilise les données importées via quantmod. 


In [None]:
#install.packages(c('cli','lifecycle','rlang','scales','vctrs'))
install.packages('ggplot2')


In [None]:
library(ggplot2)
p1<-ggplot(data=CAC40_df,aes(x=Date,y=Adj.Close))+geom_line(colour='blue')+ggtitle('Indice CAC 40 en log')+xlab('date')+ylab('indice en log')+theme_bw()+theme(plot.title = element_text(hjust = 0.5))
p1