# Chapitre I, exercice 4 : Etude préliminaire du CAC 40

## Importation des données

### Option 1 : à partir d'un fichier de données

#### Source : Datastream

Datastream est une base de données payante accessible à la BU Dauphine. Elle présente l'avantage de fournir des données complètes. Le séparateur de décimale est le point "."

In [7]:
CAC40_df_1<-read.csv2("./data/cac40_datastream.csv",dec=".",col.names = c('Date','CAC40'))
head(CAC40_df_1)

Date,CAC40
09/07/1987,1482.89
10/07/1987,1490.42
13/07/1987,1490.42
14/07/1987,1490.42
15/07/1987,1490.42
16/07/1987,1474.22


On convertit la colonne Date au format date Year/Month/Day

In [8]:
CAC40_df_1$Date<-as.Date(CAC40_df_1$Date,format = "%d/%m/%Y")
tail(CAC40_df_1$Date)


#library(lubridate)
#CAC40_df_1$Date<-dmy(CAC40_df_1$Date)

In [None]:
On vérifie qu'il n'y a pas de données manquantes

In [9]:
sapply(CAC40_df_1,function(x) sum(is.na(x)))

Les données commencent en "1987-07-09". On décide d'étudier la série à partir de "1990-01-01" en partie pour avoir le même échantillon que les autres sources de données.

In [10]:
CAC40_df_1<-CAC40_df_1[CAC40_df_1$Date>="1990-01-01",]

#### Source : fichier csv provenant de Yahoo Finance
Les données de Yahoo contiennent des données manquantes représentées par le terme ''null''. Avec R, "null" n'est pas le symbole habituel des données manquantes qui est "na". Dans l'importation des données à partir de la fonction read.csv, on ajoute l'option na.strings=c("null") pour lui indiquer que le symbole des données manquantes dans le fichier ^FCHI.csv.

In [12]:
library(readr)
CAC40_df_2<-read.csv("C:\\users\\ylepen\\Documents\\COURS dauphine\\econometrie II\\data exercice\\^FCHI.csv",na.strings=c("null"))
class(CAC40_df_2)
str(CAC40_df_2)

'data.frame':	8605 obs. of  7 variables:
 $ Date     : Factor w/ 8605 levels "1990-03-01","1990-03-02",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ Open     : num  1836 1831 1866 1869 1874 ...
 $ High     : num  1838 1860 1874 1875 1881 ...
 $ Low      : num  1827 1831 1862 1866 1874 ...
 $ Close    : num  1832 1860 1874 1872 1880 ...
 $ Adj.Close: num  1832 1860 1874 1872 1880 ...
 $ Volume   : int  0 0 0 0 0 0 0 0 0 0 ...


Décompte des données manquantes : 

In [13]:
sapply(CAC40_df_2,function(x) sum(is.na(x)))

Il existe plusieurs manières de gérer les données manquantes. On décide ici de supprimer les dates ayant des données manquantes car elles peuvent empécher l'éxécution de certaines fonctions de R. 

In [None]:
CAC40_df_2<-na.omit(CAC40_df_2)
sapply(CAC40_df_2,function(x) sum(is.na(x)))

Rappel : Les fonctions 
class() : affiche la classe d'un objet
str() : affiche la structure d'un objet
head() : affiche les premières lignes d'un objet
tail() : affiche les dernières lignes d'un objet


In [None]:
class(CAC40_df_2)

In [None]:
str(CAC40_df_2)

In [None]:
head(CAC40_df_2)
tail(CAC40_df_2)

### Option 2 : Importation des données à partir d'un site internet

#### librairie quantmod

In [3]:
install.packages('TT')

also installing the dependencies 'crosstalk', 'jquerylib', 'cli', 'glue', 'lifecycle', 'pillar', 'rlang', 'tibble', 'tidyselect', 'vctrs', 'DT', 'dplyr', 'data.tree'




  There are binary versions available but the source versions are later:
           binary source needs_compilation
crosstalk   1.1.1  1.2.0             FALSE
cli         2.5.0  3.6.1              TRUE
glue        1.4.2  1.6.2              TRUE
lifecycle   1.0.0  1.0.3             FALSE
pillar      1.6.0  1.9.0             FALSE
rlang      0.4.11  1.1.1              TRUE
tibble      3.1.1  3.2.1              TRUE
tidyselect  1.1.1  1.2.0             FALSE
vctrs       0.3.8  0.6.3              TRUE
DT           0.18   0.28             FALSE
dplyr       1.0.6  1.1.2              TRUE

  Binaries will be installed
package 'jquerylib' successfully unpacked and MD5 sums checked
package 'cli' successfully unpacked and MD5 sums checked
package 'glue' successfully unpacked and MD5 sums checked
package 'rlang' successfully unpacked and MD5 sums checked
package 'tibble' successfully unpacked and MD5 sums checked
package 'vctrs' successfully unpacked and MD5 sums checked
package 'dplyr' successf

installing the source packages 'crosstalk', 'lifecycle', 'pillar', 'tidyselect', 'DT', 'TT'

"installation of package 'tidyselect' had non-zero exit status"

In [4]:
install.package(TT)
library(TT)
library(quantmod)


CAC40 <-getSymbols('^FCHI',auto.assign = FALSE,from ='1990-01-01')
class(CAC40) # an xts object

CAC40_df<-data.frame(date=index(CAC40),coredata(CAC40))# conversion xts en dataframe avec les dates comme indices
colnames(CAC40_df)<-c("Date","Open","High","Low","Close","Vol","Adj.Close")
sapply(CAC40_df,function(x) sum(is.na(x)))
CAC40_df<-na.omit(CAC40_df)
sapply(CAC40_df,function(x) sum(is.na(x)))
class(CAC40_df)

ERROR: Error in install.package(TT): impossible de trouver la fonction "install.package"


### Utilisation de la librairie yahoofinancer 
Il existe aussi la librairie yahoofinancer mais elle ne semble pas capable d'importer des données dès qu'elles contiennent des observations manquantes. On importe ici des données mensuelles et non quotidiennes.


In [6]:
install.packages('yahoofinancer')

installing the source package 'yahoofinancer'



In [7]:
library(yahoofinancer)
cac40<-Index$new('^FCHI')
cac40_data<-cac40$get_history(start = '1990-01-01',interval = '1mo')

## Représentation graphique de l'indice CAC40
On utilise les données importées via quantmod. 


In [17]:
install.packages(c('cli','lifecycle','rlang','scales','vctrs'))
install.packages('ggplot2')



  There are binary versions available but the source versions are later:
          binary source needs_compilation
cli        2.5.0  3.6.1              TRUE
lifecycle  1.0.0  1.0.3             FALSE
rlang     0.4.11  1.1.1              TRUE
scales     1.1.1  1.2.1             FALSE
vctrs      0.3.8  0.6.3              TRUE

  Binaries will be installed
package 'cli' successfully unpacked and MD5 sums checked
package 'rlang' successfully unpacked and MD5 sums checked


"restored 'rlang'"

package 'vctrs' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\ylepen\AppData\Local\Temp\RtmpemhvNF\downloaded_packages


installing the source packages 'lifecycle', 'scales'

"installation of package 'scales' had non-zero exit status"also installing the dependencies 'cli', 'lifecycle', 'rlang', 'scales', 'vctrs'




  There are binary versions available but the source versions are later:
          binary source needs_compilation
cli        2.5.0  3.6.1              TRUE
lifecycle  1.0.0  1.0.3             FALSE
rlang     0.4.11  1.1.1              TRUE
scales     1.1.1  1.2.1             FALSE
vctrs      0.3.8  0.6.3              TRUE
ggplot2    3.3.3  3.4.2             FALSE

  Binaries will be installed
package 'cli' successfully unpacked and MD5 sums checked
package 'rlang' successfully unpacked and MD5 sums checked


"restored 'rlang'"

package 'vctrs' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\ylepen\AppData\Local\Temp\RtmpemhvNF\downloaded_packages


installing the source packages 'lifecycle', 'scales', 'ggplot2'

"installation of package 'ggplot2' had non-zero exit status"

In [18]:
library(ggplot2)
p1<-ggplot(data=CAC40_df,aes(x=Date,y=Adj.Close))+geom_line(colour='blue')+ggtitle('Indice CAC 40 en log')+xlab('date')+ylab('indice en log')+theme_bw()+theme(plot.title = element_text(hjust = 0.5))
p1

ERROR: Error in library(ggplot2): there is no package called 'ggplot2'
