# Labos en R

*Tous les labos, version R. (Pas de labo 1.)*

---

## Labo 2

### Help

In [None]:
# help()
# help(function)
# help(package='package-name)

### Packages

In [None]:
# install
# install.packages('package-name')

# already installed with conda
#install.packages("foreign")

# new installs
#install.packages("Rcmdr", dependencies = TRUE, repos="http://cran.rstudio.com/") # in conda?
#install.packages("nortest", repos="http://cran.rstudio.com/")
#install.packages("sas7bdat", repos="http://cran.rstudio.com/")
#install.packages("Hmisc", repos="http://cran.rstudio.com/")
#install.packages("pastecs", repos="http://cran.rstudio.com/")
# import
# library('package-name')

library(foreign)
library(nortest)
library(sas7bdat)
library(Hmisc)
library(pastecs)

### Working space

In [None]:
ls()
# rm(list=ls())
# setwd()
getwd()

### Read data

In [None]:
# import excel : via txt tab separated
#fichierTexte <- read.table("data/labo2/SR_Data.txt", header = TRUE)

# import DBF (DBase)
fichierDBF <- read.dbf("data/labo2/SR_Data.dbf")

# import SPSS
#fichierSPSS <- read.spss("data/labo2/Data_SPSS.sav", to.data.frame=TRUE)

# import SAS
#fichierSAS <- read.sas7bdat("data/labo2/tableau1.sas7bdat", debug=FALSE)

head(fichierDBF)

### Table structure

In [None]:
# show variable names
names(fichierDBF)
# indexes start at 1

# delete variable
fichierDBF$Shape_Leng <- NULL

# rename variable
names(fichierDBF)[1] <- "POPTOT"

# create variable
fichierDBF$km <- fichierDBF$Shape_Area / 1000000
fichierDBF$HabKm2 <- fichierDBF$POPTOT / fichierDBF$km

head(fichierDBF)

In [None]:
 # new table from a subset
names(fichierDBF)
ZScores <-fichierDBF[,c(12:15)]
names(ZScores)

### Normality

In [None]:
#install.packages("moments", repos="http://cran.rstudio.com/")
library(moments)

#### Skewness

In [None]:
skewness(fichierDBF)

#### Kurtosis

In [None]:
kurtosis(fichierDBF)

#### Kolmogorov-Smirnov

In [None]:
#lillie.test(Tableau1$HabKm2)
# sapply(fichierDBF[18:20],lillie.test)
sapply(fichierDBF[18],lillie.test)

In [None]:
#ks.test(x, y) # two sample

#m <- mean(fichierDBF[18])
#s <- sd(fichierDBF[18])

#ks.test(fichierDBF[18], "pnorm", m, s) 

#### Shapiro-Wilk

In [None]:
sapply(fichierDBF[18],shapiro.test)  # sapply(fichierDBF[18:20],shapiro.test)

### Transformations

#### Square root

In [None]:
fichierDBF$SqrtDens <- sqrt(fichierDBF$HabKm2)
fichierDBF$SqrtImg <- sqrt(fichierDBF$IMMREC_PCT)

#### Logarithmic

In [None]:
# log(0) = error
fichierDBF$LogDens <- log(fichierDBF$HabKm2)
fichierDBF$LogImg <- log(fichierDBF$IMMREC_PCT+1)

summary(fichierDBF)

#### Centrage et réduction

In [None]:
ZScores$INDICE_PAU <- scale(fichierDBF[1], center = TRUE, scale = TRUE)
ZScores$Dist_Min <- scale(fichierDBF[2], center = TRUE, scale = TRUE)
ZScores$N_1000 <- scale(fichierDBF[3], center = TRUE, scale = TRUE)
ZScores$Dist_Moy_3 <- scale(fichierDBF[4], center = TRUE, scale = TRUE)

#help(sapply)
sapply(ZScores,mean)
sapply(ZScores,sd)

### Descriptive statistics

In [None]:
summary(fichierDBF)

In [None]:
sapply(fichierDBF, mean)
sapply(fichierDBF, sd)
sapply(fichierDBF, min)
sapply(fichierDBF, max)
sapply(fichierDBF, median)
sapply(fichierDBF, range)
sapply(fichierDBF, quantile)

In [None]:
# Hmisc.describe
describe(fichierDBF)

In [None]:
# pastecs.stat.desc
stat.desc(fichierDBF, basic=TRUE, norm=TRUE)

### Histograms

In [None]:
hist(fichierDBF$HabKm2, main="Histogramme", xlab="Habitants au km2", ylab="Effectif", breaks=10, col='lightblue')

In [None]:
hist(fichierDBF$SqrtDens, main="Histogramme", xlab="Habitants au km2 (racine)", ylab="Effectif", breaks=10, col='gold')

In [None]:
hist(fichierDBF$LogDens, main="Histogramme", xlab="Habitants au km2 log)", ylab="Effectif", breaks=10, col='coral')

#### Histogram with normal curve

In [None]:
x <- fichierDBF$HabKm2
h<-hist(x, breaks=10, col="lightblue", xlab="Habitants au km2", ylab="Effectif", 
main="Histogramme avec courbe normale")
xfit<-seq(min(x),max(x),length=40)
yfit<-dnorm(xfit,mean=mean(x),sd=sd(x))
yfit <- yfit*diff(h$mids[1:2])*length(x)
lines(xfit, yfit, col="blue", lwd=2)

In [None]:
x <- fichierDBF$SqrtDens
h<-hist(x, breaks=10, col="red", xlab="Habitants au km2 (racine)", ylab = "Effectif",
main="Histogramme avec courbe normale")
xfit<-seq(min(x),max(x),length=40)
yfit<-dnorm(xfit,mean=mean(x),sd=sd(x))
yfit <- yfit*diff(h$mids[1:2])*length(x)
lines(xfit, yfit, col="blue", lwd=2)

---

## Labo 3

### Graphiques

* [couleurs](http://www.stat.columbia.edu/~tzheng/files/Rcolor.pdf)
* [graphiques de base](http://www.ats.ucla.edu/stat/r/gbe/default.htm)
* [graphiques avancés](http://www.statmethods.net/graphs/creating.html)

In [None]:
# install
#install.packages('doBy', repos="http://cran.rstudio.com/")
#install.packages('gmodels', repos="http://cran.rstudio.com/")
#install.packages('scatterplot3d', repos="http://cran.rstudio.com/")

# import
library(foreign)
library(nortest)
library(sas7bdat)
library(Hmisc)
library(pastecs)
library(ggplot2)
library(doBy)
library(gmodels)
library(scatterplot3d)

# data
Tableau1 <- read.sas7bdat("data/labo3/tableau1.sas7bdat", debug=FALSE)
names(Tableau1)

TableauKhi2 <- read.sas7bdat("data/labo3/khi2.sas7bdat", debug=FALSE)
names(TableauKhi2)

#### Histogrammes classiques

In [None]:
hist(Tableau1$IMMREC_PCT, breaks=10, xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 

breaks = nombre de barres

In [None]:
hist(Tableau1$IMMREC_PCT, breaks=20, xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 

density = pour rendu barres (ex.: hachures)

In [None]:
hist(Tableau1$IMMREC_PCT, density=20, breaks=20, xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 

col = colours

In [None]:
hist(Tableau1$IMMREC_PCT, breaks=20, col="red", xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 
hist(Tableau1$IMMREC_PCT, breaks=20, col="lightyellow", xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 
hist(Tableau1$IMMREC_PCT, breaks=20, col="lightsalmon", xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 
hist(Tableau1$IMMREC_PCT, breaks=20, col="lightgreen", xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme") 

ylim = limites

In [None]:
plot(
    hist(Tableau1$IMMREC_PCT, breaks=20),
    ylim=c(0, 80), col="lightgreen", xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme"
) 

prob : proportion vs effectif

In [None]:
hist(Tableau1$IMMREC_PCT, col="lightgray", breaks=20, xlab="Immigrants récents (%)", ylab = "Proportion", main="Histogramme", prob=TRUE)

#### Histogrammes avec courbe normale

y = proportion

In [None]:
m <- mean(Tableau1$IMMREC_PCT)
std <- sd(Tableau1$IMMREC_PCT)
hist(Tableau1$IMMREC_PCT, col="lightyellow", breaks=20, prob=TRUE, xlab="Immigrants récents (%)", ylab = "Proportion", main="Histogramme avec la courbe normale")
curve(dnorm(x, mean=m, sd=std), col="darkblue", lwd=2, add=TRUE)

y = effectif

In [None]:
x <- Tableau1$IMMREC_PCT
h<-hist(x, breaks=20, col="lightyellow", xlab="Immigrants récents (%)", ylab = "Effectif", main="Histogramme avec la courbe normale") 
xfit<-seq(min(x),max(x),length=40) 
yfit<-dnorm(xfit,mean=mean(x),sd=sd(x)) 
yfit <- yfit*diff(h$mids[1:2])*length(x) 
lines(xfit, yfit, col="darkblue", lwd=2)

#### Nuages de points

In [None]:
plot(Tableau1$IMMREC_PCT, Tableau1$FAIBREVPCT, xlab="Immigrants récents (%)", ylab = "Faible revenu (%)", main="Nuage de points")

#### Nuages de points avec droite de régression

In [None]:
plot(Tableau1$IMMREC_PCT, Tableau1$FAIBREVPCT, xlab="Immigrants récents (%)", ylab = "Faible revenu (%)", main="Nuage de points avec droite de régression")
abline(lsfit(Tableau1$IMMREC_PCT, Tableau1$FAIBREVPCT))

#### Matrice de nuage de points

In [None]:
pairs(~MONOPCT+MENAGE1PCT+TX_CHOM+FAIBREVPCT,data=Tableau1, 
      main="Matrice de nuages de points")

#### Nuages de point 3D

In [None]:
scatterplot3d(Tableau1$MONOPCT, Tableau1$TX_CHOM, Tableau1$FAIBREVPCT, main="Nuage de points 3D")
scatterplot3d(Tableau1$MONOPCT, Tableau1$TX_CHOM, Tableau1$FAIBREVPCT, main="Nuage de points 3D", xlab="Familles monoparentales (%)", ylab="Taux de chômage", zlab="Faible revenu (%)");

### Matrice de corrélation

#### Pearson

In [None]:
rcorr(cbind(Tableau1$MONOPCT,Tableau1$MENAGE1PCT,Tableau1$TX_CHOM,Tableau1$FAIBREVPCT,Tableau1$Dist_Min,Tableau1$N_1000), type="pearson")

#### Spearman

In [None]:
rcorr(cbind(Tableau1$MONOPCT,Tableau1$MENAGE1PCT,Tableau1$TX_CHOM,Tableau1$FAIBREVPCT,Tableau1$Dist_Min,Tableau1$N_1000), type="spearman")

### Régression linéaire simple

In [None]:
reg <- lm(TX_CHOM ~ FAIBREVPCT, data = Tableau1)
summary(reg)

names(Tableau1)

### Tableau de contingence

In [None]:
names(TableauKhi2)

#### Modalités variables nominales

In [None]:
# sex
table(TableauKhi2$SEX)
TableauKhi2$SEX <- factor(TableauKhi2$SEX, levels = c(1,2), labels = c("Homme", "Femme"))
table(TableauKhi2$SEX)

# transport mode
table(TableauKhi2$Mode)
TableauKhi2$Mode <- factor(TableauKhi2$Mode, levels = c(0:4), labels = c("Auto (conducteur)", "Auto (passager)", "Transport en commun", "Tranport actif", "Autres"))
table(TableauKhi2$Mode)

# distance
table(TableauKhi2$DIST)
TableauKhi2$DIST <- factor(TableauKhi2$DIST, levels = c(1:7), labels = c("Moins de 5 km", "5 à 9,9 km","10 à 14,9 km", "15 à 19,9 km", "20 à 24,9 km", "25 à 29,9 km", "30 km et plus"))
table(TableauKhi2$DIST)

#### Tableau de contingence

In [None]:
CrossTable(TableauKhi2$SEX, TableauKhi2$Mode, chisq=TRUE, expected=TRUE, resid=TRUE, format="SPSS")
CrossTable(TableauKhi2$SEX, TableauKhi2$DIST, chisq=TRUE, expected=TRUE, resid=TRUE, format="SPSS")
CrossTable(TableauKhi2$Mode, TableauKhi2$DIST, chisq=TRUE, expected=TRUE, resid=TRUE, format="SPSS")

---

## Labo 4

In [None]:
# import
library(foreign)
library(nortest)
library(sas7bdat)
library(doBy)

# data
MTL <- read.sas7bdat("data/labo4/mtl_ttest.sas7bdat", debug=FALSE)
TOR <- read.sas7bdat("data/labo4/tor_ttest.sas7bdat", debug=FALSE)
VAN <- read.sas7bdat("data/labo4/van_ttest.sas7bdat", debug=FALSE)
TROISRMR <- read.sas7bdat("data/labo4/troisrmr_anova.sas7bdat", debug=FALSE)
names(MTL)
names(TOR)
names(VAN)
names(TROISRMR)

In [None]:
# modalités (labels)
table(MTL$SEX)
table(TOR$SEX)
table(VAN$SEX)
MTL$SEX <- factor(MTL$SEX, levels = c(1,2), labels = c("Homme", "Femme"))
TOR$SEX <- factor(TOR$SEX, levels = c(1,2), labels = c("Homme", "Femme"))
VAN$SEX <- factor(VAN$SEX, levels = c(1,2), labels = c("Homme", "Femme"))
table(MTL$SEX)
table(TOR$SEX)
table(VAN$SEX)

TROISRMR$CMA <- factor(TROISRMR$CMA, levels = c(462,535,933), labels = c("Montréal", "Toronto", "Vancouver"))
table(TROISRMR$CMA)

### T-Test : Comparaison de moyennes

#### Test F

Vérification de l'égalité des variances

In [None]:
var.test(TOTINC ~ SEX, alternative='two.sided', conf.level=.95, data=MTL)

Interprétation
* **p-value < 2.2e-16**
    * p < 0.05 alors méthode Satterthwaite
* **true ratio of variances is not equal to 1**

#### Méthode Satterthwaite

Pas égales : P < 0,05
* `var.equal=FALSE`

In [None]:
t.test(TOTINC~SEX, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=MTL)

Interprétation
* **t = -27.088**
* **p-value < 2.2e-16**

#### Méthode Pooled

Égales : P >= 0,05
* `var.equal=TRUE`

In [None]:
t.test(TOTINC~SEX, alternative='two.sided', conf.level=.95, var.equal=TRUE, data=MTL)
boxplot(TOTINC~SEX, data = MTL, col = "coral", main="Boites à moustache (RMR de Montréal)", xlab="Sexe", ylab="Revenu total")
boxplot(LogTotInc~SEX, data = MTL, col = "coral", main="Boites à moustache (RMR de Montréal)", xlab="Sexe", ylab="Revenu total (log)")

Interprétation
* **t = -27.783**
* **p-value < 2.2e-16**

### Analyse des résultats

Contexte dataset, valeurs et comparaison des 2 moyennes des 2 modes de la variable qualitative, "la différence entre les moyennes (x) est d'ailleurs significative (t=27,09; P<0,001)".

### ANOVA : Analyse de variance

Moyenne par groupe

In [None]:
# doBy
summaryBy(GROSRT ~ CMA, TROISRMR, FUN=c(mean), na.rm=TRUE)

#### Boxplot

Visualisation d'ANOVA

In [None]:
boxplot(GROSRT ~ CMA, data = TROISRMR, col = "lightyellow", main="Boites à moustache", xlab="Région métropolitaine", ylab="Loyer ($)")  #Analyse de variance : test F

#### ANOVA

In [None]:
anova.aov <- aov(GROSRT ~ CMA, data = TROISRMR)
summary(anova.aov)

Interprétation
* **CMA Sum Sq** = variance expliquée (inter)
* **Residuals Sum Sq** = variance non expliquée (intra)
* **CMA Df** = nombre de degrés de liberté pour variance expliquée (inter)
* **Residuals Df** = nombre de degrés de liberté pour variance non expliquée (intra)
* **CMA F value** = F observé
* **CMA Pr(>F)** = Valeur de P rattachée à valeur de F

#### Test de F

Hypothèse H0 = "indépendance entre les deux variances (inter et intra)"

* k = nombre de groupes
* n = nombre d'observations

* DL numérateur (VE, inter) de table de Fisher
    * k - 1
* DL dénominateur (VNE, intra) de table de Fisher
    * n - k

Calcul F théorique
* F théorique
* P associé au F théorique, seuils de signification
    * 95% : p=0,05
    * 99% : p=0,01
    * 99,9% : p=0,001

In [None]:
f_theorique <- qf(0.99, 2, 8379)
f_theorique
# qt() pour table Student t pour coefficient de ... 
# (voir autres cours)

Interprétation
* F observé > à F théorique
    * moyennes sont statistiquement différentes
    * H0 rejeté
* F observé < F théorique
    * moyennes des groupes ne sont pas différentes
    * H0 validée

#### Calcul R carré

Pour obtenir Coefficient de détermination

In [None]:
anova.r2 <- lm(GROSRT ~ CMA, data = TROISRMR)
summary(anova.r2)

Interprétation
* **Multiple R-squared** = Coefficient de détermination
    * la variable qualitative explique à x% la variation de la vaiable quantitative

#### Test de Tukey

Comparaison des moyennes groupes, 2 à 2

In [None]:
TukeyHSD(anova.aov)

---

## Labo 5

In [None]:
# INSTALLATION D'EXTENSIONS -------------------------------------------------------------
# install.packages("foreign")      ## Read Data Stored by Minitab, S, SAS, SPSS, Stata, Systat, dBase
install.packages("MASS")      ## Tests de normalit� supp.
install.packages("car")      ## Companion to Applied Regression


# import
library(foreign)
library(MASS)
library(sas7bdat)
library(pastecs)
library(car)

# data
MTL <- read.sas7bdat("pauvretemtl.sas7bdat", debug=FALSE)
names(MTL)

# STATISTIQUES UNIVARI�ES ----------------------
summary(MTL)

# R�GRESSION LIN�AIRE MULTIPLE ----------------
ols <- lm(FAIBREVPCT ~ SqrtChom+MONOPCT+menage1per+SqrtImmig+pasecol1524+tpspartiel, data = MTL)
summary(ols)

# Obtenir les coefficients standardis�s en utilisant SCALE pour la variable d�pendante et toutes les variables ind�pendantes
CoefStand <- lm(scale(FAIBREVPCT) ~ scale(SqrtChom)+scale(MONOPCT)+scale(menage1per)+scale(SqrtImmig)+scale(pasecol1524)+scale(tpspartiel), data = MTL)
summary(CoefStand)

# Valeurs de VIF pour la multicollin�arit�
vif(ols)
vif(ols) > 5 # probl�me de multicollin�arit� (VIF > 5)?

# Graphiques et distance de cook
opar <- par(mfrow = c(2, 2), oma = c(0, 0, 1.1, 0))
plot(ols, las = 1)
par(opar)

# Histogramme sur les r�sidus et v�rification de la normalit� des r�sidus
m <- mean(residuals(ols))
std <- sd(residuals(ols))
hist(residuals(ols), col="lightyellow", breaks=20, prob=TRUE, xlab="R�sidus OLS", ylab = "Proportion", main="Histogramme avec la courbe normale")
curve(dnorm(x, mean=m, sd=std), col="darkblue", lwd=2, add=TRUE)
stat.desc(residuals(ols), basic=TRUE, norm=TRUE)

# Rep�rer les valeurs aberrantes : Distance de Cook > 4 / n ou 8 / n
nobs <- NROW(na.omit(residuals(ols)))            # Nombre d'observations dans le jeu de donn�es
cook <- cooks.distance(ols)                      # Distance de Cook
ypredit <- fitted.values(ols)                    # Y pr�dits par le mod�le
res <- residuals(ols)                            # r�sidus (Y - Y pr�dits par le mod�le)
res_std <- rstandard(ols)                        # r�sidus standardis�s

a <- cbind(MTL, cook, ypredit, res, res_std)
a<- a[order(-cook), ]
a[cook > 4/nobs, ]    # Observations dont la distance de Cook > 4 / n
a[cook > 8/nobs, ]    # Observations dont la distance de Cook > 8 / n 

# Tableau de donn�es sans les valeurs aberrantes (Cook > 8 / n )
dataSansOutliers <- a[a$cook  < 8/nobs, ]
dataSansOutliers$cook <- NULL
dataSansOutliers$ypredit <- NULL
dataSansOutliers$res <- NULL
dataSansOutliers$res_std <- NULL
head(dataSansOutliers)

# Nouveau mod�le de r�gression sans les valeurs aberrantes
ols2 <- lm(FAIBREVPCT ~ SqrtChom+MONOPCT+menage1per+SqrtImmig+pasecol1524+tpspartiel, data = dataSansOutliers)
summary(ols2)
opar <- par(mfrow = c(2, 2), oma = c(0, 0, 1.1, 0))
plot(ols, las = 1)
par(opar)

# Comparaison des deux mod�les : coefficients
summary(ols)
summary(ols2)

# Comparaison des deux mod�les 
vif(ols)
vif(ols2)

# Comparaison des deux histogrammes
m <- mean(residuals(ols))
std <- sd(residuals(ols))
hist(residuals(ols), col="lightyellow", breaks=20, prob=TRUE, xlab="R�sidus OLS", ylab = "Proportion", main="Mod�le de d�part")
curve(dnorm(x, mean=m, sd=std), col="darkblue", lwd=2, add=TRUE)
stat.desc(residuals(ols), basic=TRUE, norm=TRUE)

m <- mean(residuals(ols2))
std <- sd(residuals(ols2))
hist(residuals(ols2), col="lightyellow", breaks=20, prob=TRUE, xlab="R�sidus OLS", ylab = "Proportion", main="Mod�le sans les outliers")
curve(dnorm(x, mean=m, sd=std), col="darkblue", lwd=2, add=TRUE)
stat.desc(residuals(ols2), basic=TRUE, norm=TRUE)

# Comparaison de la normalit�
stat.desc(residuals(ols), basic=TRUE, norm=TRUE)
stat.desc(residuals(ols2), basic=TRUE, norm=TRUE)
