# Rendimiento de automoviles (Consumo de gasolina)

## Oscar Julian Layton

Este conjunto de datos proporciona el número de roturas de urdimbre por telar, donde un telar corresponde a una longitud fija de hilo.

* $Y_k:$ (breaks) El número de descansos
* **wool:** El tipo de lana (A o B)
* **tension:** El nivel de tensión (L, M, H)

Los datos están compuestos por 54 observaciones caracterizadas por dos variables anteriormente descritas (wool, tension)

In [1]:
#rm(list=ls())
getwd()
setwd("C:\\Users\\YULY\\Desktop\\Desktop\\UNAL 2018\\MLGz\\MLG Vanegas")  #Asignando capeta busqueda por default
source("macros.txt")           # Llamar el archivo de macros que esta en la carpeta especifica,
                               # macros son una fuciines especificas creadas porel profesor

La lectura de los datos se realiza por medio de la siguiente linea, en la cual se logra identificar que las variables están compuesta por dos categóricas wool: tipo de lana con niveles (A,B) , la variable tension que tiene tres niveles (L,M,H)

In [2]:
data(warpbreaks)
head(warpbreaks)
str(warpbreaks)

breaks,wool,tension
26,A,L
30,A,L
54,A,L
25,A,L
70,A,L
52,A,L


'data.frame':	54 obs. of  3 variables:
 $ breaks : num  26 30 54 25 70 52 51 26 67 18 ...
 $ wool   : Factor w/ 2 levels "A","B": 1 1 1 1 1 1 1 1 1 1 ...
 $ tension: Factor w/ 3 levels "L","M","H": 1 1 1 1 1 1 1 1 1 2 ...


Para facilitar la interpretación se procede a establecer un **nivel base** para cada variable categórica en este caso **A**

In [3]:
warpbreaks2<-within(warpbreaks,{wool <-factor(wool, levels=c("A","B"))}) #organizando los nievles de wool 
# rickness$pH <- factor(rickness$pH, levels(rickness$pH)[c(2,3,1)])    #otra forma de ordenar niveles
head(warpbreaks2,n=10)

breaks,wool,tension
26,A,L
30,A,L
54,A,L
25,A,L
70,A,L
52,A,L
51,A,L
26,A,L
67,A,L
18,A,M


Al tratarse de la cantidad de veces que sucede un suceso en un intervalo de tiempo se establece que la variable aleatoria sigue una distribución Poisson, en este caso se procede a establecer la estimación de el siguiente MLG considerando todas las interacciones.

In [4]:
fit <- glm(breaks~ wool*tension, family = poisson(link="log"), data=warpbreaks2)
summary(fit)


Call:
glm(formula = breaks ~ wool * tension, family = poisson(link = "log"), 
    data = warpbreaks2)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.3383  -1.4844  -0.1291   1.1725   3.5153  

Coefficients:
               Estimate Std. Error z value Pr(>|z|)    
(Intercept)     3.79674    0.04994  76.030  < 2e-16 ***
woolB          -0.45663    0.08019  -5.694 1.24e-08 ***
tensionM       -0.61868    0.08440  -7.330 2.30e-13 ***
tensionH       -0.59580    0.08378  -7.112 1.15e-12 ***
woolB:tensionM  0.63818    0.12215   5.224 1.75e-07 ***
woolB:tensionH  0.18836    0.12990   1.450    0.147    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 297.37  on 53  degrees of freedom
Residual deviance: 182.31  on 48  degrees of freedom
AIC: 468.97

Number of Fisher Scoring iterations: 4


Se puede establecer qure el **Null Deviance** hace referencia a el desvio del modelo donde todos los betas excepto el intercepto son iguales a cero, n-p = 54-1=53 y el **Residual deviance**

Anteriormente se ajusto un modelo con todas las interacciones, para poder determinar un modelo que sea parcimonioso y que no se base en solamente en un criterio de ajuste se procede a hacer el procedimiento backward para comparar por medio del criterio de información bayesiano **BIC**

In [5]:
step_glm(fit, criterion="BIC", direction = "backward")   #forward  o  backward


  Family:  poisson 
    Link:  log 

Initial model:
breaks ~ 1 + wool + tension + wool:tension 

Step 0 :    
               Df      BIC      AIC   Deviance+ Pearson^  p-value*
<none>              480.9031 468.9692    0.3231   0.3918          
- wool:tension  2   501.0119 493.0560    0.2500   0.3114 9.066e-07

+ Adjusted R-squared based on the residual deviance
^ Adjusted R-squared based on the Pearson statistic
* p-value of the Wald test

Final model:
breaks ~ 1 + wool + tension + wool:tension 



# INFERENCIA
## Test de razón de verosimilitudes,  Wald, score, gradiente

Al realizarse una regresión se quiere ver si el número de roturas en que cada uno de los dispositivos funcionó en el modo 1 po en el modo 2 me ayuda a explicar las diferencias en el numero de fallas que rpesentaron los disposiitivos. Por consiguiente se procede a hacer una regresión con respuesta Poisson, $Y_k$ es Poisson con media $\mu_k$ donde $\mu_k$ depende de las covariables (intercepto $\beta_1$, $\beta_2$ que depende de wool,  $\beta_3$ que depende de tension), a qui la función de enlace es la canonica que en caso de la Poisson en la **LOGARITMO**.



In [24]:
fit1 <- glm(breaks ~ wool + tension, family = poisson(link="log"), data=warpbreaks) 
summary(fit1)
vcov(fit1)


Call:
glm(formula = breaks ~ wool + tension, family = poisson(link = "log"), 
    data = warpbreaks)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.6871  -1.6503  -0.4269   1.1902   4.2616  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.69196    0.04541  81.302  < 2e-16 ***
woolB       -0.20599    0.05157  -3.994 6.49e-05 ***
tensionM    -0.32132    0.06027  -5.332 9.73e-08 ***
tensionH    -0.51849    0.06396  -8.107 5.21e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 297.37  on 53  degrees of freedom
Residual deviance: 210.39  on 50  degrees of freedom
AIC: 493.06

Number of Fisher Scoring iterations: 4


Unnamed: 0,(Intercept),woolB,tensionM,tensionH
(Intercept),0.002062131,-0.001193312,-0.001526712,-0.001526712
woolB,-0.001193312,0.002659585,6.993012e-20,1.8737709999999998e-19
tensionM,-0.001526712,6.993012e-20,0.003631967,0.001526712
tensionH,-0.001526712,1.8737709999999998e-19,0.001526712,0.00409081


--- 

Considerese el siguiente sistema de hipótesis:

$$H_{0}: \beta = 0 \;\;\;\;\; vs \;\;\;\;\;\; H_{1}: \beta \neq  0 $$

Donde $\beta$ (que restringimos) es de dimensión 2 donde $\beta = [\beta'_3 , \beta'_4]'$

Luego se tiene 4 elecciones de la estadística de prueba:

* 1 Test Razón de verosimilitudes.
* 2 Test de Wald.
* 3 Test de Score.
* 4 Test gradiente.



## 1.  Test razon de verosimilitudes
Para evaluar si:

$$H_{0}: \beta_2 = \beta_3=\beta_4 \;\;\;\;\; vs \;\;\;\;\;\;H_{1}: \beta_2 \neq \beta_3 \neq \beta_4 \neq  0 $$

Considerando que el test de verosimilitudes está determinado por: $\xi _{RV}=2[l(\hat{\beta})-l(\hat{\beta^{o}})]$ sumando y restando $\hat{\beta}$ del modelo saturado se obtiene:

$$\xi _{RV}=2[l(\hat{\beta})-l(\hat{\beta^{o}})]=\phi^{-1} [D(y;\hat{\mu}^0)-D(y;\hat{\mu})]  $$

Donde $D(y;\hat{\mu}^0)$ es el desvio del modelo restringido llamado **Null Deviance** y donde $D(y;\hat{\mu})$ es el desvio del modelo sin restricción llamado **Residual Deviance**

**Null Deviance** Es el desvio de un modelo donde todos los betas excepto el intercepto son iguales a cero.


Luego como $\phi=1$ se tiene:

$$\xi _{RV}=Null deviance- Residual Deviance=297.37-210.39 =86.980$$


Luego se rechaza $H_0$ a un nivel de significancia APROXIMADO del 100$ \alpha\%$ puesto que $\xi _{RV}>\chi^2(3)$ A firmandose que es significativo en el modelo.

In [16]:
RV<-(fit1$null.deviance -fit1$deviance)/1   ;RV       # Estadística del test de razón de verosimilitudes
qchisq(.95, df=3)                                     # pvalor

#### Segunda forma

Contrastando el siguiente sistema de hipótesis

$$H_{0}: \beta_2 = \beta_3= \beta_4=0\;\;\;\;\; vs \;\;\;\;\;\; H_{1}: \beta_2 \neq \beta_3 \neq \beta_4 \neq 0 $$

In [8]:
#test de razon de verosimilitudes
fit2 <- glm(breaks~ 1, family = poisson(link="log"), data=warpbreaks2)  # modelo solo ocn el intercepto
anova(fit2,fit1,test="LRT")                                             #Test razon de verosimilitudes

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
53,297.3722,,,
50,210.3919,3.0,86.98032,9.750414e-19


Luego se rechaza $H_0$ a un nivel de significancia APROXIMADO del 100$ \alpha\%$ puesto que  $\xi _{RV}>\chi^2(3)$ estableciendo que almenos uno de los betas es significativo.

---

## 2. Test de Wald
 
 Ahora para hacer una hipótesis sobre el tipo de lana, considero a $\beta_2$. 

$$H_{0}: \beta_2 = 0 \;\;\;\;\; vs \;\;\;\;\;\; H_{1}: \beta_2 \neq  0 $$

donde 

$$ \xi _{W} = (\hat{\beta_2}  - \beta_2^{0})' [\hat{Var}(\hat{\beta_2})]{-1}(\hat{\beta_2}  - \beta_2^{0})$$

In [9]:
(coef(fit1)[c(2)])^2 /(vcov(fit1)[c(2), c(2)])     #test de wald

Aqui hay que notar que $\xi _{W}=15.95407$ es el mismo test de wald para el casi univariado esto es porque:

* Consideranddo que $Z_{\hat{\beta_2}}=-3.994$, se contrasta con la estadistica normal (concluyendose que se rechaza $H_0$).

* Con una chi cuadrado con un grado de libertad $\chi^2_{1}=3.84145$ considerando a $(zvalue)^2=(-3.994)^2=15.952036$ se tiene la misma desición. veamos el pvalor:

In [106]:
1-pchisq(15.952036 ,df=1)

---


In [113]:
fit<-glm(breaks~1+ wool ,family = poisson(link="log"), data=warpbreaks)      # modelo solo ocn el intercepto
anova_glm(fit,fit1,test="wald") #test de wald
1-pchisq(71.051,df = 2)         #pvalor


  Wald test 

 Model 1:  breaks ~ wool + tension 
 Model 2:  breaks ~ 1 + wool 

   Chi   Df  Pr(>Chi)    
  71.051  2 3.331e-16 ***


## 3 Test de Score.

In [115]:
anova_glm(fit,fit1,test="rao") #test de rao
1-pchisq(72.27,df = 2)         #pvalor


  Rao test 

 Model 1:  breaks ~ wool + tension 
 Model 2:  breaks ~ 1 + wool 

  Chi   Df Pr(>Chi)    
  72.27  2 2.22e-16 ***


## 4 Test de gradiente.

In [116]:
anova_glm(fit,fit1,test="gradient") #test de wald
1-pchisq(70.666,df = 2)         #pvalor


  Gradient test 

 Model 1:  breaks ~ wool + tension 
 Model 2:  breaks ~ 1 + wool 

   Chi   Df  Pr(>Chi)    
  70.666  2 4.441e-16 ***


No obstante esta prueba puede ser contrastada por medio de una prueba de razon de verosimilitudes *(diferencias de dos desvios)* el **desvio del modelo** y **desvio del modelo bajo la hipotesis nula.**

In [93]:
#test de razon de verosimilitudes
fit3<-glm(breaks~1+wool ,family = poisson(link="log"), data=warpbreaks2) 
anova(fit3,fit1, test = "LRT")                                           #Test razon de verosimilitudes

Resid. Df,Resid. Dev,Df,Deviance,Pr(>Chi)
52,281.3335,,,
50,210.3919,2.0,70.94157,3.937619e-16


$$H_{0}: \beta_3 = \beta_4=0\;\;\;\;\; vs \;\;\;\;\;\; H_{1}: \beta_3 \neq \beta_4 \neq 0 $$

Luego se rechaza $H_0$ a un nivel de significancia APROXIMADO del 100$ \alpha\%$ estableciendo que la tensión es significativa en el numero de roturas.

## NOTA:   

Para instalar librerias de R en jupyter notebooks usamos la siguiente linea 

* install.packages("ISLR", "/home/user/anaconda3/lib/R/library")  no usar este comando
* install.packages("GLMsData", "/Users/YULY/anaconda/Lib/R/library")

Para más información verificar el siguiente enlace::

https://www.pythond.com/23094/conda-como-instalar-paquetes-r-que-no-estan-disponibles-en-r-essentials.html

* También puede usarse el siguiente comando desde r para instalar el entorno de r 

install.packages("CASdatasets", "/Users/YULY/anaconda/Lib/R/library",repos = "http://cas.uqam.ca/pub/R/")




* Pára graficar  http://www.simonqueenborough.info/R/statistics/lessons/Count_Data.html
* Analisis en python https://stats.idre.ucla.edu/stata/dae/poisson-regression/
* Análisis en ggplot2 https://stats.idre.ucla.edu/r/dae/poisson-regression/

package 'plotly' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\YULY\AppData\Local\Temp\RtmpGoTBO9\downloaded_packages
