<img src="./unal.png" align=left width="150" height="150"></img>

$\;$

---
<h2 align="center">Algoritmo Newton Rapson caso univariado (aproximación de cuadratica mediante polinomios de taylor)</h2>


#### Oscar Julian Layton

En lo que concierne a la estimación de parámetros en un modelo lineal generalizado que puede ser descrito como sigue: 

$\;$
$$\begin{equation*}
     \left\{
	       \begin{array}{ll}
		 Y_k \sim FED(\mu_k, \frac{\phi}{m_k}), \\
		 g(\mu_k)=\eta_k=\mathbf{x}_k'\beta \\
		 Y_1, Y_2,...,Y_n ind
	       \end{array}
	     \right.
   \end{equation*}
   $$
   
   
Se procede a realizar por máxima verosimilitud, consistiendo en maximixar $l(\theta)$,

$$\widehat{\beta}=argmin \sum_{k=1}^{n}log[f(y_k , \mu_k , \phi/M_k)] $$
$$l(\beta)==\sum_{k=1}^{n}\frac{M_k}{\phi}[y_k \theta_k - b(\theta_k)] + c(y_k , \phi/M_k)$$

que es lo mismo que maximixar a:

$$l(\beta)=\sum_{k=1}^{n}\frac{M_k}{\phi}[y_k \theta_k - b(\theta_k)] $$

Para lo grar lo anterior hallo el vector gradiente e igualo a cero:

$$U(\beta)=[\frac{dl(\beta)}{d\beta_j}=\frac{1}{\phi} \sum_{k=1}^{n} M_k [  y_k \frac{d\theta_k}{d\mu_k}  \frac{d\mu_k}{d\eta_k}  \frac{d\eta_k}{d\beta_k}-b'(\theta)\frac{d\theta_k}{d\mu_k}  \frac{d\mu_k}{d\eta_k}  \frac{d\eta_k}{d\beta_k}]]=0$$

Obteniendose de esta manera: 

$$U(\beta)= \frac{dl(\beta)}{d\beta_j} = \sum_{k=1}^{n} \frac{M_k}{\phi}\frac{(y_k - \mu_k)}{V(\mu_k)g'(\mu_k)}x_{kj}$$

De forma matricial:

$$U(\beta)=\frac{1}{\phi}X'MSV^{1/2}(Y-\mu)$$

Pero el despeje solo puede hacerse de forma analícica cuando se trata del enclace canónico, donde $\beta=(X'X)^{-1} X'Y$. No obstante encontrar el $\beta$ que maximiza a $l(\beta)$ cuando $U(\beta)=\frac{1}{\phi}X'MSV^{1/2}(Y-\mu)=0$ puede hallarse haciendo una aproximación por polinomios de Taylor de la función $l(\beta)$ la cual denominaremos $l^{*}(\beta)$ la cual es el nuevo objetivo a maximizar.

$$l(\beta) 	\approx l^{*}(\beta) = l(\beta^{(o)}) +\frac{dl(\beta)}{d\beta}|_{(\beta^{(o)})}(\beta-\beta^{(o)}) +\frac{d^2l(\beta)}{d^2\beta}|_{(\beta^{(o)})}\frac{(\beta-\beta^{(o)})}{{2!}} $$


$$l^{*}_{(\beta)}=l_{(\beta^{(o)})}+l'_{(\beta^{(o)})}(\beta-\beta^{(o)})
+l''_{(\beta^{(o)})}\dfrac {(\beta-\beta^{(o)})^2}{2!}
$$

Quedando: 
$$l^{*}(\beta)= l(\beta^{0}) + U(\beta^{0})(\beta -\beta^{0} )- \frac{1}{2}J(\beta^{0})(\beta-\beta^{0})^2$$
$$\beta^{max} = \beta^{o} - [J(\beta^{o})]^{-1} U(\beta^{o}) $$

Luego el método Newton Rapson es " maximizar iterativamente":

$$\beta^{[t+1]} = \beta^{[t]} + J[\beta^{[t]}]^{-1}U[\beta^{t}] \;\;\; z=0,1,2,...$$  

## Ejemplo

A continuación se muestra un conjunto de datos que representan el número de roturas de urdimbre por telar, donde un telar corresponde a una longitud fija de hilo. Donde:

* **Breaks:** Número de roturas.
* **Wool:** Tipo de lana (A,B).
* **Tension:** Nivel de tensión (L,M,H).

In [2]:
data(warpbreaks)
head(warpbreaks,n = 10)

breaks,wool,tension
26,A,L
30,A,L
54,A,L
25,A,L
70,A,L
52,A,L
51,A,L
26,A,L
67,A,L
18,A,M


Al realizarse una regresión se quiere ver si el número de roturas en que cada uno de los dispositivos funcionó en el modo 1 po en el modo 2 me ayuda a explicar las diferencias en el numero de fallas que rpesentaron los disposiitivos. Por consiguiente se procede a hacer una regresión con respuesta Poisson, $Y_k$ es Poisson con media $\mu_k$ donde $\mu_k$ depende de las covariables (intercepto $\beta_1$, $\beta_2$ que depende de wool,  $\beta_3$ que depende de tension), a qui la función de enlace es la canonica que en caso de la Poisson en la **LOGARITMO**.

In [3]:
fit <- glm(breaks ~ wool + tension, family = poisson(link="log"), data=warpbreaks)
X <- model.matrix(fit); head(X,n=13)                           #matriz modelo
y<-warpbreaks$breaks
#y <- fit$y;y???????
yes <- log(ifelse(warpbreaks$breaks==0,0.1,y))     #
#b0 <- solve(t(X)%*%X)%*%t(X)%*%yes                #condicion inicial con yes=g(y)
V <- diag(yes)
b0 <- solve(t(X)%*%V%*%X)%*%t(X)%*%V%*%yes         #Valor inicial

(Intercept),woolB,tensionM,tensionH
1,0,0,0
1,0,0,0
1,0,0,0
1,0,0,0
1,0,0,0
1,0,0,0
1,0,0,0
1,0,0,0
1,0,0,0
1,0,1,0


In [4]:
b0

0,1
(Intercept),3.6367997
woolB,-0.1761909
tensionM,-0.2942874
tensionH,-0.498586


Adicionalmente X es la matriz diseño del modelo, como hay que determinar un valor inicial $\beta^{[0]}=(X'X)^{-1}X' Y^{*}$ donde $Y^{*}=g(y)$, no obstante como en el acaso de la Poisson **la funcion de enlace canonica es LOGARITMO**  $Y^{*}=log(y)$ existe problemas en el caso que $y_k = 0$. Se procede a establecer otro $Y_k= yes$ el cual es el verdadero valor inicial. 

### ALGORITMO SCORING DE FISHER PARA EL EJEMPLO DEL MUMERO DE ROTURAS.

In [50]:
epsilon <- 0.000000001
tol <- 1
iter <- 30
beta_old <- b0
b <- gsub(" ","",paste("beta",as.character(1:length(b0))))
u <- gsub(" ","",paste("U(beta)",as.character(1:length(b0))))
salida <- matrix(NA,iter+1,2*length(b0)+2)
colnames(salida) <- c("t",b,u,"delta")
rownames(salida) <- rep("",nrow(salida))
for(t in 0:iter){
  mu <- exp(X%*%beta_old)
  U <- t(X)%*%(y-mu)
  salida[t+1,1:(ncol(salida)-1)] <- c(t,beta_old,U)
  if(tol < epsilon) break
  Xw <- X*matrix(sqrt(mu),nrow(X),ncol(X))
  K <-  t(Xw)%*%Xw
  beta_new <- beta_old + solve(K)%*%U
  tol <- max(abs((beta_new - beta_old)/beta_old))    #funcion delta que establece el criterio de convergencia en el proceso
  beta_old <- beta_new
  salida[t+2,ncol(salida)] <- tol
}
print(salida[!is.na(salida[,2]),],na.print = "")

 t    beta1      beta2      beta3      beta4      U(beta)1      U(beta)2
 0 3.636800 -0.1761909 -0.2942874 -0.4985860  4.205289e+01  7.958771e+00
 1 3.693322 -0.2067940 -0.3220936 -0.5191305 -8.982168e-01 -9.997627e-02
 2 3.691964 -0.2059889 -0.3213209 -0.5184889 -4.837670e-04 -5.073176e-05
 3 3.691963 -0.2059884 -0.3213204 -0.5184885 -1.522054e-10 -1.919176e-11
 4 3.691963 -0.2059884 -0.3213204 -0.5184885 -3.552714e-14 -7.105427e-15
      U(beta)3      U(beta)4        delta
  6.908359e+00  8.402871e+00             
 -1.063661e-01 -1.384748e-01 1.736926e-01
 -4.998201e-05 -5.583474e-05 3.893134e-03
 -1.405809e-11 -1.329070e-11 2.147502e-06
  1.065814e-13 -1.172396e-13 6.339675e-13


Con respecto a la estimación del primer beta se tiene $\beta^{[1]} = \beta^{[0]} + J[\beta^{[0]}]^{-1}U[\beta^{[0]}] \;\;\;$, no obstante las columnas $U(beta)1$, $U(beta)2$, $U(beta)3$, $U(beta)4$ es el gradiente evaluado en el $\beta$ correspondiente, cabe destacar que el objetrivo es: **Al tener U($\beta$)= 0 se tiene pequeños cambios en las estimaciones de $\beta$ en conclusión $\beta^{[t+1]}=\beta^{[t]} $** se deternrá en tal caso el procedimiento. En el ejemplo son necesarios solamente 4 iteraciones cuando se cumple el criterio de convergencia especificado en el codigo. **Delta** es la función no negativa que compara los $\beta^{[t+1]}=\beta^{[t]} $ de las iteraciones

Para comparar, realizo glm:

In [51]:
fit <- glm(breaks ~ wool + tension, family = poisson(link="log"), data=warpbreaks) 
summary(fit)
coef(fit)
#En la funcion glm se puede modificar el numero de tolerancia y especificar el número de iretaciones mediante glm(, control)


Call:
glm(formula = breaks ~ wool + tension, family = poisson(link = "log"), 
    data = warpbreaks)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.6871  -1.6503  -0.4269   1.1902   4.2616  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.69196    0.04541  81.302  < 2e-16 ***
woolB       -0.20599    0.05157  -3.994 6.49e-05 ***
tensionM    -0.32132    0.06027  -5.332 9.73e-08 ***
tensionH    -0.51849    0.06396  -8.107 5.21e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 297.37  on 53  degrees of freedom
Residual deviance: 210.39  on 50  degrees of freedom
AIC: 493.06

Number of Fisher Scoring iterations: 4


Se puede ver que el numero de iteraciones en el scoring de fisher es 4. lo mismo que el procedimiento descrito, asi mismo la estimaciones de los parámetros son exactas a las especificadas en el código.

## Ejemplo Bernoulli

Un conjunto de datos simulados que contiene información sobre diez mil clientes. Es llamado **Default**

In [52]:
#####################################################################################################################
###################################################### Bernoulli ####################################################
#####################################################################################################################

library(ISLR)
data(Default)
fit <- glm(default ~ student + balance + income, family="binomial", data=Default)
X <- model.matrix(fit)
y <- as.numeric(Default$default)-1
yes <- log(abs(y-0.1)/(1 - abs(y-0.1)))
b0 <- solve(t(X)%*%X)%*%t(X)%*%yes

epsilon <- 0.0000000001
tol <- 1
iter <- 30
beta_old <- b0
b <- gsub(" ","",paste("beta",as.character(1:length(b0))))
u <- gsub(" ","",paste("U(beta)",as.character(1:length(b0))))
salida <- matrix(NA,iter+1,2*length(b0)+2)
colnames(salida) <- c("t",b,u,"delta")
rownames(salida) <- rep("",nrow(salida))
for(t in 0:iter){
     mu <- exp(X%*%beta_old)/(1 + exp(X%*%beta_old))
     U <- t(X)%*%(y-mu)
     salida[t+1,1:(ncol(salida)-1)] <- c(t,beta_old,U)
     if(tol < epsilon) break
     Xw <- X*matrix(sqrt(mu*(1-mu)),nrow(X),ncol(X))
     K <-  t(Xw)%*%Xw
     beta_new <- beta_old + solve(K)%*%U
     tol <- max(abs((beta_new - beta_old)/beta_old))
     beta_old <- beta_new
     salida[t+2,1:ncol(salida)] <- tol
}
print(salida[!is.na(salida[,2]),],na.print = "")
fit <- glm(default ~ student + balance + income, family="binomial", data=Default)
summary(fit)
coef(fit)

 t      beta1      beta2        beta3        beta4      U(beta)1      U(beta)2
 0  -2.553964 -0.0453951 0.0005830983 8.751667e-07 -8.368837e+02 -2.308846e+02
 1  -4.364250 -0.1303933 0.0016181177 2.332365e-06 -2.890197e+02 -7.730394e+01
 2  -6.481413 -0.2686569 0.0030116574 3.566512e-06 -1.240687e+02 -3.491946e+01
 3  -8.565415 -0.4373601 0.0043310472 3.620872e-06 -4.864910e+01 -1.453082e+01
 4 -10.138458 -0.5785662 0.0052969997 3.252553e-06 -1.342946e+01 -4.204264e+00
 5 -10.787351 -0.6390603 0.0056878504 3.058279e-06 -1.508081e+00 -4.868680e-01
 6 -10.867968 -0.6466731 0.0057358668 3.033781e-06 -2.082621e-02 -6.835144e-03
 7 -10.869045 -0.6467758 0.0057365052 3.033450e-06 -3.766851e-06 -1.246861e-06
 8 -10.869045 -0.6467758 0.0057365053 3.033450e-06 -2.700062e-13 -8.970602e-14
 9 -10.869045 -0.6467758 0.0057365053 3.033450e-06  2.042810e-13  6.483702e-14
      U(beta)3      U(beta)4        delta
 -5.353207e+05 -2.830501e+07             
 -1.563975e+05 -9.822362e+06 1.872410e+00
 -8.1


Call:
glm(formula = default ~ student + balance + income, family = "binomial", 
    data = Default)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.4691  -0.1418  -0.0557  -0.0203   3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01  4.923e-01 -22.080  < 2e-16 ***
studentYes  -6.468e-01  2.363e-01  -2.738  0.00619 ** 
balance      5.737e-03  2.319e-04  24.738  < 2e-16 ***
income       3.033e-06  8.203e-06   0.370  0.71152    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6  on 9999  degrees of freedom
Residual deviance: 1571.5  on 9996  degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8


## Ejemplo Poisson

Un conjunto de datos simulados que contiene información sobre diez mil clientes. Conjunto de datos que es llamado **warpbreaks**

In [53]:

#####################################################################################################################
###################################################### Poisson ######################################################
#####################################################################################################################

data(warpbreaks)
fit <- glm(breaks ~ wool + tension, family = poisson(link="log"), data=warpbreaks)
X <- model.matrix(fit)
yes <- log(ifelse(warpbreaks$breaks==0,0.1,y))
#b0 <- solve(t(X)%*%X)%*%t(X)%*%yes
V <- diag(yes)
b0 <- solve(t(X)%*%V%*%X)%*%t(X)%*%V%*%yes

epsilon <- 0.000000001
tol <- 1
iter <- 30
beta_old <- b0
b <- gsub(" ","",paste("beta",as.character(1:length(b0))))
u <- gsub(" ","",paste("U(beta)",as.character(1:length(b0))))
salida <- matrix(NA,iter+1,2*length(b0)+2)
colnames(salida) <- c("t",b,u,"delta")
rownames(salida) <- rep("",nrow(salida))
for(t in 0:iter){
     mu <- exp(X%*%beta_old)
     U <- t(X)%*%(y-mu)
     salida[t+1,1:(ncol(salida)-1)] <- c(t,beta_old,U)
     if(tol < epsilon) break
     Xw <- X*matrix(sqrt(mu),nrow(X),ncol(X))
     K <-  t(Xw)%*%Xw
     beta_new <- beta_old + solve(K)%*%U
     tol <- max(abs((beta_new - beta_old)/beta_old))
     beta_old <- beta_new
     salida[t+2,ncol(salida)] <- tol
}
print(salida[!is.na(salida[,2]),],na.print = "")
fit <- glm(breaks ~ wool + tension, family = poisson(link="log"), data=warpbreaks)
summary(fit)
coef(fit)

ERROR: Error in solve.default(t(X) %*% V %*% X): sistema es computacionalmente singular: número de condición recíproco = 0


## Ejemplo Gamma

El conjunto de datos tiene 200 filas y 5 columnas. Los sujetos eran hombres y mujeres que realizaban ejercicio regularmente. Hay algunos datos faltantes.. Conjunto de datos que es llamado **warpbreaks**

**NOTA** El algoritmo lo que hace es biuscar ceros en el vector gradiente.

# Algoritmo scoring de Fisher

In [1]:
#####################################################################################################################
######################################################## Gama #######################################################
#####################################################################################################################

#library(CASdatasets)
library(car)
data(Davis)
fit <- glm(repwt  ~ weight + sex + height, family=Gamma, data=Davis)
X <- model.matrix(fit)
y <- fit$y
b0 <- solve(t(X)%*%X)%*%t(X)%*%(1/y)

epsilon <- 0.0000000001
tol <- 1
iter <- 30
beta_old <- b0
b <- gsub(" ","",paste("beta",as.character(1:length(b0))))
u <- gsub(" ","",paste("U(beta)",as.character(1:length(b0))))
salida <- matrix(NA,iter+1,2*length(b0)+2)
colnames(salida) <- c("t",b,u,"delta")
rownames(salida) <- rep("",nrow(salida))
for(t in 0:iter){
     mu <- 1/(X%*%beta_old)
     U <- t(X)%*%(y-mu)
     salida[t+1,1:(ncol(salida)-1)] <- c(t,beta_old,U)
     if(tol < epsilon) break
     Xw <- X*matrix(sqrt(mu^2),nrow(X),ncol(X))
     K <-  t(Xw)%*%Xw
     beta_new <- beta_old - solve(K)%*%U
     tol <- max(abs((beta_new - beta_old)/beta_old))
     beta_old <- beta_new
     salida[t+2,1:ncol(salida)] <- tol
}
print(salida[!is.na(salida[,2]),],na.print = "")
fit <- glm(repwt  ~ weight + sex + height, family=Gamma, data=Davis)
summary(fit)
coef(fit)



Loading required package: carData


 t      beta1         beta2         beta3         beta4      U(beta)1
 0 0.04511081 -0.0001392190 -0.0003779692 -0.0001167892 -1.239956e+01
 1 0.04219535 -0.0001279321 -0.0005803408 -0.0001039265 -3.510622e+00
 2 0.04214907 -0.0001275907 -0.0005859674 -0.0001037573 -3.539485e-03
 3 0.04214901 -0.0001275902 -0.0005859743 -0.0001037572 -5.503985e-09
 4 0.04214901 -0.0001275902 -0.0005859743 -0.0001037572 -5.755396e-13
      U(beta)2      U(beta)3      U(beta)4        delta
 -3.506942e+03 -5.476393e+01 -3.715462e+03             
 -3.208712e+02 -2.917217e+00 -6.278386e+02 5.354181e-01
 -3.518534e-01 -3.197001e-03 -6.318923e-01 9.695390e-03
 -5.698058e-07 -4.803738e-09 -9.535402e-07 1.174952e-05
 -3.137757e-11 -9.166001e-13 -1.014087e-10 1.634405e-11



Call:
glm(formula = repwt ~ weight + sex + height, family = Gamma, 
    data = Davis)

Deviance Residuals: 
      Min         1Q     Median         3Q        Max  
-0.168375  -0.034415   0.001928   0.034984   0.172745  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.215e-02  1.150e-03  36.662  < 2e-16 ***
weight      -1.276e-04  4.624e-06 -27.594  < 2e-16 ***
sexM        -5.860e-04  1.996e-04  -2.936  0.00376 ** 
height      -1.038e-04  6.468e-06 -16.041  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for Gamma family taken to be 0.003313355)

    Null deviance: 7.42377  on 182  degrees of freedom
Residual deviance: 0.59648  on 179  degrees of freedom
  (17 observations deleted due to missingness)
AIC: 1005.4

Number of Fisher Scoring iterations: 4


## Estimación del parámetro de dispersión $\phi$ (CASO GAMMA)


Esta estimación solo tiene sentido en el caso de la gamma puesto que en las otras distribuciones es 1.


In [8]:
#ESTAS LINEAS ES PARA LLAMAR LAS FUNCIONES REALIZADAS POR EL DOCENTE hernando vanegas
setwd("C:\\Users\\YULY\\Desktop\\Desktop\\UNAL 2018\\MLGz\\MLG Vanegas") #busca por default en una carpeta en especifica todo.
source("macros.txt")#Lllamar el archivo de macros que está en la carpeta especifica,(son una fuciines especificas del profesor)

In [7]:
gof_glm(fit)


  Family:  Gamma 
    Link:  inverse 
                                                     Df     Value
Residual deviance                                   179    0.5965
Deviance-based estimate of dispersion parameter            0.0033
Pearson's statistic                                 179    0.5931
Pearson-based estimate of dispersion parameter             0.0033
Adjusted R-squared based on the residual deviance          0.9183
Adjusted R-squared based on the Pearson's statistic        0.9248
-2*log-Likelihood                                        995.4288
AIC                                                     1005.4288
BIC                                                     1021.4762




$$\hat{\phi}=\frac{P(y;\hat{\mu})}{n-p} = \frac{0.5931}{200-5} =0.003041538$$