# Clase 6: Ajustando distribuciones a los datos, incluyendo bondad de ajuste

# Prof. Tito Homem-de-Mello

In [None]:
#install.packages('fitdistrplus')

In [None]:
library(fitdistrplus)

## Miremos un ejemplo con datos de ventas de diarios

In [None]:
data <- read.csv("diarios.csv")
head(data)

In [None]:
X <- data$Nro_diarios

In [None]:
hist(X)

In [None]:
descdist(X)

### Ajustemos algunas distribuciones teóricas

In [None]:
a_norm <- fitdist(X, "norm")
summary(a_norm)

a_weib <- fitdist(X, "weibull")
summary(a_weib)

a_gamma <- fitdist(X, "gamma")
summary(a_gamma)

a_lnorm <- fitdist(X, "lnorm")
summary(a_lnorm)

plot.legend <- c("Normal", "Weibull", "Gamma", "Lognormal")
denscomp(list(a_norm,a_weib,a_gamma,a_lnorm), fitcol=c(2,4,6,1), fitlty=1, legendtext=plot.legend)

## Determinemos la bondad de ajuste para las 4 distribuciones

### Empecemos con el PP-Plot

In [None]:
ppcomp(a_norm)

In [None]:
ppcomp(a_lnorm)

In [None]:
ppcomp(a_gamma)

In [None]:
ppcomp(a_weib)

### Grafiquemos el QQ-Plot

In [None]:
qqcomp(a_norm)

In [None]:
qqcomp(a_lnorm)

In [None]:
qqcomp(a_gamma)

In [None]:
qqcomp(a_weib)

## Ahora veamos los tests estadísticos

In [None]:
gofval <- gofstat(list(a_norm,a_lnorm,a_gamma,a_weib),fitnames=c("norm","lnorm", "gamma", "weib"))
gofval

### Valores-$p$ para test chi-cuadrado

In [None]:
pvalue <- data.frame(Estadistica="Valor-p",Normal=gofval$chisqpvalue["norm"],
                     Lognormal=gofval$chisqpvalue["lnorm"],Gamma=gofval$chisqpvalue["gamma"],
                     Weibull=gofval$chisqpvalue["weib"])     
pvalue

### No es sencillo calcular los valores-$p$ para los otros tests. Sin embargo, podemos acceder a los tests implementados en la librería "goft", descritos en https://www.rdocumentation.org/packages/goft/versions/1.3.6

#### E. González-Estrada & J. A. Villaseñor (2018) An R package for testing goodness of fit: goft, Journal of Statistical Computation and Simulation, 88:4, 726-751, DOI: 10.1080/00949655.2017.1404604

In [None]:
install.packages('sn')
install.packages('goft')

library(goft)

In [None]:
ntest <- shapiro.test(X) #normal_test(X) #Use shapiro.test(X) si el nro. de datos no está entre 10 y 400
ltest <- lnorm_test(X)
gtest <- gamma_test(X)
wtest <- weibull_test(X)

In [None]:
pvalue<-data.frame(Estadistica="Valor-p",Normal=ntest$p.value,
                   Lognormal=ltest$p.value,Gamma=gtest$p.value,Weibull=wtest$p.value)     
pvalue

## Generemos muestras de la distribución elegida

### Parametros de la LogNormal

In [None]:
meanlog <- a_lnorm$estimate[1]
sdlog <- a_lnorm$estimate[2]
length(X)

### Generador de la distribución

In [None]:
Z <- rlnorm(1000,meanlog,sdlog)
hist(Z)

### Comparemos las distribuciones empíricas de los datos originales y los simulados

In [None]:
hist(X)

In [None]:
leg<-c("Datos","Simulada")
color=c(2,4)
eX<-ecdf(X)
eZ<-ecdf(Z)

plot(eX, ylab="Fn(x)", main="Distribución empirica",col=color[1], verticals = TRUE,do.points=FALSE,xlim=c(min(X),max(X)))
legend(0.75*max(X),0.1, leg[1], col=color[1], lty=1)

par(new=T)
plot(eZ, ylab="Fn(x)", main="Distribución empirica",col=color[2],verticals = TRUE,do.points=FALSE,xlim=c(min(X),max(X)))
legend(0.75*max(X),0.3, leg[2],  col=color[2], lty=1)


## NOTA: Hay que tener cuidado al utilizar los tests de bondad de ajuste. 

## Veamos por ejemplo el archivo de vinos visto en la clase pasada:

### Antes de correr el ejemplo, utilice la opción "Restart kernel & clear output" para limpar el workspace

In [None]:
data <- read.csv("winequality-red.csv")
head(data)

In [None]:
X <- data$'fixed.acidity'

library(fitdistrplus)

### Volver al inicio del notebook, a partir del histograma de X