# Clase 7: Ajustando distribuciones a los datos - casos especiales

Prof. Tito Homem-de-Mello

In [None]:
#install.packages('fitdistrplus')
#install.packages('gglot2')
#install.packages('goft')

In [None]:
library(fitdistrplus)
library(ggplot2)
library(goft)

In [None]:
plottheme <- theme(plot.title = element_text(size = 20),
                  axis.title.y=element_text(size = 20),
                  axis.title.x=element_text(size = 20),
                  axis.text.y=element_text(size = 15),
                  axis.text.x=element_text(size = 15),
                  legend.title = element_blank(),
                  legend.text = element_text(size=15),
                  legend.position = "bottom")

## Miremos un ejemplo con datos de tiempos de fallas de equipamientos

In [None]:
data <- read.csv("fallas.csv")
head(data)

In [None]:
X <- data$Tiempos.entre.fallas

In [None]:
shift <- min(X)-0.001  #El 0.001 se agrega para que no hayan datos exactamente iguales a cero
X <- X-shift

In [None]:
bin <- 2
plotfig <- ggplot(data,aes(X)) + plottheme   

p <- plotfig+geom_histogram(aes(y = after_stat(count /(sum(count)))), binwidth=bin,color="black", fill="gray")+
       labs(x="tiempo",
            y="frecuencia",
            title=paste0("Histograma de los datos"))           
p 

In [None]:
descdist(X)

### Ajustemos algunas distribuciones teóricas

In [None]:

a_exp <- fitdist(X, "exp")
summary(a_exp)

a_gamma <- fitdist(X, "gamma")
summary(a_gamma)

a_lnorm <- fitdist(X, "lnorm")
summary(a_lnorm)

a_weib <- fitdist(X, "weibull")
summary(a_weib)

plot.legend <- c( "Weibull", "Gamma", "Lognormal","Exponential")
denscomp(list(a_gamma,a_lnorm,a_weib,a_exp), fitcol=c(2,4,6,1), fitlty=1, legendtext=plot.legend)

## Determinemos la bondad de ajuste para las 4 distribuciones

### Empecemos con el PP-Plot

In [None]:
ppcomp(list(a_lnorm,a_gamma,a_weib,a_exp))

### Grafiquemos el QQ-Plot

In [None]:
qqcomp(list(a_lnorm,a_gamma,a_weib,a_exp))


## Ahora veamos los tests estadísticos

In [None]:
gofval <- gofstat(list(a_lnorm,a_gamma,a_weib,a_exp),fitnames=c("lnorm","gamma","weib","exp"))
gofval

### Valores-$p$ para test chi-cuadrado

In [None]:
pvalue <- data.frame(Estadistica="Valor-p",  
                     Lognormal=gofval$chisqpvalue["lnorm"],Gamma=gofval$chisqpvalue["gamma"],
                     Weibull=gofval$chisqpvalue["weib"],
                     Exp=gofval$chisqpvalue["exp"])     
pvalue

In [None]:
ntest <- normal_test(X) #Use shapiro.test(X) si el nro. de datos no está entre 10 y 400
ltest <- lnorm_test(X)
gtest <- gamma_test(X)
wtest <- weibull_test(X)
etest <- exp_test(X)
pvalue<-data.frame(Estadistica="Valor-p",Normal=ntest$p.value,
                   Lognormal=ltest$p.value,Gamma=gtest$p.value,Weibull=wtest$p.value,
                   Exp=etest$p.value)     
pvalue

## Qué diferencias hay respecto al caso anterior? ¿Es más fácil elegir una distribución ahora?

## Tomemos la exponencial y la gamma

In [None]:
rate_exp <- a_exp$estimate[1]

shape_gamma <- a_gamma$estimate[1]
rate_gamma <- a_gamma$estimate[2]

## Generemos muestras de la distribución elegida

### Generador de la distribución

In [None]:
N <- 1000
Z <- shift+rexp(N,rate_exp)
#Z <- shift+rgamma(N,shape_gamma,rate_gamma)

bin <- 2
plotfig <- ggplot(as.data.frame(Z),aes(Z))+plottheme

p <- plotfig+geom_histogram(aes(y = after_stat(count /(sum(count)))), binwidth=bin,color="black", fill="gray")+
       labs(x="tiempo",
            y="frecuencia",
            title=paste0("Histograma de los datos simulados"))           
p 

In [None]:
X1 <- X+shift
bin <- 2
plotfig <- ggplot(as.data.frame(X1),aes(X1))+plottheme

p <- plotfig+geom_histogram(aes(y = after_stat(count /(sum(count)))), binwidth=bin,color="black", fill="gray")+
       labs(x="tiempo",
            y="frecuencia",
            title=paste0("Histograma de los datos originales"))           
p 

### Comparemos las distribuciones empíricas de los datos originales y los simulados

In [None]:
colors <- c("Simulada" = "red", "Datos" = "black")


plotfig+geom_function(fun=ecdf(X1), aes(color="Datos"))+
        geom_function(fun=ecdf(Z),  aes(color="Simulada"))+
        xlim(4,20)+
        labs(x="x",y="F_N(x)",
             title=paste0("Distribución empírica"),
             color="Legend")+
        scale_color_manual(values = colors)






