<a href="https://colab.research.google.com/github/MiguelITSON/Descriptivo/blob/main/24_08_2021_Variaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dispersión, variabilidad o heterogeneidad

Estudiar la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos. 

![tinystats.github.io](https://tinystats.github.io/teacups-giraffes-and-statistics/images/04_variance/giraffe_variance2.jpg)

***
> ¿Qué tan homogeneas son las exhalaciones del geyser Old Faithful?
***
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:

## Amplitud.
Es la medida de dispersión más fácil de obtener. Se obtiene hallando la diferencia entre la observación mayor y la menor (el valor máximo menos el valor mínimo). La amplitud es una medida muy influenciada por los valores extremos y por lo tanto puede dar una impresión falsa sobre los valores reales de la distribución.




In [6]:
# La amplitud del tiempo que tardan las exhalaciones y el  tiempo entre exhalaciones
max(faithful$eruptions) - min(faithful$eruptions)
max(faithful$waiting) - min(faithful$waiting)

#la funcion range proporciona el minimo y el maximo

range(faithful$eruptions)
range(faithful$waiting)


#diferencia

diff(range(faithful$eruptions))
diff(range(faithful$waiting))



Interpretación:

## Varianza.
Mide la distancia (cuadrada) existente entre los valores de la serie y la media. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. El símbolo para representar a la varianza muestral es
$s^2$ y para la varianza poblacional $\sigma^2$.

$$s^2=\frac{1}{n-1}{\sum_{i=1}^{n}\left(x_i-\bar{x}\right)^2}$$

$$\sigma^2=\frac{1}{N}{\sum_{i=1}^{N}\left(x_i-\mu\right)^2}$$

## Desviación estándar o típica.
Se calcula como raíz cuadrada de la varianza.

Nótese que ni la varianza ni la desviación estándar pueden ser negativas y son cero sólo cuando todos los datos tienen el mismo valor que no es otro que el valor de la media.


In [7]:
# La varianza de las exhalaciones y el tiempo entre exhalaciones
var(faithful$eruptions)
var(faithful$waiting)



Interpretación: los tiempo que tardan una exhalacion se alejan en promedio 1.3 seg^2 de 3.49 seg


In [8]:
#desviacion estandar de la muestra
sd(faithful$eruptions)
sd(faithful$waiting)



Los tiempo que tardan las exhalaciones se alejan 1.14 seg de 3.49 seg

* Se puede usar a la amplitud para estimar a la desviación estándar ([Range Rule for Standard Deviation](https://scholar.rose-hulman.edu/cgi/viewcontent.cgi?article=1211&context=rhumj)).

* [Estimación de la media y de la desviación estándar a partir de la amplitud](https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/1471-2288-14-135)

* [Use of the Range Instead of the Standard Deviation](https://www.jstor.org/stable/2281203).

In [None]:
# Aproximaciones de la desviación estándar
# estimación de la desviación estándar


In [10]:
diff(range(faithful$eruptions))/4
diff(range(faithful$waiting))/4

In [11]:
#aproximación de la desviación estandar de la amplitud de los datos de la glucosa
glucosa <- read.csv('glucosa.csv')

diff(range(glucosa$glucosamgpordL))/4
diff(range(glucosa$glucosamgpordL))/6

sd(glucosa$glucosamgpordL)




# La [regla empirica](https://online.stat.psu.edu/stat200/lesson/2/2.2/2.2.7)
<center>

![](https://upload.wikimedia.org/wikipedia/commons/thumb/2/22/Empirical_rule_histogram.svg/553px-Empirical_rule_histogram.svg.png)

</center>

In [None]:
# Regla empirica

mean(faithful$eruptions)-3*sd(faithful$eruptions)
mean(faithful$eruptions)+3*sd(faithful$eruptions)

range(faithful$eruptions)

mas del 99% de las exhalaciones tienen tiempos de duración entre 0.06 seg y 6.9 seg

In [15]:
empirico <- faithful[faithful$eruptions >= 0.06 & faithful$eruptions <= 6.9,]

# otra forma
ecdf(faithful$eruptions)(0.063)
ecdf(faithful$eruptions)(6.9)

In [18]:
#sin generar un dataframe
faithful$eruptions >= 0.06 & faithful$eruptions <= 6.9
sum(faithful$eruptions >= 0.06 & faithful$eruptions <= 6.9
)/272


## Amplitud intercuartil

Es una medida resistente de variación,puesto que elimina al 25% de datos más pequeños y al 25% de los datos mas grandes mide la amplitud del 50% de los datos centrales. 

$$AIC=P_{0.75}-P_{0.25}$$

## Desviación absoluta de la mediana

Es la mediana de las desviaciónes absolutas de cada valor respecto a la mediana.



In [21]:
#amplitud intercuartil

abs(diff(quantile(faithful$eruptions,c(0.75,0.25))))

In [25]:

#desviación absoluta de la mediana
median((abs(faithful$eruptions-median(faithful$eruptions))))

median((abs(faithful$waiting-median(faithful$waiting))))

#desv de cada dato de la mediana
median(abs(faithful$eruptions - median(faithful$eruptions)))

In [None]:
# comparación de las medidas de variación
x = c(2, 4 ,8 ,9 ,11, 11, 12)

median((abs(x-median(x))))
var(x)
sd(x)
diff(quantile(x,c(.25,.75),type = 2))

y =c(2, 4, 8, 9, 11, 11, 120) 

median((abs(y-median(y))))
var(y)
sd(y)
diff(quantile(y,c(.25,.75),type = 2))


## Compartir Notebooks a través de GitHub

[GitHub](github.com) es una plataforma de desarrollo colaborativo para alojar proyectos utilizando el sistema de control de versiones Git. Se utiliza principalmente para la creación de código fuente de programas de ordenador. 

En nuestro caso lo usaremos como un repositorio que nos permitirá compartir nuestras Notebooks con código de R y para crear una página web personal.

[texto del vínculo](https://)Suponga que requiere compartir esta Notebook a través de GitHub.

1. Iniciar sesión en GitHub

![](https://github.com/mucioosorio/Diplomado-con-R.-Mayo-de-2021/blob/main/git1.JPG?raw=true)


3. Escribir el nombre del repositorio y seleccionar si el repositorio será publico o privado (opcionalmente agregar el README file). Luego oprimir el botón de crear repositorio.

![](https://github.com/mucioosorio/Diplomado-con-R.-Mayo-de-2021/blob/main/git3.JPG?raw=true)

Ejemplo de un repositorio público:

https://github.com/demar01/penguinsbox

5. Compartir la Notebook

Seleccionr en el menú principal la opción **Archivo** y luego **Guardar una copia en GitHub**

![](https://github.com/mucioosorio/Diplomado-con-R.-Mayo-de-2021/blob/main/git5.JPG?raw=true)