# Estadística Descriptiva en R

Vamos a analizar conjuntos de datos entendiendo cómo se distribuyen y recordando (y obteniendo con R) algunos conceptos estadísticos básicos.

## Introducción
Además de obtener información gráfica de un conjunto de datos, debemos resumirlos de forma numérica. Para practicar, vamos a analizar un conjunto de datos sobre la incidencia de leucemia, linfoma y mieloma múltiple entre los sobrevivientes de la bomba atómica (1950-2001).

Los datos almacenados en el archivo `lsshempy .csv` de la carpeta `_data` se han obtenido (después de haber registrado nuestros nombres y afiliaciones) de:
https://www.rerf.or.jp/en/library/data-en/lsshempy/

Fuente: *HSU, Wan-Ling, et al. The incidence of leukemia, lymphoma and multiple myeloma among atomic bomb survivors: 1950–2001. Radiation research, 2013, vol. 179, no 3, p. 361-382*.

Procedemos a cargar los datos almacenándolos con el nombre `lsshempy` y, posteriormente, vemos las primeras filas de datos.

In [None]:
# Cargamos los datos del csv con el nombre lsshempy
lsshempy <- read.csv("_data/lsshempy.csv")
# Vemos cuántos datos tenemos
dim(lsshempy)
# Vemos las primeras filas
head(lsshempy)

Así, disponemos de 37 variables medidas para 38578 individuos (la fila inicial de cabecera se considera fila 0). En el siguiente enlace:
https://www.rerf.or.jp/uploads/2017/09/lsshempy_document.pdf
se puede ver la descripción de cada una de las variables. Recomendamos su lectura para saber el significado de las variables con las que vamos a trabajar. 

Así, el archivo csv podría haberse abierto con una hoja de cálculo (Excel® o LibreOffice) pero sería muy angorroso trabajar con tal cantidad de datos además de que el programa tendría serias dificultades para manejar tanta información. Es por eso que R es una herramienta muy adecuada para trabajar con tal volumen de datos.

En R, podemos obtener un listado completo de las variables y de qué tipo son con la instrucción `str`:

In [None]:
str(lsshempy)

### Medidas centrales

Para obtener la **moda** de una variable, podemos usar la instrucción *table* (en R no hay una función definida para la moda como sí la hay para la media y la mediana). Así, con el siguiente código, obtenemos la moda de la variable `sex` que es una variable que toma únicamente 2 valores (1 y 2).

In [None]:
# Hacemos una tabla que cuente los valores
table(lsshempy$sex)
# Localizamos el máximo de esos 2 valores (la moda)
max(table(lsshempy$sex))
# Obtenemos la moda de los valores de la variables (1 y 2)
which( max(table(lsshempy$sex)) == table(lsshempy$sex))

Es decir, vemos que el 2 (Femenino) aparece 19827 veces y el 1 (Masculino) aparece 18751 veces; por lo tanto, Femenino es la moda de la distribución. 

Vamos a explorar la variables `agxcat` (Age at exposure categories) and `mar_ag`(Person year weighted mean weighted adjusted truncated DS02 Bone Marrow Gamma). En este caso, se trata de variables continuas por lo que parece más adecuado trabajar con la **media**. Para obtenerla:

In [None]:
# Media de la variable agxcat
mean(lsshempy$agxcat)
# Media de la variable mar_ag
mean(lsshempy$mar_ag)

Si necesitamos calcular rápidamente la media dentro de los grupos (por ejemplo, las medias de los rayos gamma de la médula ósea persona-año en la ciudad 1 (Hiroshima) y 2 (Nagasaki)), podemos usar la función *tapply*:

In [None]:
tapply(lsshempy$mar_ag, lsshempy$city, mean)

Sin embargo, para la variable discreta *agxcat*, la media aritmética no es aconsejable. En este caso, es preferible la **mediana,** (que es 6).

In [None]:
median(lsshempy$agxcat)

### Medidas de dispersión
Las medidas de dispersion, es decir, la **desviación estándar** y la **varianza** de una variable numérica se pueden calcular fácilmente con:

In [None]:
# Desviación estándar
sd(lsshempy$mar_ag)
# Varianza
var(lsshempy$mar_ag)

Podemos añadir texto a los valores obtenidos de forma muy sencilla con la instrucción `print`incluyendo el valor numérico con `as.character`.

In [None]:
print(paste('La desviación estándar de la variable mar_ag es', 
            as.character(sd(lsshempy$mar_ag))))

Como hemos comentado, es conveniente visualizar los datos. En el caso de las variables `mar_ad10`, `mar_ag`y `mar_an` lo más conveniente es usar un histograma:

In [None]:
par(mfrow=c(3,1))
hist(lsshempy$mar_ad10)
hist(lsshempy$mar_ag)
hist(lsshempy$mar_an)

### Cuantiles y percentiles
Igual que la mediana nos divide los datos en 2 partes iguales, los cuantiles y percentiles dividen los datos de la distribución en función de otras cantidades. Así en primer cuantil es un valor que deja el 25% de los datos por debajo y el percentil 90 deja el 90% de los datos por debajo.
Ejecute el siguiente cógido e interprete el resultado para la variable `agxcat`.

In [None]:
median(lsshempy$agxcat)
quantile(lsshempy$agxcat, 0.50)
summary(lsshempy$agxcat)
quantile(lsshempy$agxcat, 0.25)
quantile(lsshempy$agxcat, 1)
quantile(lsshempy$agxcat, probs=c(0.05, 0.5, 0.8))

### Diagramas de cajas y bigotes
Esta forma de representar los datos utiliza los valores obtenidos anteriormente con la instrucción `summary(lsshempy$agxcat)`

|  Min.  |1st Qu.  |Median |Mean    |3rd Qu.  |Max.   |
|--------|---------|-------|--------|---------|-------|
| 1.000  | 3.000   | 6.000 |6.364   | 9.000   |15.000 |


In [None]:
# Diagrama de cajas y bigotes
boxplot(lsshempy$agxcat)

También podemos usar la librería `ggplot2` para obtener ese mismo diagrama de cajas y bigotes añadiendo etiquetas.

In [None]:
# Cargamos la librería ggplot2
library(ggplot2)
# Transformamos el vector agxcat en dataframe y lo llamamos df_agxcat
df_agxcat <- data.frame(lsshempy$agxcat)
# Generamos el gráfico
ggplot(df_agxcat, aes(x = 'agxcat', y=lsshempy$agxcat)) + geom_boxplot()


Podemos incluso representar estos diagramas de varias variables para comparar datos. En este caso, el siguiente código representa los *boxplot* de las variables `agxcat`, `agecat`y `dcat`.

In [None]:
ggplot(lsshempy) +
       geom_boxplot(aes(x = 'agxcat', y=agxcat))  +
       geom_boxplot(aes(x = 'agecat', y=agecat)) +
       geom_boxplot(aes(x = 'dcat', y=dcat)) +
       ggtitle('Distributions') + ylab('Value')

### Normalización de datos

Frecuentemente se deben ajustar los valores medidos en diferentes escalas respecto a una escala común, a menudo previamente a un proceso de realizar promedios. Este ajuste se conoce como **normalización**.
Existen varios tipos de normalizaciones en estadística. Vamos a comentar dos de ellos.

- **Normalización basada en la unidad (Max-Min)**: se define una nueva variable $X_1$ teniendo en cuenta los valores máximo y mínimo de los datos originales X. De este modo, se van a obtener datos normalizados entre 0 y 1. La nueva variable X1 se define por:

\begin{equation} X_1 = \frac{X-X_{Min}}{X_{Max}-X_{Min}}\end{equation}

- **Normalización residual**: en este caso, se define una nueva variable $X_1$ teniendo en cuenta la media y la desviación típica:

\begin{equation} X_1 = \frac{X-\overline{X}}{\sigma}\end{equation}

Cabe indicar que la media y la desviación típica pueden ser la de la población (en caso de ser conocida) o la de la muestra. Si los datos se distribuyen “normalmente”, la variable $X_1$ tiene media 0 y desviación típica 1.

Así, si representamos los diagramas de cajas y bigotes de las variables `gdist`, `agex` y `age`, vemos que tienen muy ditintas medidas:

In [None]:
ggplot(lsshempy) +
       geom_boxplot(aes(x = 'gdist', y=gdist))  +
       geom_boxplot(aes(x = 'agex', y=agex)) +
       geom_boxplot(aes(x = 'age', y=age)) +
       ggtitle('Distributions') + ylab('Value')

Así, vamos a normalizar los datos con la normalización basada en la unidad (Max - Min) para poder comparalos visualmente:

In [None]:
## Definimos la función MinMax
min_max = function(x) (x - min(x))/(max(x) - min(x))

## Creamos un data frame
df_min_max = lsshempy

## Aplicamos la función MinMax
df_min_max[,c('age','agex','gdist')] = lapply(lsshempy[,c('age','agex','gdist')], min_max)

## Representamos el resultado
ggplot(df_min_max) +
       geom_boxplot(aes(x = 'age', y = age))  +
       geom_boxplot(aes(x = 'agex', y = agex)) +
       geom_boxplot(aes(x = 'gdist', y = gdist)) +
       ggtitle('Distribuciones') + ylab('Valor normalizado Max-Min')

### Curtosis y asimetría

Vamos a representar los histogramas de las variables:
- `mar_ad10`: Person-year weighted mean weighted adjusted-truncated DS02 Bone Marrow dose.
- `mar_ag`: Person-year weighted mean weighted adjusted-truncated DS02 Bone Marrow Gamma.
- `mar_an`: Person-year weighted mean weighted adjusted-truncated DS02 Bone Marrow Neutron.

además de las curvas de densidad de las mismas (a la derecha de cada histograma).

In [None]:
par(mfrow=c(3,2))
hist(lsshempy$mar_ad10)
plot(density(lsshempy$mar_ad10))
hist(lsshempy$mar_ag)
plot(density(lsshempy$mar_ag))
hist(lsshempy$mar_an)
plot(density(lsshempy$mar_an))

Podemos observar que las 3 distribuciones de datos tienen un intervalo de datos con una frecuencia absoluta muy grande en comparación con los demás intervalos. Esto quiere decir que la **curtosis** (apuntamiento) debe ser muy grande y más pronunciada en la variable `mar_an`. Recordamos que si la curtosis es 0, se trata de una distribución mesocúrtica (como una distribución normal).

In [None]:
# Definimos la función kurtosis (momento de orden 4)
kurtosis=function(x) {
m4=mean((x-mean(x))^4) 
kurt=m4/(sd(x)^4)-3  
kurt}
# Llamamos a dicha función para las 3 variables
kurtosis(lsshempy$mar_ad10)
kurtosis(lsshempy$mar_ag)
kurtosis(lsshempy$mar_an)

Para el coeficiente de asimetría, vemos que, tanto las variables `mar_ad10` y `mar_ag` tienen una cola a la derecha (asimetría positiva) y la variable `mar_an` tiene un conjunto de valores a la izquierda que van a a hacer que la asimetría sea negativa.

In [None]:
# Definimos cómo calcular la asimetría (momento de orden 3)
skewness=function(x) {
m3=mean((x-mean(x))^3)
skew=m3/(sd(x)^3)
skew}
# Llamamos a dicha función para las 3 variables
skewness(lsshempy$mar_ad10)
skewness(lsshempy$mar_ag)
skewness(lsshempy$mar_an)

### Coeficiente de variación

Recordamos que este coeficiente (calculado como el cociente entre la desviación típica y la media) resulta muy útil para comparar variables con distintas medidas (medias). 
Así, los coeficientes de variación de las variables `agxcat` y `mar_ag` son:

In [None]:
# Definimos la función cv como el cociente entre sd y mean
cv=function(x) {
coef=sd(x)/mean(x)
coef}

# Llamamos a dicha función para las 3 variables
cv(lsshempy$mar_ad10)
cv(lsshempy$mar_ag)
cv(lsshempy$mar_an)