<div style="text-align: center; font-size: 30px;">
Prácticas de Estadística<br/>
</div>
<div style="text-align: center; font-size: 30px;">
Estadística descriptiva
</div>
<div style="text-align: center; font-size: 16px; font-style: italic">
Material elaborado por M. Dolores Frías, Jesús Fernández y Carmen M. Sordo profesores del Departamento de Matemática Aplicada y Ciencias de la Computación de la Universidad de Cantabria.
</div>

# Objetivos

La aplicación de un análisis estadístico desriptivo a un conjunto de datos es a
menudo un primer paso a realizar antes de considerar otros métodos más
complejos ya que permite resumir información de los datos además de descubrir
posibles regularidades y singularidades de los mismos. 

En esta práctica aprenderemos como realizar una análisis descriptivo de unos
datos con R. Para ello calcularemos ciertas medidas estadísticas vistas en
clase, resumiremos los datos en tablas de frecuencias y procederemos a
representar algunos de los tipos de gráficos más comunes. Debemos recordar que
la metodología aplicada será diferente dependiendo de la naturaleza de los
datos objeto del estudio: cualitativo, ordinal, discreto o continuo. 

Tener en cuenta que R es solo una herramienta que nos permite explorar
diferentes muestras de datos, por lo que para utilizarla debidamente debemos
conocer que métodos estadísticos debemos aplicar en cada caso y tener la
capacidad para analizar e interpretar los resultados obtenidos. 

En esta práctica solo consideraremos el análisis de una única variable.


# Tablas de frecuencia

Las tablas son una herramienta muy usada para obtener información resumida de
un conjunto de datos, ya que muestran la frecuencia de cada posible valor (o
categoría) que puede tomar la variable. La tabla completa de frecuencias
incluye información sobre frecuencia absoluta, frecuencia relativa, frecuencia
absoluta acumulada y frecuencia relativa acumulada. Recordemos que las tablas
se construyen de forma diferente según la naturaleza de la variable ya que si
esta es continua o discreta con muchos valores posibles, entonces es necesario
clasificar los datos en intervalos. Veamos como obtener tablas de frecuencia en
cada caso con R.

Para comenzar cargaremos el fichero *Pulsaciones.rda* disponible en la
página web de la asignatura, con el que trabajaremos en esta práctica. Este
fichero contiene registros de 92 personas de diferentes variables (visualizar
el contenido, `head(Pulsaciones)`). A una parte de los individuos de esta
muestra se les pide que corran durante un tiempo y a otros no. La primera
columna (Pulso1) contiene datos del pulso de cada individuo al inicio de la
prueba, la columna 2 (Pulso2) recoge el pulso de los individuos al finalizar la
prueba. La columna 3 (Correr) indica si el individuo es del grupo de los que
corrieron en la prueba o no. La columna 4 (Fumar) recoge si fuma o no fuma, la
columna 5 (Sexo) indica si es hombre o mujer. Las columnas 6 (Altura) y 7
(Peso) recogen los datos de la altura (cm) y el peso (Kg) respectivamente. Por
último la columna 8 (Actividad) indica que tipo de actividad física realiza
el individuo normalmente en su vida diaria: nula, baja, media o alta. 

Como siempre primero establecer vuestro directorio de trabajo con la orden `setwd`. Por ejemplo si en nuestro ordenador hemos creado la carpeta *C:/Escritorio/Estadistica/P1* donde hemos descargado los ficheros de datos necesarios para esta práctica, entonces desde RStudio al comienzo del programa debemos escribir y ejecutar la orden: 
```R
setwd("C:/Escritorio/Estadistica/P1")

```

In [None]:
# Establecemos el directorio donde tenemos los ficheros de datos en GitHub
setwd("data/") 
# Cargamos los datos del fichero
load("Pulsaciones.rda") 
str(Pulsaciones)
attach(Pulsaciones)

Como vemos el fichero contiene variables de diferente naturaleza como
así nos lo muestra la orden `str(Pulsaciones)`. Recordar que el comando
`attach` permite tomar las columnas de un data frame como vectores y así aplicar cualquier
comando haciendo referencia directamente al nombre de la variable guardada en
el data frame. Por ejemplo ahora podemos ejecutar `length(Altura)` en lugar de escribir `length(Pulsaciones$Altura)`. 

Las tablas de frecuencias para variables cualitativas, semi-cuantitativas
(factores) o discretas con pocos valores posibles se pueden obtener
directamente aplicando la función `table` a la variable, resultando una
tabla donde aparezcen los posibles valores que toma la variable y las
frecuencias absolutas en cada caso. Aplicaremos esta función a la variable
*Actividad* de la forma:

In [None]:
table(Actividad)

Podemos obtener el resto de frecuencias de la tabla de frecuencias de la forma: 


In [None]:
xi <- levels(Actividad) # Categorias
ni <- as.vector(table(Actividad)) # Frecuencia absoluta
Ni <- cumsum(ni) # Frecuencia absoluta acumulada
fi <- ni/sum(ni) # Frecuencia relativa
Fi <- cumsum(fi) # Frecuencia relativa acumulada
# Mostramos los datos con formato creando un data frame
data.frame(xi=xi, ni=ni, Ni=Ni, fi=fi, Fi=Fi) # Muestra la tabla completa

La orden `as.vector` utilizada en el código anterior, nos permite
seleccionar únicamente las frecuencias absolutas de la salida de `table`,
que guardamos en la variable `ni` que denota la frecuencia absoluta. Notar
también que podemos usar la función `levels`, para sacar las categorías
de la variable *Actividad* por ser una variable semi-cuantitativa
definida en R como factor (ejectuar `class(Actividad)`).

Una vez que tengamos la tabla completa es importante analizar los resultados ya
que contiene mucha información sobre la muestra. Por ejemplo, en este caso
vemos que la mayoría de los individuos de la muestra realizó una actividad
física moderada (66%) o que solo la actividad es baja para 9 personas, un 10%
de la muestra. 

La función `table` también puede aplicarse a variables cuantitativas, devolviendo también los valores de la frecuencia absoluta para cada uno de los valores de la variable. Por ejemplo: 


In [None]:
ni <- as.vector(table(Pulso1))
xi <- sort(unique(Pulso1)) # ordena los posibles valores de la variable
Ni <- cumsum(ni)
fi <- ni/sum(ni)
Fi <- cumsum(fi)
# Mostramos los datos con formato creando un data frame
data.frame(xi=xi, ni=ni, Ni=Ni, fi=fi, Fi=Fi)

Genera la tabla de frecuencias de la variable *Pulso1*, en la
que se observa como la información de esta variable no está resumida de
forma adecuada ya que hay muchos valores con frecuencias absolutas muy bajas
(1 o 2 individuos con ese pulso). Como ya sabemos, si los datos son continuos o
si son discretos con muchos valores diferentes (como en el caso de
*Pulso1*), habrá que agruparlos por clases. Para ello podemos utilizar
la funcion `cut`, que agrupa los datos en intervalos, pudiendo indicar
nosotros mismos cuáles son las clases que queremos crear, como en el código
que se muestra a continuación:

In [None]:
n <- length(Pulso1) # Tamaño de la muestra
# Criterio de Sturges. La función floor redondea hacia abajo el valor.
nclase <- floor(3/2+log(n)/log(2)) 
# Rango de la variable
range(Pulso1) 

In [None]:
# Se crean los intervalos 
cortes <- seq(44, 105, 7)
# Clasificacion de los datos.
datos_class <- cut(Pulso1, cortes); datos_class
# Frecuencia absoluta
ni <- as.vector(table(datos_class))

Observa la salida de *datos_class* ya que corresponde a los datos clasificados en los intervalos es decir, a cada valor de *Pulso1* se le ha asignado uno de los intervalos definidos.

A partir del vector *ni* se puede calcular el resto de frecuencias para completar la tabla de frecuencias utilizando los siguientes comandos:

In [None]:
# Limites y marcas de clase
intervalos <- levels(datos_class)
xi <- cortes[1:nclase]+diff(cortes)/2
# Frecuencia absoluta acumulada
Ni <- cumsum(ni)
# Frecuencia relativa
fi <- ni / sum(ni)
# Frecuencia relativa acumulada
Fi <- cumsum(fi)
# Mostramos los datos con formato creando un data frame
data.frame("(Li-1,Li]"=intervalos,xi,ni,Ni,fi,Fi, check.names=FALSE)

Por defecto la función `cut` cierra los intervalos por la derecha, (ver la
variable `datos_class`). Esta función tiene un argumento que permite
cambiar esta opción como podéis comprobar consultado la ayuda de la función. 

Podemos presentar mejor los resultados de la tabla, redondeandor los valores de $f_i$ y $F_i$ a dos decimales con la función `round` de la forma: 

In [None]:
data.frame("(Li-1,Li]"=intervalos,xi,ni,Ni,fi=round(fi,2),Fi=round(Fi,2), check.names=FALSE)

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

Utilizando los datos del fichero *Pulsaciones.rda*, responde a las siguientes preguntas:
1. Calcular la frecuencia absoluta de las mujeres.
2. Obtener el porcentaje de fumadores
3. Calcular el porcentaje de mujeres que son fumadoras.
4. Determinar la frecuencia relativa de las personas que miden menos de 183 cm.
5. Determinar la frecuencia relativa de las personas que son mujeres.
6. Determinar la frecuencia relativa de las personas que son varones y su práctica deportiva habitual es baja.
7. Determinar la frecuencia relativa de las personas que son varones y fuman.
8. De entre las mujeres, determinar la frecuencia relativa de las que miden menos de 170 cm.
9. Determinar la frecuencia relativa de las personas cuyo pulso en reposo (\textsf{Pulso1}) es superior a 84.
10. Determinar la frecuencia relativa de las personas cuyo pulso es superior a 84 y cuya práctica deportiva habitual no es alta.
11. Determinar la frecuencia relativa de las personas tales que su pulso es superior de 84, fuman y son mujer.
12. De entre los  personas que fuman,  determinar la frecuencia relativa de los que registran el *Pulso1 superior a 84.
</div>

# Estadísticos

Son diferentes las funciones que nos permiten resumir información de un
conjunto de datos y cada una de ellas informa sobre un aspecto diferente de los
datos en un único valor. 

En esta práctica aprenderemos a calcular diferentes estadísticos con R
aplicados a una sola variable. Para ello seguiremos trabajando con los datos
del fichero *Pulsaciones.rda.

El comando `summary` muestra un breve análisis descriptivo para cada una de
las variables contenidas en este data frame. Cabe destacar que en el caso de
variables cuantitativas se indican los valores correspondientes al máximo,
mínimo, cuartiles y media mientras que para variables cualitativas (que en R se
denominan factores), se da la frecuencia absoluta de las categorías en las
que se clasifica esa variable (y la de los valores ausentes, si hay alguno).

In [None]:
summary(Pulsaciones)

Si hay más de diez variables en el conjunto de datos, R pide confirmación, pues
la abundante información puede resultar difícil de visualizar por pantalla.

También podemos seleccionar individuos de la muestra que cumplen una
determinada condición. Por ejemplo en este caso se calculan los
estadísticos básicos de la variable Altura para aquellas personas que
fuman:

In [None]:
summary(Altura) # Estadistica básica de la variable Altura
AltFum <- Altura[Fumar=="fuma"]
summary(AltFum) # Estadistica básica de la variable Altura de los individuos que fuman

Vamos a indicar las funciones que calculan los estadísticos más
importantes. Como sabemos estos se dividen en 4 grandes grupos: estadísticos de
localización, de dispersión, de posición y de forma.

## Estadísticos de localización

Los estadísticos de localización o de tendencia central proporcionan información sobre la tendencia central o el valor alrededor del cual se agrupan los datos. Los más importantes son la media, la mediana y la moda. 

### Media
La media aritmética se calcula con la orden `mean`:

In [None]:
mean(Altura, na.rm=TRUE)

El argumento `na.rm=TRUE` es opcional y se utiliza para indicar que hay
datos ausentes que no deben ser considerados al calcular ese estadístico. Esta
opción está disponible en otras muchas funciones de R.  

Calcular la media del vector `c(2,2,2,NA)` considerando la opción
`na.rm=TRUE` y sin considerarla para ver la diferencia en el resultado. El
valor `NA` significa *Not Available*, es decir que no hay dato
registrado para ese caso. En algunos casos podemos encontrar en un conjunto de
datos el valor `NaN` cuyo significado es *Not a Number*. El valor
`NaN` surge de realizar operaciones del tipo 0/0. La opción
`na.rm=TRUE` excluye del cálculo de la media ambos casos. 

### Mediana 

En este caso se puede calcular con dos funciones: la función `quantile` indicando el orden del cuantil (0.5 en este caso) o bien con la orden `median`:

In [None]:
quantile(Altura, c(0.5))
median(Altura)

### Moda

No hay una función específica en R para calcular la moda de un conjunto de datos pero podemos crear nuestra propia función. Esta función debe tener como entrada el vector de datos y como salida el valor de la moda o modas si es que hay más de una. Un ejemplo de función podría ser: 

In [None]:
compute.mode <- function(x) {
  return(as.numeric(names(which(table(x)==max(table(x))))))
}

Comprobamos el uso de esta función para la variable *Pulso1:

In [None]:
compute.mode(Pulso1)

## Estadísticos de dispersión

Este grupo de estadísticos proporcionan información sobre la dispersión de los datos.  

### Cuasi-varianza y cuasi-desviación típica 

Conviene resaltar que las funciones `var` y `sd` de R calculan la cuasi-varianza y cuasi-desviación típica respectivamente, es decir, lo que calculan exactamente es el resultado de las fórmulas:

<div><img alt="" src="./figuras/formula_cuasivar_cuasdesv.png" width="400"/></div>

La varianza y la desviación típica se pueden calcular a partir de esos resultados sin más que recordar que
<div><img alt="" src="./figuras/formula_var.png" width="150"/></div>

Crear unas funciones que calculen la varianza y la desviación típica.

### Rango o Amplitud

Es la diferencia entre el máximo y el mínimo. En R es necesario combinar dos órdenes:

In [None]:
diff(range(Altura))

Si esta función se va a utilizar varias veces, es mejor definir una función que haga este cálculo, la cual podemos llamar por ejemplo `amplitud`:

In [None]:
amplitud <- function(x){diff(range(x))}
amplitud(Altura)

### Rango intercuartílico 

Cuantifica la dispersión del 50\% de los datos centrales una vez ordenados de menor a mayor. Para calcular este estdístico utilizamos la orden `IQR`:

In [None]:
IQR(Altura)

### Coeficiente de variación

Tampoco existe una función en el paquete básico de R para calcular este estadístico pero podemos definir la función `CV`, bien en la forma más simple, dividiendo la cuasi-desviación típica entre la media: 

In [None]:
CV <- function(x) {sd(x)/mean(x)}
CV(Altura)

o bien para obtener un valor numérico incluso en datos con valores ausentes,

In [None]:
CV <- function(x) {sd(x, na.rm=TRUE) / mean(x, na.rm=TRUE)}
CV(Altura)

## Estadísticos de posición

Estas medidas indican el valor de la variable que ocupa una determinada posición en una distribución ordenada de menor a mayor. 

### Máximo y mínimo: 

En R se calculan con las funciones `max` y `min`. 

In [None]:
max(Altura)
min(Altura)
range(Altura) #Muestra los dos valores con un único comando. 

### Cuantiles

Como ya mencionamos es posible calcular cualquier cuantil con la orden `quantile`.

In [None]:
quantile(Altura, c(0.25,0.5,0.75)) # Cuartiles

In [None]:
quantile(Altura, c(1/3,2/3)) # Terciles

Consultar la ayuda de la función `quantile` ya que tiene implementados 9 algoritmos para calcular cuantiles según el valor de la opción `type`. 

## Estadísticos de forma

### Asimetría y curtosis 

En el paquete básico de R no existen funciones para calcular la asimetría ni la curtosis. Podemos instalar el paquete `moments` que si tiene esas funciones (`kurtosis`, `skewness`), o bien programar nosotros mismos una función para calcular cada uno de estos estadísticos de acuerdo a la formulación vista en clase.

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

- Crea las funciones *curtosis* y *asim* que calculen la curtosis y la asimetría respectivamente. 


- Contesta a las siguientes preguntas utilizando la muestra de datos del fichero *Pulsaciones.rda*:
  1. Rango interquartílico del Peso
  2. Varianza del Peso
  3. ¿Es la distribución del Peso simétrica?
  4. ¿Cuántos hombres hay en la muestra?
  5.  ¿Es la distribución del Peso platicúrtica, mesocúrtica o leptocúrtica?
  6.  ¿Cuál de las dos variables, Peso o Altura, presenta mayor dispersión?
  7.  Calcula la kurtosis de la variable Peso de las personas que no fuman
  8.  Calcula la cuasi-desviación típica de la Altura de las mujeres

     
<br>

- A lo largo de un año, los importes de las facturas mensuales de
vuestro móvil han sido:

     23, 33, 25, 45, 10, 28, 39, 27, 15, 38, 34, 29
 
    1. ¿Cuanto habéis gastado en total en el año?
    2. ¿Cuál ha sido el gasto mínimo?,
    4. ¿y el máximo?
    5. ¿Qué meses han supuesto un gasto menor que el gasto medio?
    6. Existe mucha dispersión de unos meses a otros? ?`Cómo estimas esa dispersión?
           
<br>

- El fichero de datos *santander.txt* contiene los datos de temperatura media mensual medida en Santander desde 1950 hasta 2003. Se pide:
    1. Calcule la mediana, media y desviación estándar de las temperaturas medias mensuales en enero y julio entre los años 1950 y 1980.
    2.  Determine los coeficientes de asimetría y curtosis de las temperaturas medias mensuales de junio, julio y agosto entre los a\~nos 1950 y 1980. ¿En que caso la serie presenta mayor asimetría?
</div>

# Representaciones gráficas unidimensionales

Las representaciones gráficas permiten captar rápidamente y sin gran esfuerzo las principales características de una distribución de frecuencias. Son un medio complementario, aunque muy importante, para realizar un análisis
estadístico descriptivo de una muestra de datos.

Describimos aquí sólo aquellos gráficos de interés en nuestro curso.

## Gráfico de sectores

El gráfico de sectores es recomendable para variables variables cualitativas. Este tipo de representación muestra tamaños relativos para las categorías de la variable. En algunos casos, donde las categorías tienen frecuencias similares, esta no es la mejor manera de mostrar la información ya que al ojo le cuesta diferenciar áreas relativas. La orden en R para dibujar un gráfico de sectores es:

In [None]:
pie(table(Fumar), main="Fumar")

En este caso con solo dos categorías, el gráfico muestra claramente que el número de no fumadores es mucho superior al número de fumadores. Como se muestra a continuación, el diagrama de barras es una forma preferible de mostrar este tipo de datos ya que el ojo funciona mejor discriminando medidas lineales que tamaños relativos. 

Es posible mejorar la apariencia de este tipo de gráfico con una serie de parámetros adicionales de la función `pie`. Algunos de las posibilidades son `main` para añadir un título, `col` para definir colores, etc. Consulta la ayuda de esta función para más detalles. 

In [None]:
pie(table(Fumar), labels=c(paste("No (",table(Fumar)[1],"%)"), 
                           paste("Si (",table(Fumar)[2],"%)")),
                  main="Consumo de tabaco") 

## Gráfico de barras

El diagrama de barras es una herramienta que nos permite visualizar la distribución de variables cualitativas, semi-cuantitativas o discretas con un número pequeño de valores posibles. El comando para representar este tipo de gráficos es `barplot`. 

In [None]:
barplot(table(Fumar))

En este caso hemos representado la frecuencia absoluta, pero también es posible representar la frecuencia relativa.

También en este tipo de gráfico es posible optimizar su apariencia agregando más argumentos a la función. Algunas de las opciones más frecuentes son: `main` para añadir título al gráfico, `xlab` y `ylab` para proporcionar etiquetas a los ejes, `xlim` y `ylim` para especificar un rango de valores a los ejes, `col` para definir el color de las barras, etc. Echar un vistazo a la ayuda de la función para ver
todas las posibilidades.

In [None]:
barplot(table(Fumar), ylab="ni", ylim=c(0,70), main="Consumo de tabaco")

Si comparamos el diagrama de barras obtenido con el gráfico de sectores anterior vemos como para el ojo es mucho más fácil obtener la frecuencia para cada categoría (fumadores y no fumadores) en el gráfico de barras que en el de sectores.

Veamos otro ejemplo en este caso para la variable ordinal *Actividad*:

In [None]:
barplot(table(Actividad), xlab="Actividad", ylab="ni")   

Observamos que el orden de las categorías que se respresentan en este gráfico no es el correcto ya que esta es una variable ordinal (clasificada como factor en R) por lo que deberían ir de menor a mayor actividad. Esto es debido a que R por defecto coloca por orden alfabético las categorías de las variables
ordinales (ejecutar `levels(Actividad)` para verlo) y este es el orden en el que van a aparecer en cualquier cálculo con esta variable. De hecho ya aparecía ese orden en la tabla de frecuencias que obtuvimos para esta misma variable en la Sección Tablas de frecuencia (`table(Actividad)). 

Para representar los datos en el orden correcto en el diagrama de barras o bien obtener la tabla de frecuencias con las categorias bien ordenadas debemos modificar en la propia variable el orden con el que estas categorías se guardan en su argumento `levels`. Podemos definir una variable con las categorías ordenadas de la forma: 

In [None]:
actividad.order <- ordered(Actividad, levels=c( "baja", "media", "alta"))
levels(actividad.order) 

Vemos que en la nueva variable las categorías si están bien ordenadas, de menos a más actividad física, luego repetimos el gráfico para esa variable que acabamos de definir. 

In [None]:
barplot(table(actividad.order), ylab="ni", xlab="Actividad") 

## Histograma

El histograma es una representación visual de la distribución de frecuencias de una muestra, que permite diferenciar en torno a que valores se agrupa una cantidad relativamente grande de los datos y donde se localizan un menor grupo de datos. Este tipo de gráficos se utiliza para representar la distribución de variables cuantitativas agrupadas en intervalos de clase lo que explica que las barras estén pegadas unas a otras. La forma de mostrar los datos de una muestra en un histograma con R es a través de la función `hist`. 

In [None]:
hist(Altura)

Esta función admite diferentes argumentos para optimizar el histograma. Por ejemplo, es posible definir nosotros mismos los intervalos o clases del histograma o bien elegir uno de
los posibles métodos para determinar el número de clases, entre los que se encuentra el criterio de Sturges. Tambien se puede establecer si el intervalo debe cerrarse por la derecha (,] o por la izquierda [,) con el argumento `right=TRUE` o `right=FALSE`. 

Como para los gráficos ya vistos, es muy recomendable escribir un título en
el gráfico así como también las etiquetas en cada uno de los ejes de manera que
la figura muestre cuales son las variables representadas. Así podemos mejorar
el histograma anterior de la variable *Altura* de la forma:

In [None]:
# Se crean los intervalos
cortes <- seq(153,193,5)
# Histograma
hist(Altura, breaks=cortes, col="darkgray", main="Histograma de frecuencias", 
     xlim=c(150, 195), xlab="Altura (cm)", ylab="ni")

Del gráfico obtenido podemos ver que las alturas de gran parte de los individuos estudiados se concentran en torno a 175 cm y que hay muy pocas personas con una altura por debajo de 158 cm o por encima de 188 cm. De la forma del histograma también podemos ver que la distribución de los datos es asimétrica por la izquierda.

La función `hist` por defecto representa la frecuencia absoluta pero podemos obtener como de probable es un determinado intervalo de valores de la variable para esta muestra representando la densidad de probabilidad en lugar del valor absoluto. Para ello cambiamos su argumento `freq` a `FAlSE`. En este caso el área total del histograma es 1. Consultar la ayuda de la función para más detalles. 

In [None]:
hist(Altura, freq=FALSE, breaks=cortes, col="darkgray", 
     main="Densidad de probabilidad", xlim=c(150, 195), xlab="Altura (cm)", 
     ylab="Densidad")

Observar como cambian los valores del eje vertical en este caso. Por ejemplo de este nuevo histograma podemos observar que alrededor de un 2% de indiviuos de esta muestra tienen una altura entre 158 y 163 cm. 

Además la función `hist` permite guardar su salida en una variable de forma que podamos utilizarla para hacer otros cálculos posteriores. Un ejemplo de uso en otros cálculos puede ser para obtener la tabla de frecuencias de la variable con menos líneas de código que las que programamos en la sección de Tablas de Frecuencia. 

In [None]:
h <- hist(Altura, breaks=cortes, plot=F); h

Notar que el objeto de clase histograma creado (`h`) es una lista con 5 componentes: `breaks` guarda los cortes de los intervalos definidos, `counts` almacena el número de observaciones que caen en cada intervalo es
decir los valores de la frequencia absoluta, `density` guarda el valor de la densidad de probabilidad de cada intervalo, `mids` almacena las marcas de clase, `xname` guarda el nombre de la variable y `equidist` es un valor
lógico que indica si los intervalos están equiespaciados o no. 

En este caso vamos a usar `mids`, `breaks` y `counts` para completar la tabla de frecuencias de la variable *Altura*.

In [None]:
# Numero de marcas de clase
c <- length(h$mids)
# Tabla de frecuencias
data.frame("(Li-1"=h$breaks[1:c], "Li]"=h$breaks[2:(c+1)], xi=h$mids,
            ni=h$counts, check.names=F)

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

Utilizando los datos del fichero *Pulsaciones.rda*, representa el histograma de la variable *Peso*. ¿Qué observas? Dibuja los histogramas de los hombres (en rojo) y de las mujeres (en azul) encima del histograma global. Nota: para añadir un histograma a otro ya representado utilizar el argumento `add=TRUE`.
</div>

## Diagrama de cajas

Los diagramas de cajas (*box plot* en inglés) son muy útiles para representar la distribución de variables cuantitativas. En R se obtienen con la función `boxplot`. Por ejemplo, si queremos representar el diagrama de cajas de la variable *Altura*, la instrucción que debemos ejecutar es la siguiente:

In [None]:
boxplot(Altura, ylab="Altura (cm)", main="Diagrama de cajas de la Altura")

En este caso le hemos añadido título a la figura con el argumento `main`. 

El comando `boxplot` permite además representar el diagrama de cajas de una determinada variable clasificada por grupos. Por ejemplo, podemos hacer el diagrama de cajas de la variable *Altura* separándola por *Sexo* mediante la instrucción: 

In [None]:
boxplot(Altura~Sexo, xlab="Sexo", ylab="Altura (cm)", main="Diagrama de cajas de la Altura")

De la figura anterior podemos ver grandes diferencias entre la altura de los hombres y las mujeres. Por ejemplo, el valor más bajo de la altura de los hombres de esa muestra corresponde con el valor de la mediana de las mujeres, es decir el 50% de las mujeres miden menos que la altura mínima del grupo de los hombres.

En el caso en el que una variable presente datos atípicos (*outliers*), estos aparecerán también en el diagrama de cajas representados con círculos, por encima del bigote superior o por debajo del bigote inferior. 

En algunos casos resulta interesante representar dos figuras en una única ventana para facilitar la comparación. Por ejemplo, puede interesarnos comparar el diagrama de cajas de la variable *Altura* clasificada según el sexo y si los individuos fuman o no. 

In [None]:
# Dividimos la ventana de gráficos en dos
par(mfrow=c(1,2), mar=c(5,4,1,1))
boxplot(Altura~Sexo, ylab="Altura (cm)")
boxplot(Altura~Fumar, ylab="Altura (cm)")

El argumento `mfrow` usado en la función `par` indica cuantas figuras y el orden en el que se van a integrar las figuras en la ventana de gráficos, 1 fila y dos columnas en este ejemplo *c(1,2)*. El parámetro `mar` controla la amplitud de los márgenes en sentido horario empezando en la base de la ventana de gráficos.

Muchas funciones gráficas de las que hemos visto también permiten añadir un nuevo gráfico al que ya hemos realizado. Para ello en las órdenes de R que ejecutemos debemos incluir la opción `add=TRUE`, o bien de forma abreviada `add=T`.

In [None]:
par(mfrow=c(1,1)) # Vuelve a dibujar un solo panel en la ventana de graficos
hist(Altura, main="Histograma de Altura", xlab="Altura (cm)", ylab="ni")
boxplot(Altura, add=T, horizontal=T, boxwex=5, border="red",col="pink", lwd=3)

En este caso se ha dibujado el histograma de la variable *Altura* al que se le ha superpuesto el diagrama de cajas. La combinación de ambas figuras permite analizar muchos más detalles estadísticos del conjunto de datos como el rango intercuartílico, la asimetría, etc. 

<div class="alert alert-block alert-info">
<strong>PRACTICA TÚ MISMO</strong>

Utilizando los datos del fichero *Pulsaciones.rda*:
1. Representa el diagrama de cajas de la variable *Pulso1*. Observando el gráfico, obtener aproximadamente el valor del pulso mínimo, del máximo, el valor del primer cuartil, de la mediana y del tercer cuartil.
2. Calcula una variable que sea la diferencia de *Pulso2* y *Pulso1* y representa un diagrama de cajas de esa nueva variable frente a la variable *Correr.
3. Representa por grupos dependiendo de su actividad física (*Actividad*) la variable diferencia de pulsos para aquellos que corrieron.
</div>