<h1 style="font-size:300%;font-family:verdana;color:navy;">LECCIÓN 2.1. </h1>
<h1 style="font-size:150%;font-family:verdana;color:navy;">ESTADÍSTICOS DESCRIPTIVOS Y GRÁFICAS </h1>
    
***

Empezamos cargando los datos de nuestro fichero, ya vimos cómo hacerlo en la lección anterior, usando la función _read.csv()_
  
```R
  datos <- read.csv(file="datos/basededatos.csv", header=TRUE, sep=";", dec =",")
``` 

Una vez cargados podemos empezar a describir las variables

Los primeros pasos en un análisis de datos son siempre la descripción de las variables implicadas en nuestro estudio. Esto se lleva a cabo a través de los estadísticos descriptivos y los gráficos. Veamos las posibilidades que tenemos.

# 1. Estadísticos descriptivos

Se puede empezar la descripción de las variables usando la función _summary()_. No aporta mucha información pero nos puede dar una visión general de qué variables tenemos y cuál es su estatus.

```R
  summary(datos)
``` 

Esta función nos dará un resumen sencillo de cada variable en el data frame. 

En general, R distingue entre:

* Datos cuantitativos (equivalentes a las escalas de intervalo y razón)
* Datos cualitativos (equivalentes a las nominales y ordinales). 

Cada uno de ellos requiere de estadísticos diferentes y por ello vamos a estudiarlos por separado


## 1.1. Descripción de variables cuantitativas
Para las variables cuantitativas, la forma de describirlas está basada en los estadísticos que todos ya conocemos: media, mediana, varianza, desviación típica, asimetría, apuntamiento, percentiles, etc. Cada uno de estos estadísticos dispone de su propia función: _mean()_, _var()_, _sd()_, _quantile()_, etc. que puede ser utilizada para conocer el valor correspondiente.

Por ejemplo, si queremos conocer la media y la varianza de la variable edad podemos usar el siguiente código:

```R
  mean(datos$Edad)  # media
  
  var(datos$Edad)   # varianza
``` 

__Ejercicio 1:__ Calcula la media, la varianza y la desviación típica para la variable _Edad_ del data frame _datos_

> Dependiendo de si el fichero de datos tiene valores perdidos hay que introducir en la funcion el argumento na.rm=TRUE, por ejemplo:

```R
  mean(datos$Edad, na.rm = TRUE)  # media
  
  var(datos$Edad,  na.rm = TRUE)   # varianza
``` 


In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



Fíjate en la forma que hemos utilizado para referirnos a la variable edad _datos$edad_ que es una manera de indicarle a R que utilice la variable _edad_ que pertenece al data.frame _datos_. Esto ya se vio en los días anteriores y simplemente quería recordarlo.

Con las funciones _mean()_ y _var()_ hemos descrito un poco la variable edad y podríamos seguir utilizando otras funciones para saber más de ella; sin embargo, lo más cómodo es usar algún _wrap_ (son funciones que agrupan o envuelven a otras funciones para hacer más cómodo su uso) que nos hagan la vida más sencilla. Para mí, uno de los más útiles y completos, es la función _describe()_ que se encuentra en el paquete __psych__.

Antes de usar una función que pertenece a una libraría tenemos que cargarla previamente con la función _library()_. 

> Una vez cargada una librería no es necesaria volverla a cargar hasta que cerremos y volvamos a abrir R


```R
  library(psych)         # cargamos psych
  describe(datos$Edad)   # describimos la edad
``` 

En la salida aparecen todos los estadísticos relevantes. También podemos pedirle los cuartiles o cualquier percentil que deseemos

```R
  describe(datos$Edad, quant=c(.25, .50, .75, .90)) # descrptivos para edad con los tres cuartiles (25, 50 y 75 y el percentil 90)
``` 

Y pedirle que describa, en vez de una variable, todo el conjunto de datos; o indicarle un subconjunto del data frame usando los índices de las columnas o los nombres como vimos en lecciones anteriores

```R
  describe(datos, quant=c(.25, .50, .75))  # lo mismo que lo anterior pero para todas las variables
  describe(datos[9:11])                    # describir las variables de la 9 a la 11
  describe(datos[c("Edad", "CI")])         # describir la Edad y el CI
``` 

Aquellas variables que no sean cuantitativas también serán descritas, pero las marca con un asterisco para indicar que es inapropiado interpretar estadísticos para variables continuas en aquellas que no lo son.

Otra función muy interesante del mismo paquete es _describeBy()_, hace lo mismo que la anterior pero separando por grupos. La sintaxis siguiente describe las variables Edad y CI (incluyendo los tres cuartiles) separando por sexo (unos descriptivos para hombres y otros para mujeres)

```R
  describeBy(datos[c("Edad", "CI")], group=datos$Sexo, quant=c(0.25, 0.50, 0.75))
``` 

__Ejercicio 2:__ Describe las variables Edad, CI, Ansiedad y Estres para hombres y mujeres

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)


## 1.2. Descripción de variables cualitativas
La descripción para variables cualitativas no deja muchas opciones, casi todas están basadas en la distribución de frecuencias de la variable, aunque puede mejorarse con los porcentajes para cada nivel del factor. Por ejemplo: vamos a describir la variable __sexo__. 

```R
  mitabla <- table(datos$Sexo)  # creamos una tabla con sexo
  mitabla                       # vemos la tabla
  prop.table(mitabla)           # porcentajes
``` 

Otra función muy utilizada para construir tablas, equivalente a _table()_, es _xtabs()_. Con situaciones sencillas ambas son equivalentes, pero la segunda es más completa

```R
  mitabla <- xtabs(~sexo, data=datos)
  mitabla
  prop.table(mitabla)
``` 

Fíjate en la forma en la que hemos especificado la variable en xtabs: _~sexo_; esto es lo que en R se llama una __fórmula__ y es fundamental en la construcción de modelos. Poco a poco aprenderemos a usarla con ejemplos. 

> Para escribir el símbolo ~  debes pulsar  __ALT GR + 4__ y luego un espacio. El __ALT GR__ es la tecla que suele estar a  la derecha de la barra espaciadora.

Cuando tenemos que construir tablas de dos o más entradas podemos utilizar tanto _table()_ como _xtabs()_

```
mitabla <- table(datos$estadoCivil, datos$sexo)

mitabla <- xtabs(~estadoCivil+sexo, data=datos)
mitabla
```

Y pedir las frecuencias de los marginales de las filas, los marginales de las columnas, las proporciones por casilla y las proporciones por filas y columnas

```R
mitabla <- xtabs(~estadoCivil+sexo, data=datos) # crea la tabla A x B (estadoCivil x sexo)
mitabla
margin.table(mitabla, 1) # marginales de A 
margin.table(mitabla, 2) # marginales de B

prop.table(mitabla)      # porcentajes por casillas
prop.table(mitabla, 1)   # porcentajes por filas 
prop.table(mitabla, 2)   # porcentajes por columnas
```

__Ejercicio 3:__ Crea las siguientes tablas

* Una tabla para el Sexo
* Una tabla para el Sexo por Trastorno
* Porcentajes para filas y columnas para la tabla anterior

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)


## 1.3. Correlaciones y matrices de correlaciones

Las correlaciones se calculan con la función _cor()_, simplemente se llama a la función pasándole como argumentos las variables que se quieren correlacionar

```
  cor(datos$Ansiedad, datos$Estres)
``` 

Hemos obtenido un resultado de __NA__. La función _cor()_ es de esas funciones que son un poco pesadas en el tratamiento de los missing porque hay que especificarle qué debe hacer con ellos (por defecto debería tener una opción más "amable"). Para ello incluimos el parámetro _use_ que acepta los valores: "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs". Una buena opción es la última, que nos calcula la correlación con todos los datos disponibles conjuntamente para cada par de variables

```
  cor(datos$Ansiedad, datos$Estres, use="pairwise.complete.obs")
``` 
Si a _cor()_ le pasamos como argumento una matriz o data.frame calculará todas las correlaciones de todas las variables con todas, obteniéndose una matriz de correlaciones. Obviamente la matriz o data.frame que pasamos como argumento solo puede contener variables cuantitativas

```R
  varnum <- datos[9:14]  # seleccionamos variables cuantitativas y creamos el data frame varnum
  cor(varnum, use="pairwise.complete.obs") # calculamos todas las correlaciones entre si
``` 

_cor()_ no solo calcula la correlación de _pearson_, también puede calcular las correlaciones de _kendall_ y _spearman_ si se usa el argumento "method".

__Ejercicio 4:__ Calcula la matriz de correlaciones de pearson entre las variables Sociabilidad, Emotividad, Fantasiosidad, Ansiedad y Estres

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)


# 2. Gráficos

R ofrece infinidad de posibilidades gráficas, con una excelente calidad, creando gráficos válidos tanto para publicaciones online o en prensa. Los que vamos a ver aquí son las opciones más sencillas.


## 2.1. Gráficos para variables cualitativas

Los gráficos más comunes para variables cualitativas son las __graficas de barras__ y el de __sectores__. 

Los __gráficos de barras__ se pueden hacer con la función _barplot()_. Si deseamos crear un gráfico de barras para la variable _Sexo_ primero creamos una tabla, como hemos visto en el punto anterior, y luego usamos la función _barplot()_. Esta función acepta un buen número de parámetros que configuran la presentación de la figura, como el título, color, etc. Incluso fácilmente podemos invertirla y presentarla horizontalmente con el argumento _horiz = TRUE_


```R
  mitabla <- xtabs(~Sexo, data=datos) # creamos la tabla
  barplot(mitabla)                    # el barplot mas sencillo
``` 


Los __gráficas de sectores__ funcionan igual que los de barras pero llamando a la función _pie()_

```R
  mitabla <- xtabs(~Sexo, data=datos)
  pie(mitabla)  # grafico pie
``` 

__Ejercicio 5:__ Construye un gráfico de barras y de sectores para la variable EstadoCivil

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



## 2.2. Gráficos para variables cuantitativas

Sin duda el más utilizado, y más útil, es el __histograma__ que supone una representación de la frecuencia de los valores de la variable, agrupados en intervalos. Se puede crear usando la función _hist()_.

```R
  hist(datos$Edad)
``` 

Con este gráfico podemos ver cómo es la distribución de la variable _Edad_ y si cumple o no las condiciones de normalidad (asimetría, apuntamiento, etc).

Otros gráficos muy usados son los de __caja y bigotes__ (boxplot en inglés). La forma de dibujarlos para la variable _Edad_ sería

```R
  boxplot(datos$Edad)  # grafico de caja y bigotes
``` 

Siempre suele ser interesante comparar la forma y distribución de varias variables simultáneamente, para ello le pasamos a _boxplot()_ una matriz o data.frame y la función los representará adecuadamente

```R
  boxplot(datos[9:14])
```

__Ejercicio 6:__ Dibuja un histograma y un gráfico de caja y bigote para la variable Estres

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



## 2.3. Otros gráficos relevantes

La representación conjunta de variables se suele hacer con variables cuantitativas (también se puede hacer con cualitativas, pero suele ser menos común, son como mapas de "temperatura"). Podemos representar con un gráfico de puntos (o también llamado __gráfico de dispersión__) la relación entre la satisfacción de la Ansiedad y el Estres, y además dibujar la recta de regresión que relaciona ambas variables


```
  plot(datos$Ansiedad, datos$Estres) # creamos el grafico de dispersion
  abline(lm(datos$Ansiedad ~ datos$Estres), col="red") # añadimos la recta en color rojo
```

Cuando tenemos muchas variables suele ser interesante, al igual que calculamos una __matriz de correlaciones__, crear hacer un gráfico entre todas ellas. La función _pairs()_ se encarga de ello

```R
  pairs(~Severidad1 + Severidad2 + Severidad3 ,data=datos)
``` 

La mayoría de las veces en estadística es necesario valorar la normalidad de una variable. Además de los estadísticos de media, mediana, asimetría y apuntamiento, y los contrastes de normalidad como el de _Shapiro_ (lo veremos más adelante), suele usarse unos gráficos llamados __QQ Plot__ (Quantile - Quantile Plot). En ellos se comparan los cuantiles obtenidos en la variable con los cuantiles teóricos que deberíamos haber obtenido si la variable fuese normal

```R
  qqnorm(datos$Edad) # grafico QQ
  
  qqline(datos$Edad) # introducimos la recta
``` 

Su interpretación podría resumirse así: si la variable fuese normal todos los puntos se ajustarían a la recta. En aquellas zonas donde más separación exista de la recta, más desviación de la normal habrá.

__Ejercicio 7:__

* Crea el gráfico de dispersión para FluidezVerbal y CalculoNumerico
* Haz un QQPlot para la variable Ansiedad y analiza si es normal


In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



***
## Soluciones a los ejercicios:
***
 

<details>
<summary> Click para ver las soluciones </summary>

__Ejercicio 1:__
```
    datos <- read.csv(file="datos/basededatos.csv", header=TRUE, sep=";", dec =",")
    mean(datos$Edad, na.rm = TRUE)
    var(datos$Edad,  na.rm = TRUE)
    sd(datos$Edad,  na.rm = TRUE)
```

 __Ejercicio 2:__
```R
    library(psych)
    describeBy(datos[c("Edad", "CI", "Ansiedad", "Estres")], group=datos$Sexo, quant=c(0.25, 0.50, 0.75))
```

__Ejercicio 3:__
```R
    tabla1 <- table(datos$Sexo) 
    tabla1   

    tabla2 <- xtabs(~Trastorno+Sexo, data=datos)
    tabla2

    prop.table(tabla2, 1)   
    prop.table(tabla2, 2)  
```

__Ejercicio 4:__
```
    varnum <- datos[12:16]  # seleccionamos variables cuantitativas y creamos el data frame varnum
    cor(varnum, use="pairwise.complete.obs")
```

__Ejercicio 5:__
```R
    mitabla <- xtabs(~EstadoCivil, data=datos) # creamos la tabla
    barplot(mitabla) 
    pie(mitabla)
```

__Ejercicio 6:__
```
    hist(datos$Estres)
    boxplot(datos$Estres)
```

__Ejercicio 7:__
```
    plot(datos$FluidezVerbal, datos$CalculoNumerico)
    qqnorm(datos$Ansiedad) 
    qqline(datos$Ansiedad) 
```

</details>

***

<div align="right">
  Enero de 2020
  <a href="autores.ipynb"> AUTORES <a>
</div> 
