<h1 style="font-size:300%;font-family:verdana;color:navy;">LECCIÓN 5.1. </h1>
<h1 style="font-size:150%;font-family:verdana;color:navy;">Validez basada en correlaciones</h1>
    
***

Algunas evidencias de la validez se basan en el concepto de correlación, como son la validez convergente y discriminante al ser evaluadas con las Matrices MultiMétodo-MultiRasgo (MM-MR), o la validez de criterio, calculada como la relación entre el test y una variable externa. En esta lección vamos a ver cómo realizar los cálculos con R en estas situaciones.

> __Aviso__, para aprovechar bien de los contenidos de esta lección es necesario haber leído previamente las lecturas de teoría.

# 1. Matrices Multi-Método Multi-Rasgo

Empecemos cargando los datos del fichero llamado _mmmr.csv_ que contiene un ejemplo para calcular esta matriz

__Ejercicio 1:__ Importa los datos del fichero _mmmr.csv_ y llámalos _datos_ y visualizalo

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



El fichero contiene 6 variables, que son el resultado de dos test (T1 y T2) midiendo los rasgos de Extroversión (E), Neuroticismo (N) y Control (C):

* T1.E: Test 1 midiendo el rasgo Extroversión
* T1.N: Test 1 midiendo el rasgo Neuroticismo
* T1.C: Test 1 midiendo el rasgo Control
* T2.E: Test 2 midiendo el rasgo Extroversión
* T2.N: Test 2 midiendo el rasgo Neuroticismo
* T2.C: Test 2 midiendo el rasgo Control

Para construir una matriz MM-MR tenemos que calcular las correlaciones de todas las variables con todas, y eso es exactamente lo que hace la función _cor()_

```R
  cor(datos)

``` 

__Ejercicio 2:__ Calcula la matriz de correlaciones de todas las variables

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



Si lo has calculado correctamente ya tienes todas las correlaciones que necesitas para interpretar los tipos de validez convergente y discriminante. Por ejemplo, en la intersección entre T1.E y T1.N (0.3632) tenemos una validez discriminante, ya que es la misma técnica (T1) pero con dos rasgos distintos (E y N). Y en la intesección entre T1.E y T2.E (0.0637) tenemos una validez convergente, ya que tenemos dos técnicas distintas (T1 y T2) midiendo el mismo rasgo (E).

Recuerda que para interpretar si la validez es buena o mala seguimos la siguiente lógica:

* Validez Convergente: Es buena si es __ALTA__.
* Validez Discriminante: Es buena si es __BAJA__.

Por lo que en el ejemplo anterior la discrimiante es buena (0.3632 es bastante baja) pero la convergente sería horrible (0.0637 es muy muy baja cuando debería ser alta).


# 2. Validez de Criterio

En este caso vamos a ver cómo trabajar con R en aquellas situaciones en las que necesitemos calcular la correlación entre un test (al que llamamos x) y un criterio externo (al que llamamos y). Básicamente tenemos dos situaciones distintas:

* Calculamos la correlación entre X e Y para saber cómo de relacionados están (validez de criterio)
* Intentamos pronosticar el valor en Y conociendo el valor en X

En ambos casos necesitamos un fichero de datos que contenga las variables x e y.


__Ejercicio 3:__ Importa el fichero _criterio.csv_, guárdalo en el objeto _datos_ y visualízalo


In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



El fichero que acabas de cargar simplemente tiene dos variables:
* __x__: la puntuación empírica o total en el test
* __y__: la puntuación en el criterio

## 2.1. Correlación entre x e y

Aquí hay muy poco que explicar, ya que se explicó todo en la lección sobre estadísticos descriptivos (lección 2.1). Una sintaxis que podría valernos sería:

```
  plot(datos$x, datos$y) # creamos el grafico de dispersion
  cor(datos$x, datos$y) # calculamos la correlacion entre las variables
```

__Ejercicio 4:__ haz un gráfico de dispersión y calcula la validez de criterio

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



Ahora sabemos que la validez de criterio entre el test y el criterio es de 0.60 y podríamos contestar a cualquier pregunta que nos hicieran en teoría, por ejemplo: Sabiendo que la fiabilidad del test es 0.7 ($\rho_{xx'}=0.7$) y la del criterio 0.6 (($\rho_{yy'}=0.6$) ¿Cuál sería la validez del test en una situación de medición perfecta?


Pues si la fórmula de la atenuación nos dice:

$$\rho_{XY} = \frac{\rho{xy} \sqrt{\rho_{XX'}} \sqrt{\rho_{YY'}}}{\sqrt{\rho_{xx'}} \sqrt{\rho_{yy'}}} $$

Y una situación de medición perfecta implica que $\rho_{XX'}=1$ y $\rho_{YY'}=1$ entonces con R podríamos crear la siguiente sintaxis para calcularlo

```
  validez <- cor(datos$x, datos$y) 
  validezFinal <- validez/(sqrt(0.7) * sqrt(0.6))
  validezFinal
```

__Ejercicio 5:__ Calcula la validez final de este ejemplo para un caso de fiabilidad perfecta

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



Si lo has calculado bien habrás obtenido un valor de 0.9258

## 2.1. Pronóstico en y conociendo el valor en x

En este caso debemos calcular la recta de regresión de x sobre y, lo que es muy fácil en R usando la función _lm()_ (_lm significa linear model_). Fíjate en la sintaxis:

```
  # calculamos la recta de regresion para y
  rectay <- lm(datos$y ~ datos$x)

  # hacemos un gráfico para verla
  plot(datos$y, datos$x) # creamos el grafico de dispersion
  abline(rectay) # añadimos la recta al grafico
```

Una vez creada la recta de regresión podemos pedirle que nos diga los valores de los coeficientes y dos de otros descriptivos con la función _summary()_

```
  summary(rectay)
```

__Ejercicio 6:__ Construye la recta de regresión de y sobre x, dibújala y muestra los valores de los coeficientes

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



El resumen que hemos obtenido de esta recta es el siguiente:

```
    Call:
    lm(formula = datos$y ~ datos$x)

    Residuals:
         Min       1Q   Median       3Q      Max 
    -25.7227  -4.7897   0.7438   5.5776  21.3840 

    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept) 80.96834    4.70594  17.206  < 2e-16 ***
    datos$x      0.55335    0.07734   7.155 2.07e-10 ***
    ---
    Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

    Residual standard error: 8.19 on 91 degrees of freedom
    Multiple R-squared:   0.36,	Adjusted R-squared:  0.353 
    F-statistic: 51.19 on 1 and 91 DF,  p-value: 2.068e-10
```
> No te preocupes por el mensaje de warning en rojo, todo está bien

Los coeficientes están bajo el epígrafe __Estimate__ y son 80.96 para la ordenada en el origen (el término a) y 0.55 para el coeficiente de x (el término b), por lo que la recta final sería:

$$ y' = 80.96 + 0.55 x $$

Debajo de __Pr(>|t|)__ vienen los p_valor para los contrastes individuales de los coeficientes, cada contraste pone a prueba la $H_0$ de que ese coeficiente es igual a cero, por lo que al rechazarla nos indica que la ecuación necesita ese término.

Además nos informa del $R^2$ que en nuestro caso ha sido de 0.353 (siempre mirad el ajustado, _Adjusted R-squared:_) por lo que podemos explicar el 35.3% del criterio y conociendo la puntuación en el test x.

Una vez que conocemos el coeficiente de determinación (no es más que el $ R^2 $) resulta trivial conocer el índice de eficiencia (E) y el de alienación (K), ya que son derivados de él

$$\text{Indice de Eficiencia: }E = 1 - \sqrt{1 - r_{xy}^2} = 1 - \sqrt{1 - 0.353}$$

$$\text{Coeficiente de Alienación: }K = \sqrt{1 - r_{xy}^2} = \sqrt{1 - 0.353}$$

__Ejercicio 7:__ Calcula los coeficientes de Eficiencia y Alienación para nuestra recta

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



Los valores que has obtenido son de 0.195 para el de Eficiencia y 0.804 para el de Alienación

Para terminar, una última cosa que se puede hacer es pronósticar la puntuación en y conociendo el valor en x. Por ejemplo, el primer sujeto ha tenido un valor en x de 75, ¿cuánto le pronosticaríamos en y?

La solución más obvia es utilizar los coeficientes de la recta de regresión:

```R
    y = 80.96 + 0.55 * 75
    y
```

pero R nos lo hace más fácil, la lfunción predict() nos dará las predicciones para todos los sujetos

```R
   predict(rectay)
```

__Ejercicio 8:__ Pronostica el valor en y para todos los sujetos

In [None]:
# Introduce aquí el código (para ejecutarlo pulsa Ctr+Enter)



***
## Soluciones a los ejercicios:
***
 

<details>
<summary> Click para ver las soluciones </summary>


__Ejercicio 1:__
```
    datos <- read.csv(file="datos/mmmr.csv", header=TRUE, sep=";", dec =",")
    datos
```

 __Ejercicio 2:__
```R
    cor(datos)
```

__Ejercicio 3:__
```R
    datos <- read.csv(file="datos/criterio.csv", header=TRUE, sep=";", dec =",")
    datos 
```

__Ejercicio 4:__
```
    plot(datos$x, datos$y) # creamos el grafico de dispersion
    cor(datos$x, datos$y) # calculamos la correlacion entre las variables
```

__Ejercicio 5:__
```
    validez <- cor(datos$x, datos$y) 
    validezFinal <- validez/(sqrt(0.7) * sqrt(0.6))
    validezFinal
```

__Ejercicio 6:__
```
    # calculamos la recta de regresion para y
    rectay <- lm(datos$y ~ datos$x)

    # hacemos un gráfico para verla
    plot(datos$x, datos$y) # creamos el grafico de dispersion
    abline(rectay) # añadimos la recta al grafico

    summary(rectay)
```

__Ejercicio 7:__
```
    1 - sqrt(1 - 0.353)
    sqrt(1 - 0.353)
```
__Ejercicio 8:__
```
    predict(rectay)
```

</details>

***

<div align="right">
  Enero de 2020 |
  <a href="autores.html"> AUTORES <a>
</div> 

