![image-2.png](attachment:image-2.png)

# 1. Test Chi-Cuadrado
Este test estadístico determina si dos variables categóricas son dependientes o independientes. 
Por ejemplo, se realiza una encuesta aleatoria a diferentes personas en diferentes rangos de edades, preguntándoles su preferencia política, y se obtienen los siguientes resultados:

![image.png](attachment:image.png)

**1. Definición de hipótesis**  

$H_0$: La edad no influye en el partido político en el que se vota (las dos variables son independientes)  
$H_1$: La edad sí influye en el partido político (las dos variables son dependientes)

**2. Grados de libertad y valor crítico** 

Se calculan a partir de la tabla de contingencia como (nº de filas-1) x (nº de columnas -1).   
En este caso: $(3-1)\times (2-1)=2$  

Buscamos en la [tabla de chi-cuadrado](https://people.richland.edu/james/lecture/m170/tbl-chi.html) el valor crítico para esos grados de libertad. En este caso, para un nivel de confianza del 95% y 2 grados de libertad, tenemos $5.991$. Si el valor del test estadístico supera ese valor crítico, podremos rechazar la hipótesis nula afirmar con suficiente confianza que ambas variables son dependientes y están relacionadas.

**3. Cálculo del estadístico**
![image.png](attachment:image.png)

El valor esperado se calcula como el total de cada fila y cada columna en la tabla de contingencia. Por ejemplo, el valor esperado para el grupo de edad 18-30 que votan a los liberales es: ![image-2.png](attachment:image-2.png)

Realizando el cálculo para cada valor esperado, obtenemos el valor del estadístico chi-cuadrado:   

![image-3.png](attachment:image-3.png)
  
   
El resultado es igual a $37.2$, mucho mayor que el valor crítico de $5.991$, por tanto podemos rechazar la hipótesis nula (ambas variables están relacionadas)

### Ejemplo
Vamos a leer un dataset de pasajeros del Titanic y analizar si hay relación entre las diferentes clases de los pasajeros (primera clase, segunda, etc.) y la supervivencia.  

No es necesario realizar todos los pasos, ya que la librería `scipy.stats` nos permite implementar el test chi-cuadrado con la función `chi2_contingency` 

In [None]:
import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
data.head()

# 2. ANOVA

Utilizado para comprobar la relación entre variables numéricas y categóricas (con al menos 3 categorías). En caso de que solo tengamos dos categorías, podemos utilizar un t-test.  

Por ejemplo, se realiza un experimento en el que se ofrecen diferentes bebidas a una serie de personas, y después se mide el tiempo de reacción en una determinada tarea. Se desea conocer si ambas variables (tipo de bebida y tiempo de reacción) están relacionadas

**1. Definición de hipótesis**  

$H_0$: No hay diferencia entre las medias de las categorías  
$H_1$: Al menos un tipo de bebida se diferencia significativamente de la media general de la variable dependiente

**2. Calcular la media para cada categoría**

**3. Calcular la suma de los cuadrados de todas las observaciones**
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

**4. Calcular la suma de los cuadrados de cada grupo**
![image.png](attachment:image.png)

**5. Calcular la suma de cuadrados de la media de los grupos**
![image.png](attachment:image.png)

In [None]:
# Verificamos que SS_total = SS_between + SS_within


**5. Cálculo del estadístico**
![image.png](attachment:image.png)

In [None]:
# Grados de libertad


In [None]:
# Calculamos los valores


El estadístico **F-value** es el ratio de dos varianzas

**6. Buscamos el valor crítico en la distribución del estadístico**  
Podemos buscarlo en esta [tabla](http://www.socr.ucla.edu/Applets.dir/F_Table.html), para df1 = 2 (df_between) y df2 = 27 (df_within)

![image.png](attachment:image.png)  

El valor crítico es $3.3541$. Como el valor del estadístico calculado, $0.0171$, es inferior al valor crítico, no podemos rechazar la hipótesis nula ni afirmar que existe relación entre ambas variables

![image-2.png](attachment:image-2.png)

Como siempre, es más cómodo utilizar una librería de Python que realice todos estos cálculos. En este caso, la función `f_oneway` de la librería `scipy.stats` permite realizar el test ANOVA

![image.png](attachment:image.png)

# Correlación

Un coeficiente de correlación mide el grado en que dos variables numéricas tienden a cambiar al mismo tiempo. El coeficiente describe tanto la fuerza como la dirección de la relación. 
  
![image.png](attachment:image.png)


Existen tres tipos de correlación: Pearson (la más utilizada), Spearman y Kendall

**Correlación de Pearson**
Evalúa la relación **lineal** entre ambas variables. Una relación es lineal cuando un cambio en una variable se asocia con un cambio proporcional en la otra variable.  
  
**Correlación de Spearman**  
Evalúa la relación monótona entre dos variables continuas u ordinales. En una relación monótona, las variables tienden a cambiar al mismo tiempo, pero no necesariamente a un ritmo constante. El coeficiente de correlación de Spearman se basa en los valores jerarquizados de cada variable y no en los datos sin procesar.
La correlación de Spearman suele utilizarse para evaluar relaciones en las que intervienen variables ordinales. Por ejemplo,  evaluar si el orden en que los empleados completan un ejercicio de prueba se relaciona con el número de meses que han estado trabajando en la empresa.

![image.png](attachment:image.png)
$$Pearson = +1, Spearman = +1$$

![image-2.png](attachment:image-2.png)
$$Pearson = +0.851, Spearman = +1$$

![image-3.png](attachment:image-3.png)
$$Pearson = −0.093, Spearman = −0.093$$


**Correlación de Kendall**  
Suele utilizarse en lugar de la de Spearman cuando tenemos pocos datos



In [None]:
# Significancia de la correlación
