# Pair Programming - ANOVA

Hasta ahora habéis estado evaluando las características de vuestro set de datos y habéis hecho una gran exploración, es el momento de hacer vuestro primer ANOVA! En el ejercicio de hoy tendréis que hacer un ANOVA con vuestro datos y hacer una interpretación de los resultados.

NOTA Puede que vuestros datos no se ajusten o no cumplan todas las asunciones, no pasa nada, haced el ANOVA e interpretad los resultados. En próximas lecciones aprenderemos que podemos hacer cuando nos encontramos en esta situación.

In [9]:
import numpy as np
import pandas as pd
import random 

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.multivariate.manova import MANOVA
from sklearn.preprocessing import StandardScaler

import statsmodels.api as sm
from statsmodels.formula.api import ols

plt.rcParams["figure.figsize"] = (10,8) 

In [10]:
df = pd.read_csv("data/adult.numericas_robust.csv", index_col = 0)

In [11]:
df.head(2)

Unnamed: 0_level_0,work_class,education,education_yrs,marital_status,occupation,relationship,ethnicity,gender,capital_gain,capital_lost,hours_week,country,salary
39,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
50,Self-emp-not-inc,Bachelors,-0.333333,Married-civ-spouse,Exec-managerial,Husband,White,Male,0.0,0.0,-2.0,United-States,24006
38,Private,HS-grad,0.666667,Divorced,Handlers-cleaners,Not-in-family,White,Male,0.0,0.0,0.0,United-States,44640


In [12]:
anova = ols('salary ~  work_class  + education + education_yrs + marital_status + occupation + relationship + ethnicity + gender + capital_gain + capital_lost + hours_week + country' , data = df).fit()
sm.stats.anova_lm(anova)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
work_class,8.0,3872754000000.0,484094200000.0,129.361393,1.28596e-214
education,15.0,14326930000000.0,955128600000.0,255.232866,0.0
marital_status,6.0,18737490000000.0,3122915000000.0,834.516606,0.0
occupation,14.0,1848825000000.0,132058900000.0,35.289255,9.945621e-96
relationship,5.0,231163700000.0,46232740000.0,12.354478,5.367586e-12
ethnicity,4.0,67613290000.0,16903320000.0,4.516966,0.001199383
gender,1.0,371924100000.0,371924100000.0,99.386898,2.2441440000000002e-23
country,41.0,282083000000.0,6880072000.0,1.838518,0.000861288
education_yrs,1.0,14768380000.0,14768380000.0,3.94646,0.04697847
capital_gain,1.0,13602610000.0,13602610000.0,3.634938,0.05658752


**Interpretación de la ANOVA:** REINTERPRETAR: SALARY

Es importante recalcar previo a la interpretación que los datos con los que trabajamos no son normales.
- **df:** Las variables categóricas tienen más rango de libertad, mientras que las numéricas sólo uno. Esto es porque las numéricas sólo tienen el rango de los números naturales.
- **sum_sq:** Esta es la variación atribuida al error. Podemos observar que, en este caso, es mínima.
- **mean_sq:** Este es el producto de la dos columnas anteriores.
- **F:** ANOVA supone que las medias de todos los grupos son iguales, calcula cuánto se desvían las medias iguales de la suposición. Una puntuación mayor significa que hay mayor diferencia entre las medias, por lo tanto, las que tienen valores más próximos entre sí van a tener medias más similares.
- **PR(>F):** Aquí podemos observar que el p-valor es en todos los casos inferior a 0,05, con lo cual, debemos rechazar la hipótesis nula y concluimos que estas variables sí influyen en nuestra variable predictora.

In [13]:
anova.summary()

0,1,2,3
Dep. Variable:,salary,R-squared:,0.247
Model:,OLS,Adj. R-squared:,0.245
Method:,Least Squares,F-statistic:,109.7
Date:,"Fri, 27 Jan 2023",Prob (F-statistic):,0.0
Time:,18:22:49,Log-Likelihood:,-405010.0
No. Observations:,32560,AIC:,810200.0
Df Residuals:,32462,BIC:,811000.0
Df Model:,97,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,3.219e+04,6637.714,4.850,0.000,1.92e+04,4.52e+04
work_class[T. Federal-gov],1.413e+04,2437.678,5.796,0.000,9351.054,1.89e+04
work_class[T. Local-gov],2091.2880,2096.454,0.998,0.319,-2017.839,6200.415
work_class[T. Never-worked],2576.2835,2.32e+04,0.111,0.912,-4.29e+04,4.8e+04
work_class[T. Private],5017.8458,1667.918,3.008,0.003,1748.665,8287.027
work_class[T. Self-emp-inc],2.04e+04,2426.083,8.408,0.000,1.56e+04,2.52e+04
work_class[T. Self-emp-not-inc],-945.2674,2021.470,-0.468,0.640,-4907.423,3016.888
work_class[T. State-gov],-2460.1111,2312.047,-1.064,0.287,-6991.809,2071.587
work_class[T. Without-pay],-1.923e+04,1.57e+04,-1.228,0.220,-4.99e+04,1.15e+04

0,1,2,3
Omnibus:,8120.263,Durbin-Watson:,1.995
Prob(Omnibus):,0.0,Jarque-Bera (JB):,18027.011
Skew:,1.437,Prob(JB):,0.0
Kurtosis:,5.242,Cond. No.,4.6e+17


R-cuadrado = Variación explicada / variación total
El R-cuadrado siempre está entre 0 y 100%:
0% indica que el modelo no explica ninguna porción de la variabilidad de los datos de respuesta en torno a su media.
100% indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.

**Interpretación del summary**

- **R-square:** Siempre se encuentra entre el 0 y el 100%, el nuestro está en 0.247, por lo tanto, esto nos quiere decir que la variables presidctoras explican en un 24,7% nuestra variable respuesta.
- **coef:** Estos datos nos indican cuánto son afectadas las variables por las que se relacionan con ellas. Vemos que las afectaciones son mínimas, de muy poquitas milésimas, tanto en positivo como en negativo.
- **std err:** Esta columna nos está diciendo que tenemos un gran margen de error en la estimación del coeficiente, seguramente debido a la cantidad de ouliers.
- **t:** Es el resultado de dividir los dos valores anteriores. Con esto estamos intentando averiguar en qué medida la afectación de los datos entre sí influye en el margen de error, es decir, si las variables se influyen también cuando no tienen correlación.

No obstante, dado que nuestros datos ni son normales ni cumplen ninguna de las asunciones, es ejercicio no es necesario. Con lo cual, no nos extraña que las conclusiones que extraemos de él sean estas.