### Pair Programming - ANOVA

Hasta ahora habéis estado evaluando las características de vuestro set de datos y habéis hecho una gran exploración, es el momento de hacer vuestro primer ANOVA! En el ejercicio de hoy tendréis que hacer un ANOVA con vuestro datos y hacer una interpretación de los resultados.

NOTA Puede que vuestros datos no se ajusten o no cumplan todas las asunciones, no pasa nada, haced el ANOVA e interpretad los resultados. En próximas lecciones aprenderemos que podemos hacer cuando nos encontramos en esta situación.

In [14]:
import numpy as np
import pandas as pd
import random 

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.multivariate.manova import MANOVA
from sklearn.preprocessing import StandardScaler

import statsmodels.api as sm
from statsmodels.formula.api import ols

plt.rcParams["figure.figsize"] = (10,8) 

In [15]:
df = pd.read_csv("data/adult.data_limpio.csv", index_col = 0)

In [16]:
df.head(2)

Unnamed: 0_level_0,work_class,final_weight,education,education_yrs,marital_status,occupation,relationship,ethnicity,gender,capital_gain,capital_lost,hours_week,country,salary,census
39,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,Bajo
38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,Bajo


In [17]:
anova = ols('final_weight ~ work_class  + education + education_yrs + marital_status + occupation + relationship + ethnicity + gender + capital_gain + capital_lost + hours_week + country + salary + census' , data=df).fit()
sm.stats.anova_lm(anova)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
work_class,8.0,1003162000000.0,125395200000.0,12.705783,2.109971e-18
education,15.0,1503840000000.0,100256000000.0,10.158531,9.434647e-25
marital_status,6.0,836652400000.0,139442100000.0,14.129096,3.865187e-16
occupation,14.0,727814700000.0,51986760000.0,5.267606,4.135104e-10
relationship,5.0,150729600000.0,30145920000.0,3.054563,0.009269151
ethnicity,4.0,6669374000000.0,1667343000000.0,168.945106,1.9225689999999999e-143
gender,1.0,669891400000.0,669891400000.0,67.877359,1.804504e-16
country,41.0,8188998000000.0,199731700000.0,20.237994,1.635877e-145
salary,1.0,99441950000.0,99441950000.0,10.076046,0.001503495
census,1.0,22437530000000.0,22437530000000.0,2273.503608,0.0


**Interpretación de la ANOVA:**

Es importante recalcar previo a la interpretación que los datos con los que trabajamos no son normales.
- **df:** Las variables categóricas tienen más rango de libertad, mientras que las numéricas sólo uno. Esto es porque las numéricas sólo tienen el rango de los números naturales.
- **sum_sq:** Esta es la variación atribuida al error. Podemos observar que, en este caso, es mínima.
- **mean_sq:** Este es el producto de la dos columnas anteriores.
- **F:** ANOVA supone que las medias de todos los grupos son iguales, calcula cuánto se desvían las medias iguales de la suposición. Una puntuación mayor significa que hay mayor diferencia entre las medias, por lo tanto, las que tienen valores más próximos entre sí van a tener medias más similares.
- **PR(>F):** Aquí podemos observar que el p-valor es en todos los casos inferior a 0,05, con lo cual, debemos rechazar la hipótesis nula y concluimos que estas variables sí influyen en nuestra variable predictora.

In [18]:
anova.summary()

0,1,2,3
Dep. Variable:,final_weight,R-squared:,0.117
Model:,OLS,Adj. R-squared:,0.114
Method:,Least Squares,F-statistic:,43.81
Date:,"Mon, 23 Jan 2023",Prob (F-statistic):,0.0
Time:,10:30:26,Log-Likelihood:,-420800.0
No. Observations:,32560,AIC:,841800.0
Df Residuals:,32461,BIC:,842600.0
Df Model:,98,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,8.025e+05,1.81e+04,44.271,0.000,7.67e+05,8.38e+05
work_class[T. Federal-gov],-3546.4328,3968.538,-0.894,0.372,-1.13e+04,4232.049
work_class[T. Local-gov],2763.8696,3411.569,0.810,0.418,-3922.932,9450.671
work_class[T. Never-worked],2.651e+04,3.76e+04,0.704,0.481,-4.73e+04,1e+05
work_class[T. Private],5126.6299,2718.461,1.886,0.059,-201.655,1.05e+04
work_class[T. Self-emp-inc],-6796.9065,3975.090,-1.710,0.087,-1.46e+04,994.418
work_class[T. Self-emp-not-inc],-3479.4005,3295.188,-1.056,0.291,-9938.091,2979.290
work_class[T. State-gov],-1687.2137,3757.164,-0.449,0.653,-9051.394,5676.967
work_class[T. Without-pay],2041.2730,2.54e+04,0.080,0.936,-4.78e+04,5.19e+04

0,1,2,3
Omnibus:,5179.25,Durbin-Watson:,2.009
Prob(Omnibus):,0.0,Jarque-Bera (JB):,9972.041
Skew:,0.991,Prob(JB):,0.0
Kurtosis:,4.851,Cond. No.,1.47e+17


R-cuadrado = Variación explicada / variación total
El R-cuadrado siempre está entre 0 y 100%:
0% indica que el modelo no explica ninguna porción de la variabilidad de los datos de respuesta en torno a su media.
100% indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.

**Interpretación del summary**

- **R-square:** Siempre se encuentra entre el 0 y el 100%, el nuestro está en 0.117, por lo tanto, esto nos quiere decir que la variables presidctoras explican en un 11,7% nuestra variable respuesta.
- **coef:** Estos datos nos indican cuánto son afectadas las variables por las que se relacionan con ellas. Vemos que las afectaciones son mínimas, de muy poquitas milésimas, tanto en positivo como en negativo.
- **std err:** Esta columna nos está diciendo que tenemos un gran margen de error en la estimación del coeficiente, seguramente debido a la cantidad de ouliers.
- **t:** Es el resultado de dividir los dos valores anteriores. Con esto estamos intentando averiguar en qué medida la afectación de los datos entre sí influye en el margen de error, es decir, si las variables se influyen también cuando no tienen correlación (or something???).