## ANOVA

In [8]:

import numpy as np
import pandas as pd
import random 

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.multivariate.manova import MANOVA
from sklearn.preprocessing import StandardScaler

import warnings
warnings.filterwarnings("ignore")

plt.rcParams["figure.figsize"] = (10,8) 

En el pair programming de hoy usaremos el set de datos que guardamos en el pair programming de normalización y estandarización.

En el ejercicio de hoy tendréis que hacer un ANOVA con vuestro datos y hacer una interpretación de los resultados.

- Hacemos el ANOVA como práctica, pero nuestra variable respuesta no cumple la asunción de normalidad, por lo que no podemos hacer regresión lineal

In [9]:
#Cargamos el dataframe con el que vamos a trabajar.
df = pd.read_csv("../ficheros/diamons_estandarizados.csv", index_col = 0)
df.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,-0.746032,Ideal,E,SI2,-0.214286,-0.666667,326,-0.931818,-0.91954,-0.909091
1,-0.777778,Premium,E,SI1,-1.428571,1.333333,326,-0.965909,-1.0,-1.018182


In [10]:
# Iniciamos el ANOVA construyendo la fórmula con la variable respuesta y las predictoras
lm = ols("price ~ carat + cut + color + clarity + depth + table + x + y + z", data= df).fit()
sm.stats.anova_lm(lm)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
cut,4.0,4734489000.0,1183622000.0,1967.220812,0.0
color,6.0,8471829000.0,1411971000.0,2346.745167,0.0
clarity,7.0,9245534000.0,1320791000.0,2195.199369,0.0
carat,1.0,330281200000.0,330281200000.0,548938.65354,0.0
depth,1.0,917976.1,917976.1,1.525708,0.2167635
table,1.0,38778820.0,38778820.0,64.451739,1.010557e-15
x,1.0,644592700.0,644592700.0,1071.335282,1.586443e-232
y,1.0,48958380.0,48958380.0,81.370516,1.9354879999999997e-19
z,1.0,105268700.0,105268700.0,174.960124,7.123557e-40
Residual,50218.0,30214780000.0,601672.3,,


Según vemos aquí, todas nuestras variables tienen un p-valor menor de 0.05, por lo que debemos rechazar la hipótesis nula, lo que quiere decir que todas las variables influyen en nuestra variable respuesta, que es el precio de los diamantes.

In [11]:
lm.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.921
Model:,OLS,Adj. R-squared:,0.921
Method:,Least Squares,F-statistic:,25550.0
Date:,"Wed, 25 Jan 2023",Prob (F-statistic):,0.0
Time:,19:12:38,Log-Likelihood:,-405580.0
No. Observations:,50242,AIC:,811200.0
Df Residuals:,50218,BIC:,811400.0
Df Model:,23,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-175.6187,36.501,-4.811,0.000,-247.160,-104.077
cut[T.Good],406.0150,24.325,16.691,0.000,358.338,453.692
cut[T.Ideal],620.6655,24.118,25.735,0.000,573.395,667.936
cut[T.Premium],587.7553,23.043,25.507,0.000,542.590,632.920
cut[T.Very Good],521.6468,23.561,22.140,0.000,475.467,567.826
color[T.E],-162.2045,12.547,-12.928,0.000,-186.797,-137.612
color[T.F],-211.3518,12.742,-16.587,0.000,-236.327,-186.377
color[T.G],-349.9169,12.506,-27.980,0.000,-374.429,-325.405
color[T.H],-708.3351,13.364,-53.004,0.000,-734.528,-682.142

0,1,2,3
Omnibus:,13645.432,Durbin-Watson:,1.094
Prob(Omnibus):,0.0,Jarque-Bera (JB):,104730.262
Skew:,1.098,Prob(JB):,0.0
Kurtosis:,9.724,Cond. No.,63.0


- Nuestro *R cuadrado* es 0.921, el 92 % de lo que cambia la variable respuesta se debe a nuestras variables predictoras.

- Respecto al *error estándar*, los que tienen el valor más bajo son **Depth** y **Table**, lo que quiere decir que la estimación de la variable respuesta será más precisa. El **color** también parece bastante preciso. Sin embargo, tanto x como y tienen valores muy altos.

- Respecto a la *P*, son todas  menores de 0.05, con lo cual son importantes al hacer las predicciones. 
    
- Respecto al *coeficiente*, vemos que sobre todo el **carat (quilates)** tiene un coeficiente muy alto. Cuanto mayor son los quilates, el precio de los diamantes sube mucho. En el caso de **depth** es positivo y con un valor bajo y **table** la relación es inversamente proporcional.

Hacemos lo mismo con los datos sin estandarizar, para comprobar los resultados

In [12]:
df2= pd.read_csv("../ficheros/diamons_01.csv", index_col = 0)
df2.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31


In [13]:
lm2 = ols("price ~ carat + cut + color + clarity + depth + table + x + y + z", data= df2).fit()
sm.stats.anova_lm(lm2)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
cut,4.0,4734489000.0,1183622000.0,1967.220812,0.0
color,6.0,8471829000.0,1411971000.0,2346.745167,0.0
clarity,7.0,9245534000.0,1320791000.0,2195.199369,0.0
carat,1.0,330281200000.0,330281200000.0,548938.65354,0.0
depth,1.0,917976.1,917976.1,1.525708,0.2167635
table,1.0,38778820.0,38778820.0,64.451739,1.010557e-15
x,1.0,644592700.0,644592700.0,1071.335282,1.586443e-232
y,1.0,48958380.0,48958380.0,81.370516,1.9354879999999997e-19
z,1.0,105268700.0,105268700.0,174.960124,7.123557e-40
Residual,50218.0,30214780000.0,601672.3,,


In [15]:
lm2.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.921
Model:,OLS,Adj. R-squared:,0.921
Method:,Least Squares,F-statistic:,25550.0
Date:,"Wed, 25 Jan 2023",Prob (F-statistic):,0.0
Time:,19:17:31,Log-Likelihood:,-405580.0
No. Observations:,50242,AIC:,811200.0
Df Residuals:,50218,BIC:,811400.0
Df Model:,23,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-5013.5990,510.137,-9.828,0.000,-6013.473,-4013.725
cut[T.Good],406.0150,24.325,16.691,0.000,358.338,453.692
cut[T.Ideal],620.6655,24.118,25.735,0.000,573.395,667.936
cut[T.Premium],587.7553,23.043,25.507,0.000,542.590,632.920
cut[T.Very Good],521.6468,23.561,22.140,0.000,475.467,567.826
color[T.E],-162.2045,12.547,-12.928,0.000,-186.797,-137.612
color[T.F],-211.3518,12.742,-16.587,0.000,-236.327,-186.377
color[T.G],-349.9169,12.506,-27.980,0.000,-374.429,-325.405
color[T.H],-708.3351,13.364,-53.004,0.000,-734.528,-682.142

0,1,2,3
Omnibus:,13645.432,Durbin-Watson:,1.094
Prob(Omnibus):,0.0,Jarque-Bera (JB):,104730.262
Skew:,1.098,Prob(JB):,0.0
Kurtosis:,9.724,Cond. No.,12800.0


Los datos nos salen igual que en los estandarizados, por lo que no lo guardamos