# ANOVA

In [1]:
import numpy as np
import pandas as pd
import random 
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.multivariate.manova import MANOVA
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')
plt.rcParams["figure.figsize"] = (10,8) 

In [2]:
sales = pd.read_csv('../regresion_lineal/ficheros/sales3.csv')
sales.head(2)

Unnamed: 0,area_code,state,market,market_size,profit,margin,sales,cogs,total_expenses,marketing,...,budget_cogs,budget_margin,budget_sales,productid,date,product_type,product,type,mes,año
0,203,Connecticut,East,Small Market,107.0,176.0,292.0,116.0,69.0,38.0,...,110.0,160.0,270.0,2,2010-04-01,Coffee,Columbian,Regular,4,2010
1,203,Connecticut,East,Small Market,75.0,135.0,225.0,90.0,60.0,29.0,...,80.0,130.0,210.0,2,2010-07-01,Coffee,Columbian,Regular,7,2010


In [3]:
lm = ols("profit~state+market+market_size+margin+sales+cogs+total_expenses+marketing+inventory+budget_profit+budget_cogs+budget_margin+budget_sales+date+product_type+product+type+mes+año",data= sales).fit()
sm.stats.anova_lm(lm)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
state,19.0,2075144.0,109218.1,186.739401,0.0
market,3.0,25023.72,8341.239,14.26172,3.032354e-09
market_size,1.0,3840.934,3840.934,6.567169,0.0104224
date,23.0,100278.8,4359.946,7.454567,4.162011e-24
product_type,3.0,23999.41,7999.802,13.677936,7.075027e-09
product,12.0,156089.9,13007.49,22.240003,1.794324e-48
type,1.0,1972.897,1972.897,3.373228,0.06633472
margin,1.0,3059914.0,3059914.0,5231.793823,0.0
sales,1.0,307184.6,307184.6,525.219455,1.344904e-109
cogs,1.0,40973.18,40973.18,70.055298,7.770991e-17


In [4]:
#realizamos el summary
lm.summary()

0,1,2,3
Dep. Variable:,profit,R-squared:,0.752
Model:,OLS,Adj. R-squared:,0.748
Method:,Least Squares,F-statistic:,198.3
Date:,"Tue, 14 Feb 2023",Prob (F-statistic):,0.0
Time:,16:59:32,Log-Likelihood:,-19528.0
No. Observations:,4248,AIC:,39190.0
Df Residuals:,4183,BIC:,39600.0
Df Model:,64,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-0.0249,0.004,-6.231,0.000,-0.033,-0.017
state[T.Colorado],-3.1632,1.473,-2.147,0.032,-6.051,-0.275
state[T.Connecticut],-0.4273,1.725,-0.248,0.804,-3.808,2.954
state[T.Florida],-2.3542,1.576,-1.493,0.135,-5.445,0.737
state[T.Illinois],9.5878,1.617,5.928,0.000,6.417,12.759
state[T.Iowa],1.8290,1.589,1.151,0.250,-1.286,4.944
state[T.Louisiana],0.9318,1.634,0.570,0.568,-2.271,4.134
state[T.Massachusetts],-7.5588,1.834,-4.122,0.000,-11.154,-3.963
state[T.Missouri],-2.9465,1.542,-1.911,0.056,-5.970,0.077

0,1,2,3
Omnibus:,1442.275,Durbin-Watson:,1.588
Prob(Omnibus):,0.0,Jarque-Bera (JB):,30624.289
Skew:,1.1,Prob(JB):,0.0
Kurtosis:,15.968,Cond. No.,6.41e+18


Interpretación:
- Vemos que nuestro r_sq y el ajustado tienen un valor de 0.75, con lo cual nuestras variables predictoras representan el 75% de los beneficios de los supermercados.

- Según estado (state) el coeficiente varía de uno a otro, los valores positivos nos indican el aumento del beneficio en función del estado donde se vende el producto, por ejemplo en  Illinois o Iowa entre otros. Sin embargo en otros estados como en Ohio , Utha y otros más, este coeficiente es negativo. Este comportamiento se repite en la mayoría de las variables. Solamente en aquellas referentes al beneficio, ventas y margen es puramente positiva y en gastos (en general) es puramente negativa. 

- Sobre el valor de p-value, descartamos las variables *budget_cogs* y *type* ya que su valor es mayor a 0.05 por lo tanto no son significativas.
- Sobre el valor del error estándar, apreciamos una clara diferencia entre los resultados de las variables categóricas (más alto) que de las variables numéricas (cerca de 0). Cuanto menor sea , más precisa es la estimación. 
- Por lo tanto, decidimos eliminar las columnas *budget_cogs'*, *mes* y *type* y *date*. Nos quedamos con *año* por ser relevante para el modelo. Eliminamos también las columnas *area_code* y *productid* por tener información redundante para el modelo.

In [5]:
sales = sales.drop(columns=["budget_cogs",'type','productid','area_code','mes','date'],axis = 1)


In [6]:
sales.head(2)

Unnamed: 0,state,market,market_size,profit,margin,sales,cogs,total_expenses,marketing,inventory,budget_profit,budget_margin,budget_sales,product_type,product,año
0,Connecticut,East,Small Market,107.0,176.0,292.0,116.0,69.0,38.0,962.0,110.0,160.0,270.0,Coffee,Columbian,2010
1,Connecticut,East,Small Market,75.0,135.0,225.0,90.0,60.0,29.0,1148.0,90.0,130.0,210.0,Coffee,Columbian,2010


In [7]:
sales.to_csv('ficheros/sales4.csv',index = False)