In [57]:
import itertools
import numpy as np
import pandas as pd
import statsmodels.api as sm

Un ingeniero desea producir a escala industrial un tipo de gomina. En su planta de producción encuentra que la temperatura, la tasa de agitación y la presión son las variables que mejor explican la viscosidad de la gomina. Interesa maximizar dicha viscosidad. En las siguientes tablas se muestra la descripción del proceso:


En primer lugar realizamos un diseño factorial para determinar cuales son los datos que deberiamos tener

In [106]:
data_product = np.array(list(itertools.product([200,175,150],
                                               [10.0,7.5,5.0],
                                               [25,20,15]
                                              )))

In [108]:
data_product

array([[200. ,  10. ,  25. ],
       [200. ,  10. ,  20. ],
       [200. ,  10. ,  15. ],
       [200. ,   7.5,  25. ],
       [200. ,   7.5,  20. ],
       [200. ,   7.5,  15. ],
       [200. ,   5. ,  25. ],
       [200. ,   5. ,  20. ],
       [200. ,   5. ,  15. ],
       [175. ,  10. ,  25. ],
       [175. ,  10. ,  20. ],
       [175. ,  10. ,  15. ],
       [175. ,   7.5,  25. ],
       [175. ,   7.5,  20. ],
       [175. ,   7.5,  15. ],
       [175. ,   5. ,  25. ],
       [175. ,   5. ,  20. ],
       [175. ,   5. ,  15. ],
       [150. ,  10. ,  25. ],
       [150. ,  10. ,  20. ],
       [150. ,  10. ,  15. ],
       [150. ,   7.5,  25. ],
       [150. ,   7.5,  20. ],
       [150. ,   7.5,  15. ],
       [150. ,   5. ,  25. ],
       [150. ,   5. ,  20. ],
       [150. ,   5. ,  15. ]])

In [107]:
data_product.shape

(27, 3)

Al tener tres parametros cada uno con tres niveles se deben obtener $3^3 = 27$ corridas en las experimentaciones

In [110]:
# Cargamos los datos entregados
df = pd.read_csv('datasets/parcial_E-II.csv')

Los datos entregados en el problema estában organizados de modo que por cada nivel de se reemplazan los valores con -1, 0 y 1; para poder hallar mas adelante un modelo certero debemos trabajarlos con los datos reales, los cuales toman valores contínuos y no discretos como est´na factorizados

In [113]:
# Mostramos los valores ordenados entre sí por los niveles de las caracteristicas
df.sort_values(['X1','X2','X3'])

Unnamed: 0,Corrida,X1,X2,X3,Viscosidad
0,1,150,5.0,20,537.66
4,5,150,7.5,15,647.66
6,7,150,7.5,25,352.66
2,3,150,10.0,20,598.66
8,9,175,5.0,15,597.66
10,11,175,5.0,25,534.66
12,13,175,7.5,20,654.66
13,14,175,7.5,20,601.66
14,15,175,7.5,20,622.66
9,10,175,10.0,15,650.66


In [115]:
df.shape

(15, 5)

Con las medidas de éste dataframe de entrada podemos decir que faltan corridas por evaluar, ya que tenemos sólo 15 cuando deberíamos tener 27

--------------------------------------------------------------

**a.** Para este diseño se utilizó una metodología de Box and Behnken: utilizando R proponga la matriz del diseño e incluya la variable de respuesta viscosidad con los valores reales

**Solución**

Creamos nuestro modelo pasando como caracteristicas la

In [86]:
model = sm.OLS(df['Viscosidad'].values, df.drop(['Viscosidad','Corrida'],axis = 1), hasconst=True).fit()

In [87]:
model.summary()

  "anyway, n=%i" % int(n))


0,1,2,3
Dep. Variable:,y,R-squared:,-0.193
Model:,OLS,Adj. R-squared:,-0.392
Method:,Least Squares,F-statistic:,-0.9727
Date:,"Sun, 04 Nov 2018",Prob (F-statistic):,1.0
Time:,21:15:04,Log-Likelihood:,-88.24
No. Observations:,15,AIC:,182.5
Df Residuals:,12,BIC:,184.6
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
X1,2.3789,0.803,2.961,0.012,0.629,4.129
X2,19.6383,12.871,1.526,0.153,-8.404,47.681
X3,0.5255,6.082,0.086,0.933,-12.726,13.777

0,1,2,3
Omnibus:,2.827,Durbin-Watson:,1.992
Prob(Omnibus):,0.243,Jarque-Bera (JB):,1.826
Skew:,-0.845,Prob(JB):,0.401
Kurtosis:,2.745,Cond. No.,91.5


In [88]:
# Modelo
f = lambda a,b,c : a*2.3789+b*19.6383 +c*0.5255

In [94]:
f(200,5.0,20)

584.4815

In [93]:
model.predict([150, 5, 20])

array([465.54078712])

In [82]:
help(sm.OLS)

Help on class OLS in module statsmodels.regression.linear_model:

class OLS(WLS)
 |  OLS(endog, exog=None, missing='none', hasconst=None, **kwargs)
 |  
 |  A simple ordinary least squares model.
 |  
 |  
 |  Parameters
 |  ----------
 |  endog : array-like
 |      1-d endogenous response variable. The dependent variable.
 |  exog : array-like
 |      A nobs x k array where `nobs` is the number of observations and `k`
 |      is the number of regressors. An intercept is not included by default
 |      and should be added by the user. See
 |      :func:`statsmodels.tools.add_constant`.
 |  missing : str
 |      Available options are 'none', 'drop', and 'raise'. If 'none', no nan
 |      checking is done. If 'drop', any observations with nans are dropped.
 |      If 'raise', an error is raised. Default is 'none.'
 |  hasconst : None or bool
 |      Indicates whether the RHS includes a user-supplied constant. If True,
 |      a constant is not checked for and k_constant is set to 1 and a