# Diseño Experimental


## 07-01 Diseño Experimental

### 1. Diseño Experimental

En el diseño experimental, mediante el análisis de varianza, se puede obtener la siguiente información.
* Prueba de efectos de factores
* Estimación de efectos de factores
* Estimación de errores

La guía para el agrupamiento es que el valor de F0 sea inferior a 2, o que no sea significativo con un nivel de significancia de aproximadamente el 20%.

Estimación de la media poblacional bajo condiciones óptimas

### 2. Experimento de diseño factorial

Se seleccionan tres factores que afectan a los valores de las características, tomando el factor A con $ l $ niveles, el factor B con $ m $ niveles y el factor C con $ n $ niveles, y se realiza un experimento en todas las combinaciones posibles de niveles de los tres factores. Los experimentos se realizan en un orden aleatorio de todas las combinaciones. Este tipo de experimento se llama experimento de diseño trifactorial.

En un experimento de diseño trifactorial, se pueden analizar las interacciones de dos factores como AxB, AxC y BxC, y además, si se repiten las pruebas para cada combinación de niveles, también se puede analizar la interacción de tres factores AxBxC. Además, los experimentos que manejan más de tres factores se llaman experimentos de diseño factorial múltiple.

## 07-02 Experimento de diseño ortogonal

### 1.Experimento de diseño de tablas ortogonales

Se puede realizar la prueba de los efectos principales y de las interacciones que se desean analizar con un número reducido de experimentos.

Es necesario clasificar de antemano las interacciones en aquellas que se deben considerar y las que se deben ignorar.

* Tabla ortogonal de dos niveles
* Tabla ortogonal de tres niveles


### 2. Experimento de diseño de tablas ortogonales de dos niveles

#### (1) Experimento de diseño de tabla ortogonal de dos niveles

$ L_8(2^7) $ : Símbolo de la matriz
* 8: Número de filas (número de experimentos)
* 2: Dos niveles
* 7: Número de columnas (número máximo de factores que incluyen el error

#### (2) Tratamiento de interacciones

* Solo se considera la interacción de dos factores.
* La presencia o ausencia de la interacción debe determinarse previamente.
* La interacción de dos factores aparece en una sola columna.


### (3) Asignación
* Uso de la diagrama de puntos y líneas
* Experimento de arreglo ortogonal L16 (muestreo aleatorio)


In [36]:
import os

try:
  os.chdir('../Python/QCKentei')
except:
  pass

path = os.getcwd()

In [37]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm
from statsmodels.formula.api import ols

from scipy.stats import f

In [38]:
from pyDOE2 import fullfact
import pandas as pd

# Especificar los niveles de cada factor
levels = [3, 2, 2, 2, 2, 2]  # A: 3 niveles, B～G: 2 niveles

# Generar todas las combinaciones de factores utilizando fullfact
design = fullfact(levels)

# Covertir los niveles a enteros (0, 1, 2 -> 1, 2, 3)
design = design.astype(int) + 1

# Muestreo aleatorio para obtener el número necesario de filas (hacerlo L16)
design = pd.DataFrame(design, columns=['A', 'B', 'C', 'D', 'F', 'G']).sample(n=16, random_state=42).reset_index(drop=True)

# Mostrar los resultados
print("Tabla de arreglo ortogonal L16 (muestreo aleatorio):")
print(design)


Tabla de arreglo ortogonal L16 (muestreo aleatorio):
    A  B  C  D  F  G
0   3  1  2  1  2  2
1   3  2  1  1  2  2
2   2  1  1  1  2  2
3   2  2  2  2  2  2
4   1  2  2  1  2  1
5   2  1  2  1  2  2
6   1  2  2  2  1  2
7   1  1  2  2  2  1
8   1  1  1  1  1  1
9   2  2  2  1  1  1
10  2  2  1  2  1  2
11  1  1  2  1  2  1
12  1  1  2  2  1  1
13  2  2  1  1  1  1
14  2  1  2  1  2  1
15  3  1  1  1  2  1


## 7.1

Q社では機械部品の強度を高めるため強度に影響を及ぼすと考えられる母数因子A、B、C、D、F、Gの六つを取り上げ、いずれも2水準で実験を行った。交互作用としては、AxB、AxC、DxF、CxGの4つが技術的に考えられる。L16直交配列表実験とし、16回の実験はランダムな順序で行った。主効果の割り付けと得られたデータを表7.2に示す。なお、値は大きい方が望ましい。以下の設問に答えよ。
1. データの構造式を示せ
4. 分散分析表を作成せよ
5. プーリング後の分散分析表を作成せよ
6. 分散分析後のデータ構造式を示し、最適条件を求めよ
7. 最適条件における母平均を点推定し、信頼率95%で区間推定せよ


La empresa Q realizó experimentos para aumentar la resistencia de piezas mecánicas, tomando en cuenta seis factores principales que se consideran influyentes en la resistencia: A, B, C, D, F y G, todos ellos con 2 niveles. Como interacciones, se consideran técnicamente AxB, AxC, DxF y CxG. Se utilizó un experimento de arreglo ortogonal L16, y los 16 experimentores se realizaron en un orden aleatorio. La asignación de los efectos principales y los datos obtenidos se muestran en la tabla 7.2. Cabe señalar que es preferible que los valores sean mayores. Responda las siguientes preguntas.
1. Mostrar la estructura de los datos.
4. Elaborar la tabla de análisis de varianza
5. Elaborar la tabla de análisis de varianza después de la agrupación (pooling)
6. Mostrar la estructura de los datos después del análisis de varianza y determinar las condiciones óptimas
7. Realizar la estimación puntual de la media poblacional bajo las condiciones óptimas y realizar una estimación de intervalo con un nivel de confianza del 95%



In [39]:
import pandas as pd
import gspread 
from google.oauth2.service_account import Credentials

# 認証情報の設定
SERVICE_ACCOUNT_FILE = "my-project-vscode-452201-249bdb033f8c.json"  # JSONファイルのパス
SCOPES = ["https://www.googleapis.com/auth/spreadsheets"]

credentials = Credentials.from_service_account_file(SERVICE_ACCOUNT_FILE, scopes=SCOPES)
client = gspread.authorize(credentials)

# スプレッドシートを開く（URLまたはスプレッドシートIDを使用）
SPREADSHEET_ID = "1RkO0VL4WR6cbPBfBEjz693Lo4SdUAoSvRHV491ggXTo"

sheet = client.open_by_key(SPREADSHEET_ID).worksheet("Sheet13") # 最初のシートを取得

# データを取得
list_of_lists = sheet.get_all_values()
df = pd.DataFrame.from_records(list_of_lists)
df.columns = df.iloc[0]
df = df.drop(index=0)
df = df.drop(df.columns[0], axis=1)

df = df.apply(pd.to_numeric)

data = df.copy()

In [40]:
data = data.T
data['Componente'] = ['a', 'b', 'c', 'ac', 'd', 'abd', '-']
data = data.T

print('Tabla 7.2 Asignacíon y datos')
print(data)

Tabla 7.2 Asignacíon y datos
0           A  B  F   G  C    D    y
1           1  1  1   1  1    1   52
2           1  1  1   1  2    2  103
3           1  1  2   2  1    1   50
4           1  1  2   2  2    2  166
5           1  2  1   1  1    2  124
6           1  2  1   1  2    1   87
7           1  2  2   2  1    2  187
8           1  2  2   2  2    1   41
9           2  1  1   2  1    2  185
10          2  1  1   2  2    1  125
11          2  1  2   1  1    2  223
12          2  1  2   1  2    1  131
13          2  2  1   2  1    1  134
14          2  2  1   2  2    2   77
15          2  2  2   1  1    1   65
16          2  2  2   1  2    2  154
Componente  a  b  c  ac  d  abd    -


#### 1. Estructura de los datos

$ x = \mu + a + b + c + d + f + g + (ab) + (ac) + (df) + (dg) + \epsilon  $

Restricciones:

$ \sum a = \sum b = \sum c = \sum d = \sum f = \sum g = 0 $

$ \sum (ab) = \sum (df) = \sum (dg) = 0 $

$ \sum (ab) = (ab)_{11} + (ab)_{12} = (ab)_{21} + (ab)_{22} = (ab)_{11} + (ab)_{21} = (ab)_{12} + (ab)_{22} = 0 $

$ \epsilon \sim N(0, \sigma^2) $

In [41]:
# 4. Tabla de análisis de varianza

# Definición del modelo de regresón
formula = 'y ~ A + B + C + D + F + G + A:B + A:C + D:F + D:G'

# Realización del análisis de regresión
model = ols(formula, data=df).fit()

# Elaboración de la tabla de análisis de varianza
anova_table = sm.stats.anova_lm(model)

# Mostrar los resultados
print("\nTabla 7.5 Tabla de análisis de varianza:")
print(anova_table)


Tabla 7.5 Tabla de análisis de varianza:
           df    sum_sq   mean_sq          F    PR(>F)
A         1.0   5041.00   5041.00   6.312692  0.053663
B         1.0   1722.25   1722.25   2.156722  0.201883
C         1.0   1156.00   1156.00   1.447624  0.282766
D         1.0  17822.25  17822.25  22.318264  0.005223
F         1.0   1056.25   1056.25   1.322710  0.302125
G         1.0     42.25     42.25   0.052908  0.827192
A:B       1.0   5700.25   5700.25   7.138251  0.044256
A:C       1.0    676.00    676.00   0.846534  0.399749
D:F       1.0   7744.00   7744.00   9.697577  0.026428
D:G       1.0      1.00      1.00   0.001252  0.973140
Residual  5.0   3992.75    798.55        NaN       NaN


In [42]:
def pool(anova_table, pool_factors, pool_):
  # Calcular el error agrupado (pooling)
  pooled_error_ss = anova_table.loc[pool_factors, 'sum_sq'].sum()  # Calucar el error agrupado (pooling)
  pooled_error_df = anova_table.loc[pool_factors, 'df'].sum()      # Calucar el grados de libertad agrupado (pooling)

  # Tabla de análisis de varianza de los factores
  anova_table = anova_table.drop(index=pool_factors)

  # Actualizar el término de error
  anova_table.loc[pool_] = [
      anova_table.loc[pool_, 'sum_sq'] + pooled_error_ss,  # Nueva suma de cuadrados del error
      anova_table.loc[pool_, 'df'] + pooled_error_df,      # Nuevos grados de libertad
      None,  # Mean Square
      None   # F-statistic
  ]

  # Calcular la media de los cuadrados
  anova_table['mean_sq'] = anova_table['sum_sq'] / anova_table['df']

  # Calcular el valor F
  anova_table['F'] = anova_table['mean_sq'] / anova_table.loc['Residual', 'mean_sq']

  # Calcular el valor p
  anova_table['PR(>F)'] = f.sf(anova_table['F'], anova_table['df'], anova_table.loc['Residual', 'df'])

  return anova_table

In [43]:
# 5. Elaborar la tabla de análisis de varianza después de la agrupación (pooling)

# Obtener la tabla de análisis de varianza
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table = pool(anova_table,['C', 'G', 'A:C', 'D:G'], 'Residual')

# Mostrar los resultados
print("Tabla 7.6 Tabla de análisis de varianza (después de pooling):")
print(anova_table)

Tabla 7.6 Tabla de análisis de varianza (después de pooling):
            sum_sq   df          F    PR(>F)   mean_sq
A          5041.00  1.0   7.731595  0.021381   5041.00
B          1722.25  1.0   2.641488  0.138551   1722.25
D         17822.25  1.0  27.334739  0.000543  17822.25
F          1056.25  1.0   1.620015  0.234984   1056.25
A:B        5700.25  1.0   8.742715  0.016042   5700.25
D:F        7744.00  1.0  11.877301  0.007317   7744.00
Residual   5868.00  9.0   1.000000  0.500000    652.00


#### 6. Estructura de los datos después del análisis de varianza

$ x = \mu + a + b + d + f + (ab) + (df) $

In [44]:
# 7. Estimación puntual del media poblacional en las condiciones óptimas

means=0
for factor in [ ['A','B'], ['D','F']]:
    means += df.groupby(factor)['y'].mean().max()

mean_x = means - df['y'].mean()

print(f"Estimación de la media poblacional en las condicones óptimas: {mean_x}")

Estimación de la media poblacional en las condicones óptimas: 229.5


In [45]:
# 7. Estimaci[on de intervalo con un nivel de confianza del 95%]

from scipy import stats

# Número efectivo de repeticiones
N = len(df)
s = 1

for i in ['A','B','D','F','A:B','D:F']:
  s += anova_table.loc[i,'df']
ne = s/N

# Varianza del error
Ve = anova_table.loc['Residual','mean_sq']
df2= anova_table.loc['Residual','df']

p = 0.05
t_value = stats.t.ppf(1 - p/2, df=df2)

S = (ne*Ve)**0.5

UL = mean_x + t_value*S
LL = mean_x - t_value*S

print(f"Intervalo de confianza del 95%: ({LL:.1f}, {UL:.1f})")


Intervalo de confianza del 95%: (191.3, 267.7)


### 3.  Experimento con arreglo ortogonal de 3 niveles

#### (1) Experimento con arreglo ortogonal de 3 niveles

En el experimento con arreglo ortogonal de 3 niveles, se manejan factores de 3 niveles. El concepto y el método de análisis son casi los mismos que en el caso de 2 niveles, pero hay una diferencia importante: el grado de libertad del efecto principal de un factor de 3 niveles es 2, por lo que el grado de libertad de una sola columna es 2, y el grado de libertad de una interacción es 2x2=4. Debido a esto, la interacción aparece en dos columnas.

$ L_{27} (3^{13}) :$

27: Número de filas como número de experimentos

3: Sistema de 3 niveles

13: Número de columnas

### (2) Manejo y asignación de las interacciones

Cuando los simbolos de los componentes de las columnas asignadas a los factores X y Z son p y q, respectivamente, la interacción $ X \times Y $ aparece en dos columnas cuyos símbolos de componentes son $ p \times q $ y $ p \times q^2 $. Aquí, se asume que $ a^2 = b^2 = c^2 ... = 1 $. Si no se encuentra una columna correspondiente mediante este procedimiento, se considera el cuadrado de los componentes obtenidos, es decir $ (pq)^2 $ o $ (pq^2)^2 $.


### 7.2

Q社では、水中の残留成分の低減に取り組むことになった。残留成分に影響を与えると考えられるA、B、C、D、Fの五つの母数因子（各3水準）を取り上げ、$ L_{27} $ 直交配列表により実験した。

交互作用は、技術的に見てAxB、AxD、AxFの３つが考えられる。27回の実験はランダムな順序で行った。主効果の割り付けと得られたデータ表を表7.9に示す。値は小さい方が望ましい。以下の設問に答えよ。

2. 分散分析表を作成し、プーリングについて検討せよ

En la empresa Q, se ha decidido trabajar en la reducción de los componentes residuales en el agua. Se seleccionaron cinco factores poblacionales (A, B, C, D y F), cada uno con 3 niveles, que se consideran influyentes en los componentes residuales, y se realizó el experimento utilizando un arreglo ortogonal L27.

Las interacciones que se consideran posibles desde el punto de vista técnico son tres: AxB, AxD y AxF. Los 27 experimentos se realizaron en un orden aleatorio. La asignación de los efectos principales y tabla de datos obtenidos se muestran en la Tabla 7.9. Se desea que los valores sean lo más pequeños posible. Responda a las siguientes preguntas.

2. Elabora la tabla de análisis de varianza y examina la posibilidad de pooling.


In [46]:
# Obtener los datos (como lista)
sheet = client.open_by_key(SPREADSHEET_ID).worksheet("Sheet15") # 最初のシートを取得

# データを取得
list_of_lists = sheet.get_all_values()

df = pd.DataFrame.from_records(list_of_lists)
df.columns = df.iloc[0]
df = df.drop(index=0)
df = df.drop(df.columns[0], axis=1)

df['x'] = df['x'].apply(pd.to_numeric)

data = df.copy()

In [47]:
data = data.T
data['Componente'] = ['a', 'c','bc^2', 'bc', 'd', '-']
data = data.T

print('Tabla 7.9 Asignacíon y datos')
print(data)

data.to_excel('Data_1/data15.xlsx')

Tabla 7.9 Asignacíon y datos
0           A  B     F   G  D     x
1           1  1     1   1  1  0.63
2           1  2     2   2  1  0.64
3           1  3     3   3  1  0.27
4           1  1     3   2  2  0.52
5           1  2     1   3  2  0.48
6           1  3     2   1  2  0.61
7           1  1     2   3  3  0.75
8           1  2     3   1  3  0.42
9           1  3     1   2  3  0.46
10          2  1     1   1  1  0.59
11          2  2     2   2  1  0.68
12          2  3     3   3  1  0.49
13          2  1     3   2  2  0.46
14          2  2     1   3  2  0.66
15          2  3     2   1  2   0.8
16          2  1     2   3  3  0.86
17          2  2     3   1  3  0.66
18          2  3     1   2  3  0.97
19          3  1     1   1  1  0.62
20          3  2     2   2  1  0.64
21          3  3     3   3  1  0.44
22          3  1     3   2  2  0.39
23          3  2     1   3  2  0.49
24          3  3     2   1  2  0.82
25          3  1     2   3  3  0.89
26          3  2     3   1  3  0.29

In [48]:
# Convertir los factores en tipo categórico
factors = df.columns.tolist()
for factor in factors[:-1]:
    df[factor] = df[factor].astype('category')

# Crear un modelo de análisis de
model = ols('x ~ A + B + G + D + F + A:B + A:D + A:F', data=df).fit()

# Elaboración de la tabla de análisis de varianza
anova_table = sm.stats.anova_lm(model)

# Mostrar los resultados
print(anova_table)

           df    sum_sq   mean_sq          F    PR(>F)
A         2.0  0.122007  0.061004  10.142241  0.027131
B         2.0  0.031296  0.015648   2.601601  0.188904
G         2.0  0.002941  0.001470   0.244458  0.794030
D         2.0  0.032807  0.016404   2.727217  0.178998
F         2.0  0.420230  0.210115  34.932882  0.002932
A:B       4.0  0.083370  0.020843   3.465209  0.128001
A:D       4.0  0.067926  0.016981   2.823276  0.169448
A:F       4.0  0.045170  0.011293   1.877463  0.278382
Residual  4.0  0.024059  0.006015        NaN       NaN


In [49]:
# Obtener la tabla de análisis de varianza
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table = pool(anova_table,['G', 'A:F'], 'Residual')

# Mostrar los resultados
print("Tabla de análisis de varianza (despues de pooling):")
print(anova_table)

Tabla de análisis de varianza (despues de pooling):
            sum_sq    df          F    PR(>F)   mean_sq
A         0.122007   2.0   8.452735  0.007092  0.061004
B         0.031296   2.0   2.168223  0.165117  0.015648
D         0.032807   2.0   2.272914  0.153570  0.016404
F         0.420230   2.0  29.113723  0.000068  0.210115
A:B       0.083370   4.0   2.887971  0.079145  0.020843
A:D       0.067926   4.0   2.352971  0.124230  0.016981
Residual  0.072170  10.0   1.000000  0.500000  0.007217


## 07-03 Método de múltiples niveles y Método cuasi-nivelado

#### 1. Método de múltiples niveles y Método cuasi-nivelado

Al realizar experimentos utilizando tablas de diseño ortogonal, puede haber casos en los que sea difícil o inconveniente unificar todos los factores a dos o tres niveles. En tales casos, también es posible realizar experimentos utilizando factores con nun número de niveles diferente al de la mayoría de los otros factores.

#### 2. Método de múltiples niveles utilizando una tabla ortogonal de dos niveles

In [50]:
# L16 ortogonal（2^15: 15 columns × 16 filas）
L16 = [
    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
    [1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
    [1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2],
    [1, 1, 2, 2, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1],
    [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1],
    [1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    [1, 2, 2, 1, 1, 2, 2, 1, 2, 1, 1, 2, 2, 1, 1],
    [1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 2, 1, 1, 2, 2],
    [2, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 2],
    [2, 1, 1, 2, 2, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1],
    [2, 1, 2, 1, 1, 2, 1, 2, 1, 2, 1, 2, 2, 1, 2],
    [2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1],
    [2, 2, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 1],
    [2, 2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2],
    [2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1],
    [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 2]
]

# DataFrame de la tabla L16
df = pd.DataFrame(L16, columns=['B', 'L2', 'L3', 'L1', 'C', 'D', 'E', 'F', 'L9', 'L10', 'L11', 'L12', 'L13', 'L14', 'L15'])

# Crear el factor A con 4 niveles (generado a partir de la combinación de L1, L2 y L3)
def convert_to_4_levels(row):
    return (row['L1'] - 1)*2  + (row['L2'] - 1) + 1

df['A'] = df[['L1', 'L2', 'L3']].apply(convert_to_4_levels, axis=1)

# Eliminar L1, L2, L3（ya que se han integrado en A）
df = df.drop(columns=['L1', 'L2', 'L3', 'L9', 'L10', 'L11', 'L12', 'L13', 'L14', 'L15'])

# Ordenar las columnas
df = df[['A', 'B', 'C', 'D', 'E', 'F']]

# Ordenar las columnas
print(df)


    A  B  C  D  E  F
0   1  1  1  1  1  1
1   1  1  2  2  2  2
2   3  1  1  1  2  2
3   3  1  2  2  1  1
4   4  1  1  2  1  2
5   4  1  2  1  2  1
6   2  1  1  2  2  1
7   2  1  2  1  1  2
8   3  2  1  2  2  1
9   3  2  2  1  1  2
10  1  2  1  2  1  2
11  1  2  2  1  2  1
12  2  2  1  1  1  1
13  2  2  2  2  2  2
14  4  2  1  1  1  1
15  4  2  2  2  2  2


#### 3. Método cuasi-nivelado utilizando una tabla ortogonal de tres niveles

#### 4. Método cuasi-nivelado utilizando una tabla ortogonal de dos niveles

In [51]:
# L16(2^15) Tablas de diseño ortogonal
# (definición de los más representativos)
L16 = np.array([
    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
    [1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
    [1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2],
    [1, 1, 2, 2, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1],
    [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1],
    [1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    [1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2],
    [1, 2, 2, 1, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1],
    [2, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 2, 2, 1, 1],
    [2, 1, 1, 2, 2, 1, 1, 2, 1, 2, 2, 1, 1, 2, 2],
    [2, 1, 2, 1, 1, 2, 1, 2, 2, 1, 2, 1, 1, 2, 1],
    [2, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 2, 2, 1, 2],
    [2, 2, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2, 1],
    [2, 2, 1, 1, 2, 2, 1, 1, 1, 1, 2, 2, 1, 1, 2],
    [2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2, 1, 1, 1],
    [2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2]
])

# Asignación de A (tres niveles): duplicar A2 para expresarlo
# en una tabla ortogonal de dos niveles

A = np.tile([1, 2, 3, 2], 4)
B, C, D, F, G = L16[:, 0], L16[:, 1], L16[:, 2], L16[:, 3], L16[:, 4]

# Elaborar una tabla de planificación experimental
df = pd.DataFrame({
    'A': A,
    'B': B,
    'C': C,
    'D': D,
    'F': F,
    'G': G
})

print(df)

    A  B  C  D  F  G
0   1  1  1  1  1  1
1   2  1  1  1  1  2
2   3  1  1  2  2  1
3   2  1  1  2  2  2
4   1  1  2  1  2  1
5   2  1  2  1  2  2
6   3  1  2  2  1  1
7   2  1  2  2  1  2
8   1  2  1  1  2  1
9   2  2  1  1  2  2
10  3  2  1  2  1  1
11  2  2  1  2  1  2
12  1  2  2  1  1  1
13  2  2  2  1  1  2
14  3  2  2  2  2  1
15  2  2  2  2  2  2


### 7.3
Q社では、塗料の付着性に影響するA、B、C、D、F、Gの六つの母数因子を取り上げ実験を行った。Aは３水準とし、他は２水準とした。交互作用はAxB、AxC、BxCの三つが技術的に考えられるため、L16直交配列表実験とし、１６回の実験はランダムな順序で行い、割り付けと得られたデータ表を7.14に示す。値は大きい方が望ましい。

2. 分散分析表を完成させよ。

En la empresa Q, se realizó un experimento considerando seis factores principales que afectan la adherencia de la pintura: A, B, C, D, F y G. El factor A se estableció en tres niveles, mientras que los demás dos niveles. Dado que técnicamente se consideran posibles tres interacciones: AxB, AxC y BxC, se llevó a cabo un experimento utilizando la tabla ortogonal L16. Los ensayos se realizaron en un orden aleatorio. La asignación y los datos obtenidos se muestran en la Tabla 7.14. Un valor es más deseable.

2. Calcule cada suma de cuadrados y compute la tabla de análisis de varianza.

In [52]:
# Obtener los datos (como lista)
sheet = client.open_by_key(SPREADSHEET_ID).worksheet("Sheet14") # 最初のシートを取得

# データを取得
list_of_lists = sheet.get_all_values()

df = pd.DataFrame.from_records(list_of_lists)
df.columns = df.iloc[0]
df = df.drop(index=0)
df = df.drop(df.columns[0], axis=1)

df = df.apply(pd.to_numeric)
# Definir los nombres de los factores
factors = df.columns.tolist()

df['y'] = [29,17,22,10,29,35,26,28,13,35,46,60,21,13,46,66]
data = df.copy()

data = data.T
data['No'] = ['-','[1]','[8]','[11]','[13]','[15]','-']
data['Compo'] = ['bc', 'a','d', 'abd', 'acd', 'abcd','-']
data = data.T

data.to_excel('Data_1/data14.xlsx')

print('Tabla 7.14 Asignacíon y datos')
print(data)

Tabla 7.14 Asignacíon y datos
0       A    B    E     D     F     G   y
1       1    1    1     1     1     1  29
2       1    1    2     2     2     2  17
3       2    1    1     1     2     2  22
4       2    1    2     2     1     1  10
5       3    1    1     2     1     2  29
6       3    1    2     1     2     1  35
7       2    1    1     2     2     1  26
8       2    1    2     1     1     2  28
9       1    2    1     2     2     2  13
10      1    2    2     1     1     1  35
11      2    2    1     2     1     1  46
12      2    2    2     1     2     2  60
13      3    2    1     1     2     1  21
14      3    2    2     2     1     2  13
15      2    2    1     1     1     2  46
16      2    2    2     2     2     1  66
No      -  [1]  [8]  [11]  [13]  [15]   -
Compo  bc    a    d   abd   acd  abcd   -


In [53]:
# Tabla orgogonal L16 (A: 3 niveles, los demás: 2 niveles)

# Convertir los factores al tipo categórico
for factor in factors:
    df[factor] = df[factor].astype('category')

model = ols('y ~ A + B + E + D + F + G + A:B + A:E + B:E', data=df).fit()

# Crear la tabla de análisis de varianza (ANOVA)
anova_table = sm.stats.anova_lm(model, typ=2)

# Mostrar los resultados
print("Tabla 7.19 Tabla de análisis de varianza (ANOVA):")
print(anova_table)

Tabla 7.19 Tabla de análisis de varianza (ANOVA):
          sum_sq   df          F    PR(>F)
A          786.0  2.0   6.550000  0.080435
B          676.0  1.0  11.266667  0.043844
E           64.0  1.0   1.066667  0.377662
D          196.0  1.0   3.266667  0.168429
F           36.0  1.0   0.600000  0.495025
G          100.0  1.0   1.666667  0.287190
A:B       1728.0  2.0  14.400000  0.028976
A:E         34.0  2.0   0.283333  0.771415
B:E        256.0  1.0   4.266667  0.130793
Residual   180.0  3.0        NaN       NaN


In [54]:
from scipy.stats import f

# Obtener la tabla de análisis de varianza
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table = pool(anova_table,['F','G', 'A:E'], 'Residual')

# Mostrar los resultados
print("Tabla 7.20 Tabla de análisis de varianza (después de pooling):")
print(anova_table)

Tabla 7.20 Tabla de análisis de varianza (después de pooling):
          sum_sq   df      F    PR(>F)  mean_sq
A          786.0  2.0   7.86  0.016234    393.0
B          676.0  1.0  13.52  0.007891    676.0
E           64.0  1.0   1.28  0.295165     64.0
D          196.0  1.0   3.92  0.088195    196.0
A:B       1728.0  2.0  17.28  0.001961    864.0
B:E        256.0  1.0   5.12  0.058096    256.0
Residual   350.0  7.0   1.00  0.500000     50.0


## 07-04 Método de Bloques Aleatorios y Experimento de Diseño en Árbol


### 1. Método de Bloques Aleatorios

Se introduce un factor de bloque, que es un factor variable, en algunos de los factores seleccionados, y dentro de cada bloque se experimentan todos los niveles de los factores controlados (factores de parámetros), repitiendo esto en varios bloques.

El factor de bloque es un factor no reproducible, como el día, el lote de materia prima o el suelo, y no tiene sentido buscar niveles óptimos. En el método de bloques aleatorios, se puede probar el efecto del factor de bloque y, además, estimar la variabilidad entre bloques. Es importante notar que el efecto del factor de bloque es una variabilidad aleatoria, a diferencia del efecto de los factores controlados, que es constante.

## 7.4

母数因子（４水準）を取り上げて実験を行うことになった。周囲の温度や湿度などの影響が考えられるため、実験日をブロック因子としてランダムに選んだ３日間に実験を行った。すなわち、１日にA1～A4の水準の実験をランダムな順序で行い、これを３日間にわたり反復し計１２回実施した。以下の設問に答えよ。
1. データの構造式を示せ。
2. 各平方和と自由度を計算して、表7.21の分散分析表を得た（平方和と自由度は、繰り返しのない二元配置実験の場合と同様に求めることが出来る）ブロック間変動 $ \sigma_{R}^2 $を推定せよ。

Se ha decidido realizar un experimento con un factor controlado (de 4 niveles). Debido a la posible influencia de factores como la temperatura y la humedad del entorno, se eligieron aleatoriamente tres días para llevar a cabo el experimento, considerando el día como un factor de bloque. Es decir, en cada día se realizó el experimento con los niveles A1 a A4 en un orden aleatorio, repitiendo este proceso durante tres días, para un total de 12 repeticiones. Responda las siguientes preguntas.
1. Muestre la fórmula estructural de los datos.
2. Calcule las sumas de cuadrados y los grados de libertad, y obtenga la tabla de análisis de varianza de la tabla 7.21 (las sumas de cuadrados y los grados de libertad se pueden calcular de la misma manera que en un experimento de diseño factorial sin repeticiones) y estime la variabilidad entre bloques $ \sigma_{R}^2 $.

In [55]:
# Obtener los datos (como lista)
sheet = client.open_by_key(SPREADSHEET_ID).worksheet("Sheet16") # 最初のシートを取得

# データを取得
list_of_lists = sheet.get_all_values()

df = pd.DataFrame.from_records(list_of_lists)
df.columns = df.iloc[0]
df = df[1:]
df = df.set_index(df.columns[0])

df.iloc[:,:-1] = df.iloc[:,:-1].apply(pd.to_numeric)

data = df.copy()

print('Tabla 7.21 Tabla de análisis de varianza')
print(data)

Tabla 7.21 Tabla de análisis de varianza
0           S  DF     V    F0  E(V)
Factor                             
A         140   3  46.7  38.9  V(A)
R          23   2  11.5  9.58  V(R)
E(Error)    7   6  12.0   NaN  V(E)
Total     170  11   NaN   NaN      


#### 1. Estructura de los datos

$ x_{ij} = \mu + a_i + r_j + \epsilon_{ij} $

$ \sum_i^4 a_i = 0, \qquad r_j\sim N(0, \sigma_{R}^2), \qquad \epsilon_{ij} \sim N(0, \sigma^2) $



#### 2. Estimación de la varianza del factor bloque

1. Se realizarán experimentos con 4 niveles (A1 a A4)
2. Se repetirá durante 3 días, realizando un total de 12 experimentos

$ Var(A) = \sigma^2 + 3 \sigma_A^2 $

$ Var(R) = \sigma^2 + 4 \sigma_R^2 $

$ Var(E) = \sigma^2 $


In [56]:
# Datos proporcionados
S_A = df.iloc[0,0]
DF_A = df.iloc[0,1]
S_R = df.iloc[1,0]
DF_R = df.iloc[1,1]
S_E = df.iloc[2,0]
DF_E = df.iloc[2,1]

# Cálculo de la varianza (V)
V_A = S_A / DF_A
V_R = S_R / DF_R
V_E = S_E / DF_E

# Cálculo del valor F
F_0_A = V_A / V_E
F_0_R = V_R / V_E

# Estimación de la variabilidad entre bloques
k = 4 # 4 niveles (A1 a A4)
sigma_R_squared = (V_R - V_E)/k

print(f"Variabilidad enttre bloques (V_R - V_E)/4: {sigma_R_squared:.2f}")

Variabilidad enttre bloques (V_R - V_E)/4: 2.58


### 2. Experimento de Diseño en Árbo

El experimento ramificado es un diseño experimental cuyo objetivo es la estimación de los componentes de la varianza.

Por ejemplo, si se toman dos muestras de varios lotes y la muestra se mide dos veces, es posible determinar el error entre lotes, el error entre muestras y el error de medición.

## 7.5

Q社では、１バッチを１ロットとする生産方式で、工業用薬品を製造している。この製品は不純物Cの含有量が重要特性であり、今回、そのばらつき状況を把握するため、枝分かれ実験を行った。実験は、ランダムに選んだ $ l = 3 $ ロット $ (L_1 \sim L_3) $ から、それぞれランダムに $ m=2 $ サンプル $ (S_1 \sim S_2) $ 採取し、それぞれのサンプルを $ n = 2 $ 回ずつ不純物 $ C $ の含有率を測定 $ (M_1, M_2)$した。得られたデータから、ロット間変動、サンプリング誤差、測定誤差を推定する。以下の設問に答えよ。
1. データの構造式を示せ
2. 得られた表７．２２　分散分析表から、各分散成分を推定せよ

En la empresa Q, se fabrica un producto químico industrial mediante un sistema de producción en el que un lote corresponde a un solo batch. Este producto tiene como característica importante el contenido de la impureza C, y en esta ocasión, se realizó un experimento ramificado para comprender la variabilidad de dicha impureza.

El experimento se llevó a cabo seleccionando aleatoriamente $ l=3 $ lotes $(L_1 \sim L_3) $, de los cuales se tomaron aleatoriamente $ m=2 $ muestras $ (S_1 \sim S_2) $ de cada lote. Luego, el contenido de la impureza C en cada muestra se midió $ n=2 $ veces $ (M_1, M_2) $.

A partir de los datos obtenidos, se estimaron la variabilidad entre lotes, el error de muestreo y el error de medición. Responda las siguientes preguntas.

1. Muestre la fórmula estructural de los datos.
2. A partir de la tabla de análisis de varianza (Tabla 7.22) obtenida, estime cada componente de varianza.


In [57]:
# Obtener los datos (como lista)
sheet = client.open_by_key(SPREADSHEET_ID).worksheet("Sheet17") # 最初のシートを取得

# データを取得
list_of_lists = sheet.get_all_values()

df = pd.DataFrame.from_records(list_of_lists)
df.columns = df.iloc[0]
df = df[1:]
df = df.set_index(df.columns[0])

df.iloc[:,:-1] = df.iloc[:,:-1].apply(pd.to_numeric)

data = df.copy()

print('Tabla 7.22 Tabla de análisis de varianza')
print(data)

Tabla 7.22 Tabla de análisis de varianza
0            S  DF     V    F0 E(V)
Factor                             
L         82.7   2  41.4   9.7   VL
S         12.8   3  4.27  4.64   VS
M          5.5   6  0.92   NaN   VM
Total    101.0  11   NaN   NaN     


#### 1. Estructura de los datos

$ x_{ijk} = \mu + \alpha_i + \beta_{ij} + \epsilon_{ijk} $

$ \alpha_{i}: $ Variación entre lotes

$ \beta_{ij}: $ Error de muestreo

$ \epsilon_{ijk} :$ Error de medición

$ V(\alpha_{i}) = \sigma_L^2 $

$ V(\beta_{ij}) = \sigma_S^2 $

$ V(\epsilon_{ijk}) = \sigma_M^2 $

## 07-05 Método de división

### 1. Método de división

Los experimentos del diseño factorial de dos factores y los diseños factoriales de múltiples dimensiones se basan en la premisa de realizarse en un orden aleatorio. Sin embargo, en la  práctica, no siempre es fácil llevar a cabo los experimentos en un orden completamente aleatorio.

##### (1) Puntos clave del método de división

1. El factor cuyo nivel es difícil de cambiar se considera el primer factor, mientras que el factor cuyo nivele es relativamente fácil de cambiar se toma como el segundo factor. Además, también se puede considerar un tercer, un cuarto, y así sucesivamente.
2. El método de división en dos etapas se refiere a la consideración de hasta tres factores, mientras que el método de división en tres etapas se aplica cuando se consideran hasta cuatro factores.
3. Al establecer los niveles del primer factor, se genera un error primario, el cual se considera que persiste como un error común incluso cuando se cambian los niveles del segundo factor.
4. Al establecer los niveles del segundo factor, se genera un error secundario. De esta manera, en el método de división, cada división introduce un nuevo error, dando lugar a la aparición de múltiples errores.
5. La unidad en la que el error primario es común para una combinación de niveles se denomina unidad primaria, y la unidad en la que el error secundario es común se llama unidad secundaria. Lo mismo se aplica a los niveles tercero y siguientes.
6. Debido a la reducción en los grados de libertad del error primario, el poder de detección del efecto del primer factor disminuye.

### 2. Método de división utilizando una tabla ortogonal de 2 niveles

En los experimentos con diseños de tablas ortogonales, también es posible aplicar el método de división. En el método de división utilizando tablas ortogonales, se utilizan los grupos indicados en la tabla ortogonal

#### (1) Puntos clave del método de división utilizando una tabla ortogonal de dos niveles

1. El primer factor se asigna a varios grupos consecutivos dentro de un grupo. Las columnas que pertenecen a estos grupos se denominan unidades primarias.
2. El segundo factor se asigna a varios grupos consecutivos que siguen al grupo de unidades primarias. Lo mismo se aplica si hay un tercer factor. Las columnas que pertenecen a estos grupos se denominan columnas de unidades secundarias, unidades terciarias, y así sucesivamente.
3. Las columnas en las que aparece la interacción tienen las siguientes reglas.
* La interacción entre dos columnas asignadas a diferentes grupos aparece en el grupo de mayor grado.
* La interacción entre dos columnas asignadas al mismo grupo aparece en el grupo de menor dimensión.
4. Las columnas vacías del grupo al que se asigna el primer factor se consideran como error primario, y las columnas vacías del grupo al que se asigna el segundo factor se consideran como error secundario. Lo mismo se aplica para los factores de tercer nivel en adelante.
5. El cálculo de la suma de los cuadrados y los grados de libertad para factor se realiza de la misma manera que en la sección 7.2.
6. La elaboración de la tabla de análisis de varianza y el procedimiento de prueba son los mismos que en el método de división.


## 7.6

Q社では金属材料の強度を上げる検討をしている。強度に影響を及ぼすと考えられるA、B、C、D、Fの5つの母数因子（いずれも２水準）を取り上げて実験を行うことになった。交互作用としては、ＡｘＣ、ＢｘＤ、ＢｘＦ、ＣｘＦが考えらえる。実験はＬ１８直交配列表を用いて以下の方法で実施した。
1. 一日に８回しか実験が出来ないので、反復Ｒをいれて、２日間にわたって８回ずつ実験を反復する。反復Ｒを割り付けた第[1]列のブロックに着目して、「Ｎｏ１～Ｎｏ８」のブロックの実験と「Ｎｏ９～Ｎｏ１６」のどちらを先に行うのかをランダムに定める。その結果「Ｎｏ９～Ｎｏ１６」→「Ｎｏ１～Ｎｏ８」となった。
2. 一次因子ＡとＢの４通りの水準組み合わせ「果、A1B2→A2B2→A2B1→A1B1とした。
3. 「Ｎｏ９～Ｎｏ１６］においてA1B2水準で行う実験、すなわち、Ｎｏ１１とＮｏ１２のどちらを先に実験するかをランダムに定める。その結果、Ｎｏ１１→Ｎｏ１２とした。
4. A1B2水準で作成された半製品について、Ｎｏ１１のＣ、Ｄ、Ｆの水準で複合材を作成し、強度を測定する。
5. 前日の2.で定めた順序に従って、同様に実験と測定を行う。
6. もう一度反復し、Ｎｏ１～Ｎｏ８の実験をおこなう。順序は、再びランダムな順序にする。

割り付け、実験順序、得られたデータを表７．２３に示す。データは、値が大きい方が望ましい。
以下の設問に答えよ。

2. データの構造式を示せ。
3. 分散分析表を作成せよ。
4. プーリング後の分散分析表を作成せよ。
5. 分散分析後の構造式を示せ。
6. 最適条件における母平均の点推定値を信頼率９５％区間で推定せよ。


La empresa Q está investigando cómo mejora la resistencia de los materiales metálicos. Se han identificado cinco factores principales que pueden influir en la resistencia: A, B, C, D y F. El experimento se llevó a cabo utilizando una matriz ortogonal L18 según el siguiete método.

1. Como solo se pueden realizar 8 experimentos por día, se introduce la repetición R y se repiten 8 experimentos durante dos días. Enfocándose en el bloque de la primera columna al que se asigna la repetición R, se determina aleatoriamente si se debe realizar primero el experimento del bloque No1 a No8 o el del bloque No9 a No16. El resultado fue No9 a No16 → No1 a No8.
2. Se establecieron las cuatro combinaciones de niveles de los factores principales A y B como sigue: A1B2→A2B2→A2B1→A1B1.
3. En el bloque de No9 a No16, se determina aleatoriamente cuál de los experimentos A1B2 se realizará primero, es decir, si se realizará primero el experimento No11 o el No12. El resultado fue No11→No12.
4. Para los semi-productos creados en el nivel A1B2, se fabricarán materiales compuestos en los niveles C, D y F del No11, se medirá su resistencia.
5. Siguiendo el orden determinado en el punto 2 del día anterior, se realizarán los experimentos y mediciones de la misma manera.
6. Se repetirá nuevamente y se realizarán los experimentos de No1 a No8. El orden será nuevamente aleatorio.

La asignación, el orden de los experimentos y los datos obtenidos se muestran en la tabla 7.23. Se desea que los valores sean lo más grandes posible. Responde a los siguientes.

2. Muestre la fórmula de la estructura de los datos.
3. Cree la tabla de análisis de varianza.
4. Cree la tabla de análisis de varianza después de la agrupación.
5. Muestra la fórmula de la estructura después del análisis de varianza.
6. Estime el valor puntual de la media poblacional bajo las condiciones óptimas en un intervalo de confianza del 95%.

#### 2. Estructura de los datos

$ x = \mu + r + a + b + (cf) + \epsilon(1) c + d + f + (ac) + (bd) + (bf) + \epsilon(2) $

$ \sum a = \sum b = \sum c = \sum d = \sum f = 0 $

$ \sum (ac) = \sum (bd) = \sum (bf) = \sum (cf) = 0 $

$ r \sim N(0, \sigma_R^2 ), \qquad \epsilon(1) \sim N(0, \sigma_{(1)}^2), \qquad \epsilon(2) \sim N(0, \sigma_{(2)}^2 ) $

In [58]:
# Obtener los datos (como lista)
sheet = client.open_by_key(SPREADSHEET_ID).worksheet("Sheet12") # 最初のシートを取得

# データを取得
list_of_lists = sheet.get_all_values()

df = pd.DataFrame.from_records(list_of_lists)
df.columns = df.iloc[0]
df = df.drop(index=0)
df = df.drop(df.columns[0], axis=1)

df = df.apply(pd.to_numeric)

data = df.copy()

In [59]:
data = data.T
data['No'] = ['[1]','[2]','[3]','[4]','[5]','[7]','[8]','[12]','[13]','[14]','[15]','-']
data['Compo'] = ['a','b','ab','c','ac','abc','d','cd','acd','bcd','abcd','-']
data['grupo'] = [1,2,2,3,3,3,4,4,4,4,4,"-"]
data = data.T

data['Orden'] = [11,12,16,15,14,13,9,10,8,7,1,2,5,6,4,3,'-','-','-']

In [60]:
data.to_excel('Data_1/data.xlsx')

print('Tabla 7.23 Tabla de análisis de varianza')
print(data)

Tabla 7.23 Tabla de análisis de varianza
0        R    A   h3    B   h5   e1    C   h12     D   h14     F   x Orden
1        1    1    1    1    1    1    1     1     1     1     1  25    11
2        1    1    1    1    1    1    2     2     2     2     2  14    12
3        1    1    1    2    2    2    1     2     2     2     2  32    16
4        1    1    1    2    2    2    2     1     1     1     1  29    15
5        1    2    2    1    1    2    1     1     1     1     2  20    14
6        1    2    2    1    1    2    2     2     2     1     1  22    13
7        1    2    2    2    2    1    1     2     2     1     1  17     9
8        1    2    2    2    2    1    2     1     1     2     2  21    10
9        2    1    2    1    2    1    1     1     2     1     2  27     8
10       2    1    2    1    2    1    2     2     1     2     1  28     7
11       2    1    2    2    1    2    1     2     1     2     1  36     1
12       2    1    2    2    1    2    2     1     2     1 

#### 3. Tabla de análisis de varianza

In [61]:
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from scipy import stats

formula = 'x ~ R + A + h3 + B + h5 + C:F + e1  + C  + D + F + A:C + B:D + B:F'
model = ols(formula, data=df).fit()
anova_table = anova_lm(model)


In [62]:
from scipy.stats import f

anova_table = sm.stats.anova_lm(model, typ=2)
anova_table = pool(anova_table, ['h3', 'h5'], 'e1')

adusts = ['R','A','B','C:F' ]
for adust in adusts:
  anova_table.loc[adust,'F'] = anova_table.loc[adust,'mean_sq']/anova_table.loc['e1','mean_sq']
  anova_table.loc[adust,'PR(>F)'] = f.sf(anova_table.loc[adust,'F'], anova_table.loc[adust,'df'], anova_table.loc['e1','df'])

print("Tabla 7.26 ")
print(anova_table)


Tabla 7.26 
          sum_sq   df          F    PR(>F)  mean_sq
R          16.00  1.0   1.185185  0.355940   16.000
A         156.25  1.0  11.574074  0.042397  156.250
B          49.00  1.0   3.629630  0.152853   49.000
C:F        56.25  1.0   4.166667  0.133887   56.250
e1         40.50  3.0   2.918919  0.265498   13.500
C          42.25  1.0   9.135135  0.094247   42.250
D          30.25  1.0   6.540541  0.124887   30.250
F          36.00  1.0   7.783784  0.108047   36.000
A:C        49.00  1.0  10.594595  0.082830   49.000
B:D         6.25  1.0   1.351351  0.364999    6.250
B:F         9.00  1.0   1.945946  0.297753    9.000
Residual    9.25  2.0   1.000000  0.500000    4.625


#### 4. Tabla de análisis de varianza después de la agrupación

Pooling: El factor de primer orden se prueba con error de primer orden, y el factor de segundo orden se prueba con el error de segundo orden.

In [63]:
# Obtener la tabla de análisis de varizanza (factor de primer orden)
anova_table = anova_table.drop(columns=anova_table.columns[-1])
anova_table = pool(anova_table, ['R'], 'e1')

# Obtener la tabla de análisis de varianza (factor de segundo orden)
anova_table = anova_table.drop(columns=anova_table.columns[-1])
anova_table = pool(anova_table,['B:D','B:F'], 'Residual')

# Recalcular F0 y el valor p del factor de primer orden
adusts = ['A','B','C:F' ]
for adust in adusts:
  anova_table.loc[adust,'F'] = anova_table.loc[adust,'mean_sq']/anova_table.loc['e1','mean_sq']
  anova_table.loc[adust,'PR(>F)'] = f.sf(anova_table.loc[adust,'F'], anova_table.loc[adust,'df'], anova_table.loc['e1','df'])

print("Tabla 7.27 Tabla de análisis de varianza después del pooling:")
print(anova_table)


Tabla 7.27 Tabla de análisis de varianza después del pooling:
          sum_sq   df          F    PR(>F)  mean_sq
A         156.25  1.0  11.061947  0.029216  156.250
B          49.00  1.0   3.469027  0.136001   49.000
C:F        56.25  1.0   3.982301  0.116705   56.250
e1         56.50  4.0   2.306122  0.219118   14.125
C          42.25  1.0   6.897959  0.058406   42.250
D          30.25  1.0   4.938776  0.090377   30.250
F          36.00  1.0   5.877551  0.072420   36.000
A:C        49.00  1.0   8.000000  0.047421   49.000
Residual   24.50  4.0   1.000000  0.500000    6.125


#### 5. Estructura de los datos

$ x = \mu + a + b + (cf) + \epsilon(1) + c + d + f + (ac) + \epsilon(2) $

#### 6. Estimación de la media poblacional en la condición óptima

6-1 Estimación puntual

In [64]:
means = 0
optimal_levels = {}  # Diccionario para almacenar la condición óptima

for factor in [['A', 'C'], ['C', 'F'], 'B', 'D']:
    group_means = df.groupby(factor)['x'].mean()
    best_factor_level = group_means.idxmax()  # Obtener el nivel con la media máxima
    means += group_means.max()

    # Guardar la condición óptima en el diccionario
    if isinstance(best_factor_level, tuple):  # En caso de múltiples factores
        for i, f in enumerate(factor):
            optimal_levels[f] = best_factor_level[i]
    else:  # En caso de un solo factor
        optimal_levels[factor] = best_factor_level

mean_x = means - df.groupby(['C'])['x'].mean().max() - 2 * df['x'].mean()

print("Nivel de la condición óptima:", optimal_levels)
print(f"Valor estimado de la media poblacional en la condición óptima: {mean_x}")


Nivel de la condición óptima: {'A': 1, 'C': 1, 'F': 2, 'B': 2, 'D': 1}
Valor estimado de la media poblacional en la condición óptima: 33.5


#### 6-2 Estimación por intervalo:

Para la estimación por intervalo de la media poblacional en el método de división, se aplica fórmula de Taguchi en el caso de ignorar las repeticiones para determinar el número efectivo de repeticiones.

In [65]:
# Estimación por intervalo

N = len(df)

s = 1
for i in ['A','B','C:F']:
  s += anova_table.loc[i,'df']
ne1 = s/N

s = 0
for i in ['A','D','F', 'A:C']:
  s += anova_table.loc[i,'df']
ne2 = s/N

Ve1 = anova_table.loc['e1','mean_sq']
Ve2 = anova_table.loc['Residual','mean_sq']

dfe1 = anova_table.loc['e1','df']
dfe2 = anova_table.loc['Residual','df']

print (ne1, ne2, Ve1, Ve2, dfe1, dfe2)

0.25 0.25 14.12499999999999 6.12499999999999 4.0 4.0


Los grados de libertad $ \phi $ se determinan mediante el método de Satterthwaite.

In [66]:
# Satterthwaite

def satterthwaite_df(ne1, ne2, Ve1, Ve2, dfe1, dfe2):
    df = (ne1*Ve1 + ne2*Ve2)**2 /(((ne1*Ve1)**2)/dfe1 + ((ne2*Ve2)**2)/dfe2)
    return df

df = satterthwaite_df(ne1, ne2, Ve1, Ve2, dfe1, dfe2)
print(f"Grados de libertad: {df:.1f}")


Grados de libertad: 6.9


In [67]:
# Intervalo de confianza

import scipy.stats as stats

def interpolated_t_value(df, p=0.05):
    df_low = int(df)  # Grados de libertad enteros pequeños
    df_high = df_low + 1  # Grados de libertad enteros grandes
    w = df - df_low  # Peso de juste

    t_low = stats.t.ppf(1 - p/2, df_low)
    t_high = stats.t.ppf(1 - p/2, df_high)

    # Método de interpolación lineal
    t_interpolated = (1 - w) * t_low + w * t_high

    return t_interpolated

df = 6.9
p = 0.05
t_value = interpolated_t_value(df)
print(f"Grados de libertad {df}, p = {p} Valor t: {t_value:.3f}")

S = (ne1*Ve1 + ne2*Ve2)**0.5

UL = mean_x + t_value*S
LL = mean_x - t_value*S
print(f"Intervalo de confianza (95%): ({LL:.1f}, {UL:.1f})")

Grados de libertad 6.9, p = 0.05 Valor t: 2.373
Intervalo de confianza (95%): (28.2, 38.8)


### 3. Método de división utilizando una tabla ortogonal de 3 niveles

La implementación y el análisis del método de división utilizando una tabla ortogonal de tres niveles pueden realizarse de la misma manera que en el caso de dos niveles. Sin embargo, en el caso de tres niveles, la interacción aparece distribuida en dos columnas, por lo que es necesario tener en cuenta que pueden dividirse entre el factor de primer nivel y el de segundo nivel. Las columnas de la tabla ortogonal de tres niveles también están agrupadas, y en el caso de la tabla ortogonal L27, se dividen en tres grupos.

## 07-06 Método de superficie de respuesta y polinomios ortogonales

### 1. Método de superficie de respuesta

En los métodos de diseño experimental descritos hasta ahora, aunque los factores puedan ser valores continuos como la temperatura o la cantidad añadida, durante la realización del experimento se establece un nivel y se trata como factores discretos de valores numéricos.

Sin embargo, dado que los factores reales toman valores continuos, no siempre se garantiza que la combinación de niveles óptimos sea la condición óptima.

El método de superficie de respuesta establece la relación entre la variable de respuesta $ y $, como variable explicativa continua, la variable $ x $ como una superficie, es un método para determinar el nivel óptimo como variable continua.

### 2. Polinomios ortogonales

En experimentos de diseño unifactorial, cuando el factor considerado es un factor cuantitativo, las distancias entre los niveles son iguales y el número de repeticiones de cada nivel es el mismo, se puede descomponer y analizar la variabilidad de ese factor utilizando polinomios ortogonales.

In [68]:
notebook_name = 'QCKentei1-7.ipynb'
notebook_name_html = notebook_name.replace(".ipynb",".html")

!jupyter nbconvert --to html {notebook_name}

[NbConvertApp] Converting notebook QCKentei1-7.ipynb to html
[NbConvertApp] Writing 769867 bytes to QCKentei1-7.html
