# DoE | Planejando Experimentos com Python

Nesta atividade, vamos gerar diferentes planos experimentais.

Para tal, utilizaremos a biblioteca `pyDOE2` ([informações](https://pypi.org/project/pyDOE2/) e [documentação](https://pythonhosted.org/pyDOE/)).

O Colab não vem com essa biblioteca pré-instalada, então Vamos começar instalando essa biblioteca usando o `pip`.

### Antes de começar: Instale o `pyDOE2` usando o pip.
Dica: No Colab, temos que colocar um sinal de `!` antes do `pip`, assim: `!pip`

In [52]:
# Instalando o pacote pyDOE2
!pip install pyDOE2



Após instalar a biblioteca, importe-a e importe também as suas dependências `numpy`e `scipy`:

In [53]:
# Importando bibliotecas
import numpy as np
import scipy
import pyDOE2
import pandas as pd

# Geração de Matrizes de Projeto

O pyDOE2 permite criar matrizes de projeto que definem as configurações dos fatores experimentais a serem testados. A  biblioteca suporta vários tipos de matrizes, incluindo:

* **Fatoriais completos**: gera uma matriz de todos os possíveis níveis de todos os fatores.
* **Fatoriais fracionados**: gera uma matriz de uma fração dos níveis possíveis para todos os fatores, reduzindo o número total de configurações a serem testadas.

Vamos praticar ao longo das atividades a seguir:

### Atividade 1: Fatorial Completo de 3 Fatores e 2 Níveis

Nesta abordagem pode haver **apenas dois níveis** por fator.
Esses valores serão representados pelos valores `1` e `-1`.

Dica: Para Fatorial Completo de 2 Níveis, utilizaremos a função `ff2n`.

In [54]:
# Aplicando a função "2-Level Full-Factorial"
design1 = pyDOE2.ff2n(3)
design1

array([[-1., -1., -1.],
       [ 1., -1., -1.],
       [-1.,  1., -1.],
       [ 1.,  1., -1.],
       [-1., -1.,  1.],
       [ 1., -1.,  1.],
       [-1.,  1.,  1.],
       [ 1.,  1.,  1.]])

**PERGUNTA:** Quantas configurações serão testadas no experimento?

>   **RESPOSTA:** 8

## Atividade 2: Fatorial Completo (mais de 2 níveis)
Nesta abordagem, pode haver **mais que apenas 2 níveis por fator**, permitindo maior flexibilidade. No entanto, isso irá aumentar a complexidade do experimento.

Crie um Design Fatorial Completo com 3 fatores, com a seguinte configuração:
* O primeiro fator tem 3 níveis;
* O segundo fator tem 2 níveis;
* O terceiro fator tem 4 níveis;

Dica: para Fatorial Completo Geral, utilizaremos a função `fullfact`.



In [55]:
# Aplicando a função "General Full-Factorial"
design2 = pyDOE2.fullfact([3,2,4])
design2

array([[0., 0., 0.],
       [1., 0., 0.],
       [2., 0., 0.],
       [0., 1., 0.],
       [1., 1., 0.],
       [2., 1., 0.],
       [0., 0., 1.],
       [1., 0., 1.],
       [2., 0., 1.],
       [0., 1., 1.],
       [1., 1., 1.],
       [2., 1., 1.],
       [0., 0., 2.],
       [1., 0., 2.],
       [2., 0., 2.],
       [0., 1., 2.],
       [1., 1., 2.],
       [2., 1., 2.],
       [0., 0., 3.],
       [1., 0., 3.],
       [2., 0., 3.],
       [0., 1., 3.],
       [1., 1., 3.],
       [2., 1., 3.]])

**PERGUNTA:** Quantas configurações serão testadas no experimento?

In [56]:
len(design1)

8

  > **RESPOSTA:** 24

## Atividade 3: Fatorial Completo de 3 Fatores e 2 Níveis (parte 2)

Suponha que para a produção de um bolo pronto, desejemos testar os seguintes fatores e níveis:

**Fator 1 | Farinha:**
Tipo 1 ou Tipo 2

**Fator 2 | Quantidade de Fermento:**
24mg ou 36mg

**Fator 3 | Temperatura:**
140ºC ou 180ºC

**INSTRUÇÕES:**

**A.** Gere o plano experimental de fatorial completo utilizando o pyDOE2

**B.** A partir do resultado, crie um DataFrame com o plano expermental, substituindo os valores *1* e *-1* pelos valores reais a serem testados.

In [57]:
# Atribuindo o resultado da função "2-Level Full-Factorial" à variável "design3"
design3 = pyDOE2.ff2n(3)

In [58]:
design3

array([[-1., -1., -1.],
       [ 1., -1., -1.],
       [-1.,  1., -1.],
       [ 1.,  1., -1.],
       [-1., -1.,  1.],
       [ 1., -1.,  1.],
       [-1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [59]:
# Converter para DataFrame
colunas3 = ['Farinha', 'Quantidade de Fermento', 'Temperatura']
df3 = pd.DataFrame(design3, columns=colunas3)

# Definir os níveis reais para cada fator
niveis = {
    'Farinha': ['Tipo 1', 'Tipo 2'],
    'Quantidade de Fermento': [24, 36],
    'Temperatura': [140, 180]
}

# Substituir os níveis codificados pelos níveis reais
for fator, nivel in niveis.items():
    df3[fator] = df3[fator].apply(lambda x: nivel[0] if x == -1 else nivel[1])

# Exibir o DataFrame
print(df3)

  Farinha  Quantidade de Fermento  Temperatura
0  Tipo 1                      24          140
1  Tipo 2                      24          140
2  Tipo 1                      36          140
3  Tipo 2                      36          140
4  Tipo 1                      24          180
5  Tipo 2                      24          180
6  Tipo 1                      36          180
7  Tipo 2                      36          180


## Atividade 4: Fatorial Fracionado de 3 Fatores e 2 Níveis

Suponha que antes de rodar um experimento mais complexo como o proposto anteriormente, você decida fazer uma rodada preliminar e mais simples. Assim, você decidirá se os Fatores escolhidos (Tipo da Farinha, Quantidade de Fermento e Temperatura do Forno) aparentam ter de fato algum efeito significativo sobre o sabor do bolo.

Para tal, você decidiu optar por um desenho experimental com apenas 4 experimentos, em vez dos 8 experimentos anteriores.

### Atividade 4.1: Gere um desenho Fatorial Fracionado de 3 Fatores e 2 Níveis

In [60]:
# Aplicando a função "2-Level Fractional-Factorial"
design4_1 = pyDOE2.fracfact('a b ab')
print(design4_1)

[[-1. -1.  1.]
 [ 1. -1. -1.]
 [-1.  1. -1.]
 [ 1.  1.  1.]]


### Atividade 4.2: Crie um DataFrame com os valores das variáveis a serem testadas no experimento anterior

In [61]:
colunas4_2 = ['Farinha', 'Quantidade de Fermento', 'Temperatura']

# Converter para DataFrame
df4_2 = pd.DataFrame(design4_1, columns=colunas4_2)

# Substituir os níveis codificados pelos níveis reais
for fator, nivel in niveis.items():
    df4_2[fator] = df4_2[fator].apply(lambda x: nivel[0] if x == -1 else nivel[1])

print(df4_2)

  Farinha  Quantidade de Fermento  Temperatura
0  Tipo 1                      24          180
1  Tipo 2                      24          140
2  Tipo 1                      36          140
3  Tipo 2                      36          180


### Atividade 4.3: Invertendo as combinações do Fatorial Fracionado

Suponha que uma colega de equipe com mais experiência em produtos dessa categoria pede que no plano experimental seja contemplada uma combinação específica, não prevista inicialmente. A combinação é a seguinte:

**Farinha:** Tipo 2

**Quantidade de Fermento:** 24mg

**Temperatura:** 180ºC

Adapte o plano experimental de forma que o número de combinações (unidades experimentais) se mantenha o mesmo (4), mas que seja possível testar a combinação proposta.

Dica: Consulte a documentação do pyDOE2 neste [link](https://pythonhosted.org/pyDOE/factorial.html)

In [62]:
# Invertendo as combinações
design4_3 = pyDOE2.fracfact('a b -ab')

print(design4_3)

[[-1. -1. -1.]
 [ 1. -1.  1.]
 [-1.  1.  1.]
 [ 1.  1. -1.]]


## Atividade 5

Suponha que a rodada experimental inicial teve resultados bastante proveitosos e foi possível concluir que as Farinhas dos tipos 1 e 2 (ambas super premium) são praticamente iguais. Assim, optar-se-á pela Farinha do tipo 1, que tem um valor mais baixo.

Também percebeu-se que a temperatura de 140ºC foi insuficiente em todos os casos. Assim, decidiu-se testar as temperaturas de 160ºC e de 180ºC.

De modo geral, a rodada inicial correu bem e rapidamente. Por isso, a equipe resolveu incluir outros fatores que não haviam sido testados anteriormente.

Na segunda rodada, serão testados os seguintes fatores:

**A) Quantidade de Fermento:**
24mg ou 36mg

**B) Temperatura:**
160ºC ou 180ºC

**C) Tempo:**
35min ou 40min

**D) Ovos:**
3 ou 4

### Atividade 5.1: Faça uma estimativa de quantos testes seriam necessários para testar todas as possibilidades

In [63]:
# Calcuando o comprimento do array gerado pela função "ff2n"
len(pyDOE2.ff2n(4))

16

> **RESPOSTA:** 16

### Atividade 5.2: Crie um desenho fatorial fracionado
Crie um plano experimental para os fatores listados acima de forma que sejam testadas apenas 8 receitas:

**A) Quantidade de Fermento:**
24mg ou 36mg

**B) Temperatura:**
160ºC ou 180ºC

**C) Tempo:**
35min ou 40min

**D) Ovos:**
3 ou 4

In [67]:
# Gerando as combinações para um experimento fatorial fracionado contendo 4 fatores, cada um com 2 níveis
design5_2 = pyDOE2.fracfact('a b c abc')
print('Número de experimentos: ',len(design5_2))
print('combinações dos experimentos: ')
print(design5_2)

Número de experimentos:  8
combinações dos experimentos: 
[[-1. -1. -1. -1.]
 [ 1. -1. -1.  1.]
 [-1.  1. -1.  1.]
 [ 1.  1. -1. -1.]
 [-1. -1.  1.  1.]
 [ 1. -1.  1. -1.]
 [-1.  1.  1. -1.]
 [ 1.  1.  1.  1.]]


In [71]:
# Atribuindo os valores reais dos níveis


## Criando cópia do array design5_2
D5_2 = design5_2.copy()

# Fermento
D5_2[:,0][D5_2[:,0] == -1 ] = 24
D5_2[:,0][D5_2[:,0] == 1 ] = 36

# Temperatura
D5_2[:,1][D5_2[:,1] == -1 ] = 160
D5_2[:,1][D5_2[:,1] == 1 ] = 180

# Tempo
D5_2[:,2][D5_2[:,2] == -1 ] = 35
D5_2[:,2][D5_2[:,2] == 1 ] = 40

# Ovos
D5_2[:,3][D5_2[:,3] == -1 ] = 3
D5_2[:,3][D5_2[:,3] == 1 ] = 4

## Criando lista com nomes das colunas
colunas5_2 = ['Fermento (mg)', 'Temperatura (°C)', 'Tempo (min)', 'Ovos (qtd)']


## Convertendo o array em dataframe do pandas
df5_2 = pd.DataFrame(D5_2, columns=colunas5_2)

print(df5_2)

   Fermento (mg)  Temperatura (°C)  Tempo (min)  Ovos (qtd)
0           24.0             160.0         35.0         3.0
1           36.0             160.0         35.0         4.0
2           24.0             180.0         35.0         4.0
3           36.0             180.0         35.0         3.0
4           24.0             160.0         40.0         4.0
5           36.0             160.0         40.0         3.0
6           24.0             180.0         40.0         3.0
7           36.0             180.0         40.0         4.0


### 6. Extra: Teste outras configurações, compare os dataframes gerados

Há várias maneiras de gerar os desenhos experimentais.
Sugestão: compare os dataframes utilizando a função `concat` do pandas.

In [68]:
# Gerando as combinações inversas
design6 = pyDOE2.fracfact('a b c -abc')
print('Número de experimentos: ',len(design6))
print('combinações dos experimentos: ')
print(design6)

Número de experimentos:  8
combinações dos experimentos: 
[[-1. -1. -1.  1.]
 [ 1. -1. -1. -1.]
 [-1.  1. -1. -1.]
 [ 1.  1. -1.  1.]
 [-1. -1.  1. -1.]
 [ 1. -1.  1.  1.]
 [-1.  1.  1.  1.]
 [ 1.  1.  1. -1.]]


In [72]:
## Criando cópia do array design6
D6 = design6.copy()

# Fermento
D6[:,0][D6[:,0] == -1 ] = 24
D6[:,0][D6[:,0] == 1 ] = 36

# Temperatura
D6[:,1][D6[:,1] == -1 ] = 160
D6[:,1][D6[:,1] == 1 ] = 180

# Tempo
D6[:,2][D6[:,2] == -1 ] = 35
D6[:,2][D6[:,2] == 1 ] = 40

# Ovos
D6[:,3][D6[:,3] == -1 ] = 3
D6[:,3][D6[:,3] == 1 ] = 4

In [74]:
# Armazenando nomes das colunas em nova lista para manter padrão de nomenclatura
colunas6 = colunas5_2

# Convertendo o array em dataframe
df6 = pd.DataFrame(D6, columns=colunas6)
print(df6)

   Fermento (mg)  Temperatura (°C)  Tempo (min)  Ovos (qtd)
0           24.0             160.0         35.0         4.0
1           36.0             160.0         35.0         3.0
2           24.0             180.0         35.0         3.0
3           36.0             180.0         35.0         4.0
4           24.0             160.0         40.0         3.0
5           36.0             160.0         40.0         4.0
6           24.0             180.0         40.0         4.0
7           36.0             180.0         40.0         3.0


In [75]:
# Concatenando os dataframes
df_concat = pd.concat([df5_2, df6], ignore_index=True)

print(df_concat)

    Fermento (mg)  Temperatura (°C)  Tempo (min)  Ovos (qtd)
0            24.0             160.0         35.0         3.0
1            36.0             160.0         35.0         4.0
2            24.0             180.0         35.0         4.0
3            36.0             180.0         35.0         3.0
4            24.0             160.0         40.0         4.0
5            36.0             160.0         40.0         3.0
6            24.0             180.0         40.0         3.0
7            36.0             180.0         40.0         4.0
8            24.0             160.0         35.0         4.0
9            36.0             160.0         35.0         3.0
10           24.0             180.0         35.0         3.0
11           36.0             180.0         35.0         4.0
12           24.0             160.0         40.0         3.0
13           36.0             160.0         40.0         4.0
14           24.0             180.0         40.0         4.0
15           36.0       

In [77]:
# Verificar linhas duplicadas em todo o DataFrame
if df_concat.duplicated().any():
    print("Há linhas duplicadas no DataFrame.")
else:
    print("Não há linhas duplicadas no DataFrame.")

Não há linhas duplicadas no DataFrame.


### 7. Desafio: Gere 2 dataframes complementares, de forma que não haja nenhuma repetição de linhas

In [79]:
### Acho que não entendi direito o desafio, mas vou tentar resolver conforme eu interpretei ###

# Obtém o número total de linhas no DataFrame original
total_linhas = len(df_concat)

# Calcula o ponto de divisão (metade das linhas)
ponto_divisao = total_linhas // 2

# Divide o índice do DataFrame original em duas partes
indices_divisao = np.split(df_concat.index, [ponto_divisao])

# Divide o DataFrame original em dois DataFrames
df7_1 = df_concat.loc[indices_divisao[0]]
df7_2 = df_concat.loc[indices_divisao[1]]

In [80]:
print(df7_1)
print(df7_2)

   Fermento (mg)  Temperatura (°C)  Tempo (min)  Ovos (qtd)
0           24.0             160.0         35.0         3.0
1           36.0             160.0         35.0         4.0
2           24.0             180.0         35.0         4.0
3           36.0             180.0         35.0         3.0
4           24.0             160.0         40.0         4.0
5           36.0             160.0         40.0         3.0
6           24.0             180.0         40.0         3.0
7           36.0             180.0         40.0         4.0
    Fermento (mg)  Temperatura (°C)  Tempo (min)  Ovos (qtd)
8            24.0             160.0         35.0         4.0
9            36.0             160.0         35.0         3.0
10           24.0             180.0         35.0         3.0
11           36.0             180.0         35.0         4.0
12           24.0             160.0         40.0         3.0
13           36.0             160.0         40.0         4.0
14           24.0             180

In [None]:
# seu código