<a href="https://colab.research.google.com/github/Matheus0820/pesquisa_machine_leaning_e_materiais/blob/main/Etapa_2/Aplicando_k_means_em_na_base_de_dados_da_pesquisa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![](https://i.sstatic.net/UARVl.png)
# Etapa 2 - Aplicando k-means em na base de dados da pesquisa
## Processos dessa etapa:
### Preparações dos dados para submissão no algoritmo  
Para que o algoritmo funcione da melhor forma e apresente os melhores resultados possíveis é ideal fazer com que todos os dados das amostras tenham valores númericos. Principais colunas que devem ser mudadas para valores númerico sao as colunas: ***Substrato***, ***Filme produzido*** e a ***Atmosfera***. É importante também, aquelas colunas cujo não possuem nenhum valor definido, é importante definir-las como zero, para não ter importâncias na hora da aplicação do algoritmo.

Nesse mesmo viés, outra mudança que deve ser feita é referente a unidades das mediadas. Para se ter um valor confiável os valores de mesma grandeza física devem possuir a mesma unidade.

Uma das grandezas do dados das amostras capturadas que necessitam dessea transformação de unidade é a **Microdureza**, onde a maioria delas é dadas em ***Dureza Vickers (HV)*** e apenas uma é dade em ***Gigapascal (GPa)***. Para transformar GPa em HV, é necessário usar a relação mostrada abaixo:
$$
\text{Dureza HV} \approx \text{Dureza GPa}\times 100
$$

### Determinações importentes:
Para o algoritmo, será usado o k-means, onde será usado quantidade de 3 clusteres para gerar novos 3 novas amostras. Essas amostras serão os próprios cluesteres e os valores dos seus paramêtros seram dados pela média das distências dos seus pontos, como é mostrado na Equação 1.

$$
\text{param}_{j} = \frac { \sum_{i = 1}^{n} param_{i} }{n} \tag{1}
$$

Os dados que serão utilizados são os dados 0, 1 e 2, nos quais tem como substratos, repectivamente, AISI 4340, AISI 409 e AISI 1045.



# Alaboração do algoritmo

## Dados

In [None]:
db_AISI4340 = {
    # 'Temperatura (°C)'
    "temperatura_C": [0, 350, 400, 450],

    # 'Tempo de processo (h)'
    "tempo_h": [0, 4, 4, 4],

    # 'Pressao (mbar)'
    "pressao_mbar": [0, 0, 0, 0],

    # 'Potencia eletrica (W)'
    "potencia_eletrica_W": [0, 0, 0, 0],

    # 'Atmosfera'
    'atmosfera': [1, 1, 1, 1],

    # 'Microdureza (HV)'
    "microdureza_HV": [382, 1866, 1812, 2562],

    # 'Coeficiente de atrito'
    "coeficiente_atrito": [0.4, 0.139, 0.073, 0.083],

    # 'Difusao (microns)'
    "difusao_microns": [0, 3.63, 4.82, 1.37]
}

db_AISI409 = {
    # 'Temperatura (°C)':
    'temperatura_C': [0, 400, 450, 450, 400, 450, 450],

    # 'Tempo de processo (h)':
    'tempo_processo_h': [0, 4, 4, 4, 4, 4, 4],

    # 'Pressao (mbar)':
    'pressao_mbar': [0, 2, 2, 2, 2, 2, 2],

    # 'Potencia eletrica (W)':
    'potencia_eletrica_W': [0, 0, 0, 0, 0, 0, 0],

    # 'Atmosfera':
    'atmosfera': [0, 2, 2, 2, 2, 2, 2],

    # 'Microdureza (HV)':
    'microdureza_HV': [196, 530, 790, 500, 931, 1100, 503],

    # 'Coeficiente de atrito':
    'coeficiente_atrito': [0.68, 0.63, 0.74, 0.78, 0.73, 0.69, 0.74],

    # 'Difusao (microns)':
    'difusao_microns': [0.0, 13.4, 17.9, 6.4, 19.5, 19.6, 4.7]
}

db_AISI1045 = {
    # 'Temperatura (°C)'
    "temperatura_C": [0, 450, 450, 450],

    # 'Tempo_de_processo (h)'
    "tempo_h": [0, 4, 4, 4],

    # 'Pressao (mbar)'
    "pressao_mbar": [0, 550, 160, 160],

    # 'Potencia_eletrica (W)'
    "potencia_eletrica_W": [0, 0, 0, 0],

    # 'Atmosfera'
    "atmosfera": ["0", "3", "3", "3"],

    # 'Microdureza (HV)'
    "microdureza_HV": [226.75, 499.87, 318.97, 885.77],

    # 'Coeficiente_de_atrito'
    "coeficiente_atrito": [0.45, 0.60, 0.50, 0.65],

    # 'Difusao (microns)'
    "difusao_microns": [0.0, 3.1, 0.0, 51.54] # 0,0 foi convertido para 0.0
}

## Importação das bibliotecas


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans # Biblioteca do K-means do SKlearn

## Transformando a estrutura de dados
 Esse processor vai transformar os dados dados em dicionários python em um formato no qual o **sklearn** entenda, que é um dataframe. Para isso, será usado a biblioteca, já baixada, o Pandas.

In [None]:
dframe_AISI1045 = pd.DataFrame(db_AISI1045)
dframe_AISI409 = pd.DataFrame(db_AISI409)
dframe_AISI4340 = pd.DataFrame(db_AISI4340)

print("Dataframe das amostras referente a AISI1045:")
print(dframe_AISI1045.head())

print("\n", "="*90, "\n")
print("Dataframe das amostras referente a AISI409:")
print(dframe_AISI409.head())

print("\n", "="*90, "\n")
print("Dataframe das amostras referente a AISI4340:")
print(dframe_AISI4340.head())

Dataframe das amostras referente a AISI1045:
   temperatura_C  tempo_h  pressao_mbar  potencia_eletrica_W atmosfera  \
0              0        0             0                    0         0   
1            450        4           550                    0         3   
2            450        4           160                    0         3   
3            450        4           160                    0         3   

   microdureza_HV  coeficiente_atrito  difusao_microns  
0          226.75                0.45             0.00  
1          499.87                0.60             3.10  
2          318.97                0.50             0.00  
3          885.77                0.65            51.54  


Dataframe das amostras referente a AISI409:
   temperatura_C  tempo_processo_h  pressao_mbar  potencia_eletrica_W  \
0              0                 0             0                    0   
1            400                 4             2                    0   
2            450                 4

## Criando algoritmo K-means



In [33]:
# Definindo função

def roda_kmeans(dframe, k):
  # Configurando o kmeans
  kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
  kmeans.fit(dframe)

  # Obtendo resultados
  dframe_resultado = dframe.copy()
  dframe_resultado['cluster_label'] = kmeans.labels_
  centroides_resultado = kmeans.cluster_centers_
  centroides_resultado_inteiros = np.round(centroides_resultado).astype(int)

  # Mostrando dados
  print(f"Dados agrupados em {k} clusteres:")
  print(dframe_resultado['cluster_label'])

  # Printando valores de teste para experimento:
  print("\n", "="*90, "\n")
  print("Valores de teste para experimento")
  for i in range(len(centroides_resultado_inteiros)):
    print(f"Amostra {i + 1} - Referente ao cluster {i}: ")
    print("-> Parametros do experimento: ")
    print(f"  - Temperatura (C°) = {centroides_resultado_inteiros[i][0]}")
    print(f"  - Tempo de processo (h) = {centroides_resultado_inteiros[i][1]}")
    print(f"  - Pressao (mbar) = {centroides_resultado_inteiros[i][2]}")
    print(f"  - Potencia eletrica (W) = {centroides_resultado_inteiros[i][3]}")
    print(f"  - Atmosfera = {centroides_resultado_inteiros[i][4]}")
    print("\n")

    print("-> Parametros esperados da amostra: ")
    print(f" - Microdureza (HV) = {centroides_resultado_inteiros[i][5]}")
    print(f" - Coeficiente de atrito = {centroides_resultado_inteiros[i][6]}")
    print(f" - Difusao (microns) = {centroides_resultado_inteiros[i][7]}")
    print("\n\n")



## Aplicando algoritmo nos dados

In [34]:
# Definindo o valor da quantidade de clustering (k) padrão para todos
k = 3;

# Aplicando no dados 1
print("Aplicando kmeans nas amostras referente a AISI1045:")
roda_kmeans(dframe_AISI1045, k)

print("\n", "-"*90, "\n", "-"*90, "\n")

# Aplicando no dado 2
print("Aplicando kmeans nas amostras referente a AISI409:")
roda_kmeans(dframe_AISI409, k)

print("\n", "-"*90, "\n", "-"*90, "\n")

# Aplicando no dado 3
print("Aplicando kmeans nas amostras referente a AISI4340:")
roda_kmeans(dframe_AISI4340, k);


Aplicando kmeans nas amostras referente a AISI1045:
Dados agrupados em 3 clusteres:
0    1
1    2
2    2
3    0
Name: cluster_label, dtype: int32


Valores de teste para experimento
Amostra 1 - Referente ao cluster 0: 
-> Parametros do experimento: 
  - Temperatura (C°) = 450
  - Tempo de processo (h) = 4
  - Pressao (mbar) = 160
  - Potencia eletrica (W) = 0
  - Atmosfera = 3


-> Parametros esperados da amostra: 
 - Microdureza (HV) = 886
 - Coeficiente de atrito = 1
 - Difusao (microns) = 52



Amostra 2 - Referente ao cluster 1: 
-> Parametros do experimento: 
  - Temperatura (C°) = 0
  - Tempo de processo (h) = 0
  - Pressao (mbar) = 0
  - Potencia eletrica (W) = 0
  - Atmosfera = 0


-> Parametros esperados da amostra: 
 - Microdureza (HV) = 227
 - Coeficiente de atrito = 0
 - Difusao (microns) = 0



Amostra 3 - Referente ao cluster 2: 
-> Parametros do experimento: 
  - Temperatura (C°) = 450
  - Tempo de processo (h) = 4
  - Pressao (mbar) = 355
  - Potencia eletrica (W) = 0
 

# Proxímos passos / melhorias da pesquisa


## Código
- Ler dados de um arquivo `.csv` ou do Google Planilhas.
- Apresentar a saída dos dados de forma mais visual em uma planilha do Google Planilhas.
- Verificar as amostras geradas que não estão coerentes e eliminá-las.

## Experimento
- Aplicar os parâmetros gerados nos experimentos.
- Verificar se os resultados obtidos correspondem ao esperado e se representam bons dados.