## Projeto Final Redes Neurais: Propriedades Mecânicas de Materiais

#### Trio: csv_Computeiros_sinápticos_virtuais 

#### Integrantes: Diogo Pereira de Lima Carvalho, José David Sales e Mayllon Emmanoel Pequeno

<p style="text-align: justify;"> Esse notebook consiste no tratamentos do conjunto de dados escolhido se utilizar, posteriormente, uma rede neural multilayer perceptron (MLP). Os dados, obtidos no Kaggle, são em sua maioria sobre propriedades mecânicas de materiais específicos [1]. Primordialmente, importou-se as bibliotecas utilizadas e o dataset.

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv("../Conjuntos de dados/Data.csv")

In [4]:
display(df.head())
print(f'Dimensão do dataset: {df.shape}')

Unnamed: 0,Std,ID,Material,Heat treatment,Su,Sy,A5,Bhn,E,G,mu,Ro,pH,Desc,HV
0,ANSI,D8894772B88F495093C43AF905AB6373,Steel SAE 1015,as-rolled,421,314,39.0,126.0,207000,79000,0.3,7860,,,
1,ANSI,05982AC66F064F9EBC709E7A4164613A,Steel SAE 1015,normalized,424,324,37.0,121.0,207000,79000,0.3,7860,,,
2,ANSI,356D6E63FF9A49A3AB23BF66BAC85DC3,Steel SAE 1015,annealed,386,284,37.0,111.0,207000,79000,0.3,7860,,,
3,ANSI,1C758F8714AC4E0D9BD8D8AE1625AECD,Steel SAE 1020,as-rolled,448,331,36.0,143.0,207000,79000,0.3,7860,,,
4,ANSI,DCE10036FC1946FC8C9108D598D116AD,Steel SAE 1020,normalized,441,346,35.8,131.0,207000,79000,0.3,7860,550.0,,


Dimensão do dataset: (1552, 15)


Os atributos foram rapidamente analisados. Abaixo, há o nome e o <code>dtype</code> de cada um. 

In [5]:
columns_list = df.columns.tolist()
print(columns_list)
df.dtypes

['Std', 'ID', 'Material', 'Heat treatment', 'Su', 'Sy', 'A5', 'Bhn', 'E', 'G', 'mu', 'Ro', 'pH', 'Desc', 'HV']


Std                object
ID                 object
Material           object
Heat treatment     object
Su                  int64
Sy                 object
A5                float64
Bhn               float64
E                   int64
G                   int64
mu                float64
Ro                  int64
pH                float64
Desc               object
HV                float64
dtype: object

A partir das descrição do Kaggle, realizou-se a descrição de cada atributo do <i>dataset</i> [1]:

<ul style="text-align: justify;">
  <li><strong>Std (Standard):</strong> Identificação do padrão nacional que define a especificação do material;</li>
  <li><strong>ID (Unique Identification code for the Material):</strong> Código de identificação do material;</li>
  <li><strong>Material (Name):</strong> Nome do material utilizado;</li>
  <li><strong>Heat Treatment (Method):</strong> Técnica de Tratamento térmico utilizado no material;</li>
  <li><strong>Su (Ultimate Tensile Strength in MPa):</strong> Tensão máxima que o material pode suportar por unidade de área antes de se romper, medida em megapascal (MPa);</li>
  <li><strong>Sy (Yield Strength in MPa):</strong> Tensão máxima que o material pode suportar por unidade de área antes de sofrer deformação plástica permanente, medida em megapascal (MPa);</li>
  <li><strong>A5 (Elongation at Break or Strain as a Percentage):</strong> A quantidade de deformação que um material pode sofrer antes de se romper, expressa como uma porcentagem;</li>
  <li><strong>BHN (Brinell Hardness Number in Microhardness Units):</strong> Resistência do material à penetração por um indentador esférico, medida em número de dureza Brinell (HB);</li>
  <li><strong>E (Elastic Modulus in MPa):</strong> Resistência do material à deformação elástica, medida em megapascal (MPa);</li>
  <li><strong>G (Shear Modulus in MPa):</strong> Rigidez de um material em resposta a tensões de cisalhamento, medida em megapascal (MPa);</li>
  <li><strong>mu (Poisson's Ratio in Units of Length):</strong> Relação entre as deformações longitudinais e transversais de um material quando submetido a tensão;</li>
  <li><strong>Ro (Density in Kg/m³):</strong> Densidade do material, medida em quilogramas por metro cúbico (kg/m³);</li>
  <li><strong>pH (Pressure at Yield in MPa):</strong> Pressão exercida sobre o material no ponto em que ele começa a deformar permanentemente;</li>
  <li><strong>Desc (Description of the Material):</strong> Informações adicionais sobre o material;</li>
  <li><strong>HV (Vickers Hardness Number):</strong> Uma medida da dureza de um material determinada pela capacidade de resistir à deformação sob carga, usando um teste de dureza Vickers.</li>
</ul>

Analisou-se então o número de valores faltantes em cada atributo:

In [6]:
for i in columns_list:
    print(f"""O atributo '{i}' apresenta {df[i].isna().sum()} valores faltantes""")

O atributo 'Std' apresenta 0 valores faltantes
O atributo 'ID' apresenta 0 valores faltantes
O atributo 'Material' apresenta 0 valores faltantes
O atributo 'Heat treatment' apresenta 750 valores faltantes
O atributo 'Su' apresenta 0 valores faltantes
O atributo 'Sy' apresenta 0 valores faltantes
O atributo 'A5' apresenta 206 valores faltantes
O atributo 'Bhn' apresenta 1089 valores faltantes
O atributo 'E' apresenta 0 valores faltantes
O atributo 'G' apresenta 0 valores faltantes
O atributo 'mu' apresenta 0 valores faltantes
O atributo 'Ro' apresenta 0 valores faltantes
O atributo 'pH' apresenta 1359 valores faltantes
O atributo 'Desc' apresenta 571 valores faltantes
O atributo 'HV' apresenta 1387 valores faltantes


<p style="text-align: justify;"> A partir das informações acima, os atributos <i>Heat treatment</i>, <i>A5</i>, <i>Bhn</i>, <i>pH</i>, <i>Desc</i> e <i>HV</i> foram removidos por conter muitos valores nulos. Além disso, o atributo <i>Std</i> aparenta-se como desnecessário, uma vez que se refere apenas a qual padrão nacional foi utilizado para especificação do material. Da mesma forma, o atributo <i>ID</i>, que refere-se apenas a um valor de identificação para cada material, foi deletado por não haver utilidade para uso de métodos de <code>Machine Learning</code>. Por fim, o atributo <i>Material</i> também foi deletado, uma vez que o número de rótulos é bem próximo ao número de exemplos, sendo potencialmente desnecessário, veja:

In [7]:
material_labels = df['Material'].drop_duplicates().tolist()
print(f"""Número de rótulos do atributo 'Material:' {len(material_labels)}""")

Número de rótulos do atributo 'Material:' 1225


<p style="text-align: justify;"> Por fim, sobram 6 atributos, dentro os quais o atributo Sy, que determina a tensão máxima que o material pode suportar antes de apresentar deformação plástica permanente, foi escolhido como target. 

In [17]:
df = df.reindex(columns=['Su', 'Sy', 'E', 'G', 'mu', 'Ro']).reset_index(drop=True)
df.dtypes

Su      Int64
Sy      Int64
E       Int64
G       Int64
mu    Float64
Ro      Int64
dtype: object

<p style="text-align: justify;"> Acima, verifica-se uma divergência de tipos para o <i>target</i> Sy, a mesma estando classificada como objeto. Foi então, excluído valores não numéricos (<code>string</code>), os quais podem ser vistos abaixo. Além disso, uma vez que não se havia valores do tipo <code>float</code>, os valores numéricos foram todos transformados para o tipo <i>int</i>.

In [9]:
for i in range(len(df['Sy'])):
    count = 0
    if isinstance(i, float):
        count += 1
print(f'Há {count} valores do tipo float')

Há 0 valores do tipo float


In [10]:
for i in range(len(df['Sy'])):
    sting_digito = df['Sy'][i]
    if sting_digito.isdigit() is False:
        print(df['Sy'][i])
        df = df.drop(labels=i)
    if sting_digito.isdigit():
        df.loc[i, 'Sy'] = int(df['Sy'][i])
df = df.reset_index(drop= True)

280 max
240 max
210 max
250 max
210 max
280 max
240 max
225 max


<p style="text-align: justify;"> Acima, percebe-se que os rótulos não numéricos consistem na escrita do números e de "max" a posterior. De qualquer forma, como se tratam de poucos exemplos (8), tais com esses rótulos foram apagados. A partir disso, utilizou-se o método <code>convert_dtypes()</code> para, por fim, corrigit o tipo do ródulo do <i>target</i> Sy.

In [11]:
df.dtypes

Su      int64
Sy     object
E       int64
G       int64
mu    float64
Ro      int64
dtype: object

In [12]:
df = df.convert_dtypes()
df.dtypes

Su      Int64
Sy      Int64
E       Int64
G       Int64
mu    Float64
Ro      Int64
dtype: object

In [16]:
df.head()

Unnamed: 0,Su,Sy,E,G,mu,Ro
0,421,314,207000,79000,0.3,7860
1,424,324,207000,79000,0.3,7860
2,386,284,207000,79000,0.3,7860
3,448,331,207000,79000,0.3,7860
4,441,346,207000,79000,0.3,7860


<p style="text-align: justify;"> Após a conversão de tipos para termos todas as colunas com atributos numéricos, o <code>dataset</code> tratado foi salvo em um arquivo do tipo "pickle".

In [15]:
df.to_pickle("Dataset.pickle")

### Referências:

[1] Materials and their Mechanical Properties, Kaggle, https://www.kaggle.com/datasets/purushottamnawale/materials