# **Machine Learning pentru Sticle: Un Model Predictiv pentru Proprietăți Cheie**

## Text revizuit pentru disertație (în format IPynb):

## Tema Disertației

**Dezvoltarea unui Model de Predicție a Proprietăților Sticlei Utilizând Machine Learning**

Disertația mea se concentrează pe crearea unui model robust de predicție a proprietăților sticlei, cum ar fi densitatea, indicele de refracție și temperatura de tranziție vitroasă (Tg), utilizând tehnici de Machine Learning (ML). Obiectivul principal este de a facilita optimizarea proceselor de producție a sticlei și descoperirea de noi materiale cu proprietăți specifice.

## Motivație

Sticla joacă un rol crucial în diverse domenii, de la optică și electronică la construcții și industria alimentară. Proprietățile sale fizice și chimice, precum densitatea, indicele de refracție și Tg, influențează semnificativ performanța și aplicațiile sale. Cu toate acestea, prezicerea cu precizie a proprietăților sticlei poate fi o sarcină complexă, datorită relațiilor non-liniare dintre compoziția materiei prime, tratamentul termic aplicat și proprietățile rezultate.

**Citate:**

* "Dezvoltarea de materiale noi și îmbunătățite este esențială pentru progresul tehnologic în diverse domenii." - (Introduceți o sursă relevantă)
* "Predicția precisă a proprietăților sticlei poate contribui la optimizarea producției, reducerea costurilor și îmbunătățirea calității." - (Introduceți o sursă relevantă)

## Metodologie

Pentru a atinge obiectivul propus, voi urma o metodologie riguroasă care cuprinde următoarele etape:

### 1. Colectarea Datelor

**Obiectiv:** Reuniți un set de date cuprinzător și de înaltă calitate care să reflecte diversitatea compozițiilor și tratamentelor termice ale sticlei.

**Surse de date:**

* Baze de date publice (ex: MatMiner, NREL Materials Database)
* Literatură științifică (ex: articole de revistă, conferințe)
* Colaborări cu experți din domeniu

**Informații incluse:**

* Compoziția materiei prime (tipuri și cantități de oxizi)
* Parametrii de tratament termic (temperatură, durată, atmosferă)
* Proprietățile sticlei (densitate, indice de refracție, Tg, alte proprietăți relevante)

### 2. Preprocesarea Datelor

**Obiectiv:** Pregătirea datelor pentru a le face compatibile cu modelele ML și a asigura acuratețea și consistența lor.

**Tehnici utilizate:**

* Eliminarea valorilor aberante și inconsistente
* Imputarea valorilor lipsă cu metode statistice adecvate
* Normalizarea datelor pentru a le asigura o scară comparabilă
* Transformarea datelor categorice (ex: tipuri de oxizi)

### 3. Dezvoltarea Modelului ML

**Obiectiv:** Selectarea și optimizarea unui model ML performant care să poată prezice cu precizie proprietățile sticlei.

**Modele ML de explorat:**

* **Random Forests:** Oferă robustețe, interpretabilitate și scalabilitate.
* **Neural Networks:** Captează relații non-liniare complexe și permit învățarea din date.

**Criterii de selecție:**

* Precizie pe setul de date de antrenament și testare
* Interpretabilitate pentru a înțelege factorii care influențează proprietățile sticlei
* Generalizare la noi compoziții și tratamente termice

### 4. Evaluarea Modelului

**Obiectiv:** Asigurarea validității și fiabilității modelului ML prin evaluare obiectivă.

**Set de date de testare:** Un set de date independent de cel utilizat pentru antrenarea modelului.

**Metrici de performanță:**

* R-squared (R²)
* Mean Absolute Error (MAE)
* Root Mean Squared Error (RMSE)
* Alte metrici specifice domeniului sticlei

### 5. Interpretarea Modelului

**Obiectiv:** Înțelegerea modului în care modelul ML face predicții și identificarea factorilor cheie care influențează proprietățile sticlei.

**Tehnici de interpretare:**

* Vizualizarea importanței caracteristicilor
* Analiza sensibilității 

### **Rezultate**

Până în prezent:

* Am identificat ca astfel de modele se folosesc și sunt fezabile (se pot corela informatii precum compozite, tratement termic cu propietatile materialului final) 
* * [Predicting glass structure by physics-informed machine learning](https://www.nature.com/articles/s41524-022-00882-9#Abs1)

* Am identificat grupul științific în care se încadrează lucrarea: [**Materials Informatics**](https://citrine.io/what-is-materials-informatics-blog/)
* Am gasit resurse (baze de date) care pot fii folosite pentru a antrena un model: **[MatMiner](https://github.com/materialsvirtuallab/maml) / [MAML](https://github.com/materialsvirtuallab/maml) / [DeepChem](https://github.com/deepchem/deepchem)**

In [4]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

from sklearn.ensemble import RandomForestClassifier

import matminer

In [None]:
from matminer.datasets import load_dataset

df = load_dataset("")