In [1]:
import pandas as pd
from matplotlib import pyplot as plt 
import numpy as np
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.metrics import r2_score

In [2]:
import sys, os
sys.path.append(os.path.abspath(os.path.join('..')))

import data_manager as dm

In [3]:

df = dm.load_data('evraz_data_prprocessed_Anvar.csv')
y_cols = ['химшлак последний Al2O3', 'химшлак последний CaO', 
          'химшлак последний FeO', 'химшлак последний MgO',
          'химшлак последний MnO', 'химшлак последний R',
          'химшлак последний SiO2']

X = df.drop(columns=y_cols)
y = df.filter(y_cols)

In [14]:
X.shape, y.shape

((3003, 64), (3003, 7))

In [15]:
X = pd.get_dummies(X)

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [17]:
# Метрика для оценки точности модели
def rmse(predicted, actual):
    return ((predicted - actual)**2).mean()**.5

In [18]:
for y_col in y_cols:
    lr = LinearRegression()
    lr.fit(X_train, y_train[y_col])
    y_pred = lr.predict(X_test)
    print(f'{y_col}\t'
          f'{rmse(y_pred, y_test[y_col])}\t'
          f'{r2_score(y_test[y_col], y_pred)}')

химшлак последний Al2O3	0.6662407071990473	0.5174610700508153
химшлак последний CaO	3.46807163501533	0.1782764019316765
химшлак последний FeO	0.20977828033015705	0.05055602842403173
химшлак последний MgO	2.6229111377769225	0.32286690131296203
химшлак последний MnO	0.058574780905450964	0.15597227564607985
химшлак последний R	0.17692744144686987	0.3431134561473036
химшлак последний SiO2	2.0239970198326365	0.18047719581627453


In [19]:
for y_col in y_cols:
    gb = GradientBoostingRegressor()
    gb.fit(X_train, y_train[y_col])
    y_pred = gb.predict(X_test)
    print(f'{y_col}\t'
          f'{rmse(y_pred, y_test[y_col])}\t'
          f'{r2_score(y_test[y_col], y_pred)}')

химшлак последний Al2O3	0.7000322354474402	0.4672712857635688
химшлак последний CaO	3.5172676020960387	0.15479810210290157
химшлак последний FeO	0.2097506387676803	0.050806220062379226
химшлак последний MgO	2.5466168330686165	0.3616863977437291
химшлак последний MnO	0.06020782847872017	0.10825374472215576
химшлак последний R	0.17245487278829855	0.3759047010289799
химшлак последний SiO2	2.031100489658308	0.174714666508478


In [20]:
for y_col in y_cols:
    rf = RandomForestRegressor()
    rf.fit(X_train, y_train[y_col])
    y_pred = rf.predict(X_test)
    print(f'{y_col}\t'
          f'{rmse(y_pred, y_test[y_col])}\t'
          f'{r2_score(y_test[y_col], y_pred)}')

химшлак последний Al2O3	0.6997474176707134	0.46770469363669165
химшлак последний CaO	3.5489198203142305	0.13951755360023044
химшлак последний FeO	0.21059301690445553	0.04316680893486469
химшлак последний MgO	2.5702052415818244	0.34980668759531774
химшлак последний MnO	0.06150358722197053	0.06945739828757924
химшлак последний R	0.1700033210336261	0.39352237622691877
химшлак последний SiO2	1.9994573408230327	0.20022911329159365


In [24]:
# pca = PCA(n_components=10)
# pca_x = pca.fit_transform(X)
# fig, axs = plt.subplots(2, 5, figsize=(20,10))
# for i in range(10):
#     axs[i%2, i//2].scatter(pca_x[:,i], y[y_cols[0]])
#     axs[i%2, i//2].set_title(f'{i}')