In [1]:
import pandas as pd
from matplotlib import pyplot as plt 
import numpy as np
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.metrics import r2_score

In [2]:
X = pd.read_csv('X.csv', index_col=False)
y = pd.read_csv('y.csv', index_col=False)
y_cols = ['химшлак последний Al2O3', 'химшлак последний CaO', 
          'химшлак последний FeO', 'химшлак последний MgO',
          'химшлак последний MnO', 'химшлак последний R',
          'химшлак последний SiO2']


In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [4]:
# Метрика для оценки точности модели
def rmse(predicted, actual):
    return ((predicted - actual)**2).mean()**.5

In [5]:
for y_col in y_cols:
    lr = LinearRegression()
    lr.fit(X_train, y_train[y_col])
    y_pred = lr.predict(X_test)
    print(f'{y_col}\t'
          f'{rmse(y_pred, y_test[y_col])}\t'
          f'{r2_score(y_test[y_col], y_pred)}')

химшлак последний Al2O3	0.6046175762933311	0.45865438822814575
химшлак последний CaO	3.275293240907912	0.23162021859538573
химшлак последний FeO	0.20628650149465194	0.04674981723848093
химшлак последний MgO	2.507767009284515	0.3923286871412077
химшлак последний MnO	0.05195938154303435	0.18733988975576088
химшлак последний R	0.17437480162076116	0.3816570392141335
химшлак последний SiO2	1.6416694744389242	0.18341832648059186


In [6]:
for y_col in y_cols:
    gb = GradientBoostingRegressor()
    gb.fit(X_train, y_train[y_col])
    y_pred = gb.predict(X_test)
    print(f'{y_col}\t'
          f'{rmse(y_pred, y_test[y_col])}\t'
          f'{r2_score(y_test[y_col], y_pred)}')

химшлак последний Al2O3	0.6298729346729558	0.4124849727429333
химшлак последний CaO	3.2771971423298067	0.23072665307784412
химшлак последний FeO	0.2061512981278835	0.04799895760696493
химшлак последний MgO	2.5146779447673713	0.3889748158717109
химшлак последний MnO	0.053510481589749775	0.1380963583699104
химшлак последний R	0.1717920499442463	0.39983855545882774
химшлак последний SiO2	1.6324809984577286	0.1925336125369963


In [7]:
for y_col in y_cols:
    rf = RandomForestRegressor()
    rf.fit(X_train, y_train[y_col])
    y_pred = rf.predict(X_test)
    print(f'{y_col}\t'
          f'{rmse(y_pred, y_test[y_col])}\t'
          f'{r2_score(y_test[y_col], y_pred)}')

химшлак последний Al2O3	0.6207573254795108	0.4293671211998018
химшлак последний CaO	3.3099799443989433	0.21525912328319619
химшлак последний FeO	0.2056240481029618	0.05286238264288001
химшлак последний MgO	2.5169375562446596	0.38787622601872107
химшлак последний MnO	0.055109313424923256	0.0858215123251379
химшлак последний R	0.17195025780501502	0.39873263723508345
химшлак последний SiO2	1.6424929957229504	0.18259886669639003


In [8]:
# pca = PCA(n_components=10)
# pca_x = pca.fit_transform(X)
# fig, axs = plt.subplots(2, 5, figsize=(20,10))
# for i in range(10):
#     axs[i%2, i//2].scatter(pca_x[:,i], y[y_cols[0]])
#     axs[i%2, i//2].set_title(f'{i}')