# Продолжение решения Задачи 1 "Изучение критической температуры сверхпроводников"

Данные о сверхпроводниках взяты из базы данных сверхпроводящих материалов, собранной Национальным институтом материаловедения Японии NIMS. 

Данные содержат сведения о **21 263 сверхпроводников**.

*   Тренировочный набор - **17010** строк.
*   Тестовый набор - **4253** строк.

Для каждого сверхпроводника в данных приведены полная химическая формула сверхпроводника, а также 8 основных химических свойств (абсолютное значение, среднее, взвешенное среднее и так далее): атомная масса, энергия ионизации, радиус атома, плотность, удельная теплота плавления, энергия сродства к электрону, теплопроводность, валентность.


## Считывание данных

In [7]:
from google.colab import drive
drive.mount('/content/gdrive')

ModuleNotFoundError: No module named 'google'

In [None]:
import os

os.chdir(r"/content/gdrive/MyDrive/Я-профи подготовка по машинному обучению/Samsung Kaggle/Суперпроводники")
print(os.getcwd())

/content/gdrive/MyDrive/Я-профи подготовка по машинному обучению/Samsung Kaggle/Суперпроводники


In [1]:
# иморитирование всех необходимых библиотек
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Считываем тренировочные данные
train = pd.read_csv("train.csv")
formula_train = pd.read_csv("formula_train.csv")

print(f"Train dataset shape: {train.shape}")
print(f"Train_formula dataset shape: {formula_train.shape}")

Train dataset shape: (17010, 82)
Train_formula dataset shape: (17010, 88)


In [3]:
# Считываем тестовые данные
test = pd.read_csv("test.csv")
formula_test = pd.read_csv("formula_test.csv")

print(f"Test dataset shape: {test.shape}")
print(f"Test_formula dataset shape: {formula_test.shape}")

Test dataset shape: (4253, 81)
Test_formula dataset shape: (4253, 87)


In [None]:
%%time

plt.figure(figsize = (30,30))

sns.heatmap(train.corr(), cmap="YlGnBu", annot=True)

results_path = 'results.png'
plt.savefig(results_path)

## Предобработка данных

### **Тренировочные данные.**

В данной задаче у нас имеются два датасета для тренировки и для теста, для удобства сформируем один DataFrame.

Так как колонка с целевой переменной имеется в обоих датасетах, удалим её из одного, чтобы не дублировать.

In [4]:
formula_train = formula_train.drop(columns=['critical_temp'])

train_full = pd.concat([train, formula_train], axis=1)

print(f"Full Train dataset shape: {train_full.shape}")

Full Train dataset shape: (17010, 169)


In [5]:
# Удалим из данных ненужную колонку 'material'
train_full.drop(columns=['material'], inplace=True)

In [6]:
# Выделим из набора данных вектор признаков и вектор ответов
X = train_full.drop(columns=['critical_temp'])
y = train_full['critical_temp']

print(f"Features shape: {X.shape}")
print(f"Target shape: {y.shape}")

Features shape: (17010, 167)
Target shape: (17010,)


### **Тестовые данные.**

Обработаем аналогичным образом тестовые данные.

In [7]:
test_full = pd.concat([test, formula_test], axis=1)

print(f"Full Test dataset shape: {test_full.shape}")

Full Test dataset shape: (4253, 168)


In [8]:
# Удалим из данных ненужную колонку 'material'
test_full.drop(columns=['material'], inplace=True)

In [9]:
len(set(test_full.columns) & set(train_full.columns))

167

In [None]:
test.head()

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,mean_Valence,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence
0,5,92.729214,61.051113,73.132787,37.51393,1.449309,1.146919,122.90607,35.741099,47.094633,...,2.0,2.2,1.888175,2.124829,1.557113,1.053346,2,1.114286,0.632456,0.550325
1,4,64.632217,55.79006,48.775792,35.17883,1.139875,0.931491,122.90607,35.851917,46.059083,...,2.25,2.264286,2.213364,2.226222,1.368922,1.048834,1,1.1,0.433013,0.440952
2,4,76.444563,65.834647,59.356672,48.955994,1.199541,1.241867,121.3276,22.132267,43.823354,...,2.25,2.133333,2.213364,2.1111,1.368922,1.35471,1,0.266667,0.433013,0.339935
3,4,96.03285,77.279467,69.51593,53.61112,1.159784,1.267452,151.2596,22.543367,59.663892,...,2.25,2.166667,2.213364,2.139826,1.368922,1.351681,1,0.333333,0.433013,0.372678
4,4,96.451652,75.978308,69.689342,53.146925,1.158346,1.259726,152.93481,24.42105,60.166149,...,2.25,2.116667,2.213364,2.096882,1.368922,1.350047,1,0.316667,0.433013,0.321023


### Масштабирование данных

**Масштабирование признаков**

Масштабированием называется общий процесс изменения диапазона признака. Это необходимый шаг, потому что признаки измеряются в разных единицах, а значит покрывают разные диапазоны. 

*Например, столбцы возраста и месячной зарплаты будут иметь совершенно разный диапазон.*

Это сильно искажает результаты таких алгоритмов, как *метод опорных векторов* и *метод k-ближайших соседей*, которые учитывают расстояния между измерениями. А масштабирование позволяет этого избежать. И хотя методы вроде *линейной регрессии* и *«случайного леса»* не требует масштабирования признаков, лучше не пренебрегать этим этапом при сравнении нескольких алгоритмов.

**Существует два распространенных способа масштабирования:**

1. **Нормализация**

В данном случае все значения будут находиться в диапазоне от 0 до 1. Дискретные бинарные значения определяются как 0 и 1. 

Расчёт нового значения происходит по формуле:

$X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}}$


2. **Стандартизация**

Масштабирует значения с учетом стандартного отклонения. Если стандартное отклонение функций другое, их диапазон также будет отличаться друг от друга. Это снижает влияние выбросов в элементах. В следующей формуле стандартизации среднее значение показано как $μ$, а стандартное отклонение показано как $σ$.

$X_{std} = \frac{X-μ}{σ}$

Стандартизация приводит все исходные значения набора данных, независимо от их начальных распределений и единиц измерения, к набору значений из распределения с **нулевым средним значением** и **единичным стандартным отклонением**. 

Пакет `sklearn.preprocessing` содержит в себе множество различных функции предобработки данных, в том числе функции, позволяющие выполнять масштабирование признаков:

- **StandardScaler()** - класс для стандартизации
- **MinMaxScaler()** - класс для нормализации

In [None]:
# Выделим из набора данных вектор признаков и вектор ответов
X = train.drop(columns=['critical_temp'])
y = train['critical_temp']

print(f"Features shape: {X.shape}")
print(f"Target shape: {y.shape}")

Features shape: (17010, 81)
Target shape: (17010,)


In [None]:
X.shape

(17010, 81)

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

std = StandardScaler()
X_std = std.fit_transform(X)
# std.fit(X)
# X_std = std.transform(X)

mmsc = MinMaxScaler()
X_norm = mmsc.fit_transform(X)

## Обучение модели

В данном примере мы решаем задачу регрессии и для её решения воспользуемся алгоритмом ***Линейной регрессии***.

In [None]:
# импортируем необходмимые библиотеки
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

В нашем наборе данных **167** различных признаков, значит уравнение линейной регрессии будет выглядеть следующим образом в общем виде:

$y = w_0 + w_1*x_1 + w_2*x_2 + ... + w_{167}*x_{167}$

И задача линейной регрессии сводится к рассчёту коэффицентов (весов $w_i$) при признаках $x_i$.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size=0.15, random_state=42)

print(f'Train dataset size: {X_train.shape}, {y_train.shape}')
print(f'Train dataset size: {X_test.shape}, {y_test.shape}')

Train dataset size: (14458, 81), (14458,)
Train dataset size: (2552, 81), (2552,)


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size=0.15, random_state=42)

print(f'Train dataset size: {X_train.shape}, {y_train.shape}')
print(f'Train dataset size: {X_test.shape}, {y_test.shape}')

# Создадим модель линейной регрессии
model = LinearRegression()

# Обучим линейную регрессию на тренировочном стандартизированном наборе данных 
# На этапе обучения алгоритм рассчитывает веса признаков и строит линейное уравнение регрессии 
model.fit(X, y)

y_pred = model.predict(X)

print('Mean Absolute Error:', mean_absolute_error(y, y_pred))
print('Mean Squared Error:', mean_squared_error(y, y_pred))
print('r2_score:', r2_score(y, y_pred))

Train dataset size: (14458, 81), (14458,)
Train dataset size: (2552, 81), (2552,)
Mean Absolute Error: 13.294945687545471
Mean Squared Error: 307.7301748653557
r2_score: 0.7389481688839086


In [None]:
# Создадим массив названия признаков
features = X.columns

In [None]:
coeff_df = pd.DataFrame(model.coef_, columns=['Coefficient'])  
coeff_df['features'] = features

coeff_df.sort_values(by='Coefficient')

Unnamed: 0,Coefficient,features
15,-115.737788,entropy_fie
76,-72.628918,wtd_entropy_Valence
5,-34.236296,entropy_atomic_mass
74,-29.545704,wtd_gmean_Valence
80,-26.456219,wtd_std_Valence
...,...,...
72,25.170008,wtd_mean_Valence
16,45.237762,wtd_entropy_fie
26,50.378731,wtd_entropy_atomic_radius
25,63.366952,entropy_atomic_radius


In [None]:
cols_drop = list(coeff_df[(coeff_df['Coefficient'] > -1) & (coeff_df['Coefficient'] < 1)]['features'])

In [1]:
X = X.drop(columns=cols_drop)

NameError: name 'X' is not defined

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, StandardScaler

std = StandardScaler()
X_std = std.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size=0.15, random_state=123)

print(f'Train dataset size: {X_train.shape}, {y_train.shape}')
print(f'Train dataset size: {X_test.shape}, {y_test.shape}')

# Создадим модель линейной регрессии
model = LinearRegression()

# Обучим линейную регрессию на тренировочном стандартизированном наборе данных 
# На этапе обучения алгоритм рассчитывает веса признаков и строит линейное уравнение регрессии 
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print('Mean Absolute Error:', mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', mean_squared_error(y_test, y_pred))
print('r2_score:', r2_score(y_test, y_pred))

Train dataset size: (14458, 31), (14458,)
Train dataset size: (2552, 31), (2552,)
Mean Absolute Error: 16.127728001931853
Mean Squared Error: 418.96608915479675
r2_score: 0.6355998215896455


## Предсказание ответа для тестового набора данных

In [None]:
test_full = test_full.drop(columns=cols_drop)

In [None]:
test.shape

(4253, 27)

In [None]:
X_test_std = std.transform(test_full)

In [None]:
test_full.shape

(4253, 167)

In [None]:
y_pred_test = model.predict(test_full)

In [None]:
from google.colab import files
y_pred_test = pd.DataFrame(y_pred_test, columns=['critical_temp'])
y_pred_test = y_pred_test.reset_index()

y_pred_test.to_csv("solution.csv", index=False)

files.download("solution.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>