# Chemical gas sensor drift compensation

## prediction

Purpose: prediction of VOC.

dataset source: https://archive.ics.uci.edu/dataset/270/gas+sensor+array+drift+dataset+at+different+concentrations


Продолжение, строим PCA  и оцениваем возможность предсказания с посмощью логистической регрессии.

В качестве метрики используем точность предсказания аналита, потому что это сенсоры именно на аналиты.

In [1]:
import numpy as np
import pandas as pd

import seaborn as sns

from matplotlib import pyplot as plt # import matplotlib.pyplot as plt
import matplotlib.patches as mpatches


import os
import re

path = 'Dataset/'

## Структура данных

Каждый отклик описан 8 признаками:  
* Δ𝑅, ‖Δ𝑅‖, 𝑒𝑚𝑎0.001𝐼, 𝑒𝑚𝑎0.01𝐼, 𝑒𝑚𝑎0.1𝐼, 𝑒𝑚𝑎0.001𝐷, 𝑒𝑚𝑎0.01𝐷, and 𝑒𝑚𝑎0.1𝐷. Регистрируется 16 сенсорами, итого каждый отклик описан 128 признаками.

Используемые аналиты: 
* 1: Ethanol; 2: Ethylene; 3: Ammonia; 4: Acetaldehyde; 5: Acetone; 6: Toluene

Строка состоит из индикатора аналита (1-6), концентрации, и 128 признаков:
* 1;10.000000 1:15596.162100 2:1.868245 3:2.371604 ... 127:-0.902241 128:-2.654529 

In [2]:
gas_data = []

voc = {1: 'Ethanol', 2: 'Ethylene', 3: 'Ammonia', 4: 'Acetaldehyd', 5: 'Acetone', 6: 'Toluene'}

with open(path + 'batch1.dat', 'r') as file_data:
    for i, line in enumerate(file_data.readlines()):
        data = line.strip().split(' ') 
        gas_type, conc = data[0].strip().split(';')
        gas_type = voc[int(gas_type)]

        x, y = zip(*[(int(i.strip().split(':')[0]), float(i.strip().split(':')[1])) for i in data[1:]])
        gas_data.append([gas_type] + [conc] + list(y))

In [3]:
features = ('R', '‖ΔR‖', 'ema0.001l', 'ema0.01l', 'ema0.1l', 'ema0.001D', 'ema0.01D', 'ema0.1D')
sensors = [str(i) for i in range(16)]

df_columns = ['VOC', 'conc']
for i in sensors:
    for j in features:
        df_columns.append('s' + i + '_' + j)


df = pd.DataFrame(gas_data, columns=df_columns)
df.head()

Unnamed: 0,VOC,conc,s0_R,s0_‖ΔR‖,s0_ema0.001l,s0_ema0.01l,s0_ema0.1l,s0_ema0.001D,s0_ema0.01D,s0_ema0.1D,...,s14_ema0.01D,s14_ema0.1D,s15_R,s15_‖ΔR‖,s15_ema0.001l,s15_ema0.01l,s15_ema0.1l,s15_ema0.001D,s15_ema0.01D,s15_ema0.1D
0,Ethanol,10.0,15596.1621,1.868245,2.371604,2.803678,7.512213,-2.739388,-3.344671,-4.847512,...,-1.071137,-3.037772,3037.039,3.972203,0.527291,0.728443,1.445783,-0.545079,-0.902241,-2.654529
1,Ethanol,20.0,26402.0704,2.532401,5.411209,6.509906,7.658469,-4.722217,-5.817651,-7.518333,...,-1.530519,-1.994993,4176.4453,4.281373,0.980205,1.62805,1.951172,-0.889333,-1.323505,-1.749225
2,Ethanol,30.0,42103.582,3.454189,8.198175,10.508439,11.611003,-7.668313,-9.478675,-12.230939,...,-2.384784,-2.867291,5914.6685,5.396827,1.403973,2.476956,3.039841,-1.334558,-1.993659,-2.34837
3,Ethanol,40.0,42825.9883,3.451192,12.11394,16.266853,39.910056,-7.849409,-9.689894,-11.921704,...,-2.607199,-3.058086,6147.4744,5.501071,1.981933,3.569823,4.049197,-1.432205,-2.146158,-2.488957
4,Ethanol,50.0,58151.1757,4.194839,11.455096,15.715298,17.654915,-11.083364,-13.580692,-16.407848,...,-3.594763,-4.18192,8158.6449,7.174334,1.993808,3.829303,4.402448,-1.930107,-2.931265,-4.088756


In [4]:
df.tail()

Unnamed: 0,VOC,conc,s0_R,s0_‖ΔR‖,s0_ema0.001l,s0_ema0.01l,s0_ema0.1l,s0_ema0.001D,s0_ema0.01D,s0_ema0.1D,...,s14_ema0.01D,s14_ema0.1D,s15_R,s15_‖ΔR‖,s15_ema0.001l,s15_ema0.01l,s15_ema0.1l,s15_ema0.001D,s15_ema0.01D,s15_ema0.1D
440,Toluene,10.0,74805.0518,6.707129,15.44675,19.415134,20.782742,-12.073277,-15.890503,-33.655074,...,-0.727597,-1.928152,3208.7706,3.548801,0.692627,0.992265,1.274428,-0.481713,-0.705449,-2.153036
441,Toluene,15.0,92035.5156,7.775487,21.17359,27.620422,29.159638,-14.717438,-17.631495,-21.352693,...,-1.01512,-2.734727,4009.731,4.051835,0.983568,1.454702,1.736482,-0.648578,-1.101465,-3.118286
442,Toluene,20.0,107898.2334,8.994761,25.131079,33.771374,37.121172,-17.064423,-23.058288,-66.829676,...,-1.279203,-1.539648,4834.6333,4.605179,1.218879,1.846645,2.245026,-0.83198,-1.299345,-3.860362
443,Toluene,25.0,119795.0352,9.582606,28.944716,39.29035,41.062943,-18.824844,-22.903238,-29.631211,...,-1.556993,-3.688803,5555.9392,5.015334,1.413263,2.199541,3.252978,-0.970762,-1.693868,-2.720472
444,Toluene,35.0,140782.2978,10.975342,35.524802,59.584134,50.20823,-21.607891,-25.081263,-72.701125,...,-2.269665,-6.15694,6816.6381,5.913717,1.787649,3.051548,3.255161,-1.281157,-2.33268,-3.735087


## PCA

PCA, копия с предыдущего файла. Анализируется два варианта:
* все параметры (feat1)
* только основные (feat2)

In [5]:
feat1 = df.values[:,2:]

# select columns with main features
p = list(range(len(df_columns)))
main_comp = [v for i, v in enumerate(p) if (i - 2) % 8 in {0, 1}]
feat2 = df.values[:,main_comp]

Значения в своей массе распределены в диапазоне от "около нуля" до какого-то максимума, и уместнее, поэтому, данные масштабировать по MaxAbsScaler.

(StandardScaler / MinMaxScaler / MaxAbsScaler https://scikit-learn.ru/6-3-preprocessing-data/ )    

In [6]:
from sklearn.decomposition import PCA as sk_pca
# from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MaxAbsScaler

sc = MaxAbsScaler() 

nfeat1 = sc.fit_transform(feat1)
nfeat2 = sc.fit_transform(feat2)

skpca1 = sk_pca(n_components=3)
skpca2 = sk_pca(n_components=3)
 
# Transform on the scaled features
Xt1 = skpca1.fit_transform(nfeat1) 
Xt2 = skpca2.fit_transform(nfeat2) 

NameError: name 'StandardScaler' is not defined

In [None]:
# Define the labels for the plot legend
labplot = list(voc.values()) 
 
# Scatter plot
colors = [plt.cm.jet(float(i)/len(labplot)) for i in range(len(labplot))]

with plt.style.context(('ggplot')):
    fig = plt.figure(figsize=(11,6))
    fig.set_tight_layout(True)

    ax1 = fig.add_subplot(121, projection = '3d')
 
    for i, u in enumerate(labplot):
        col = np.expand_dims(np.array(colors[i]), axis=0)
        xi = [Xt1[j,0] for j in range(len(Xt1[:,0])) if df['VOC'].iloc[j] == u]
        yi = [Xt1[j,1] for j in range(len(Xt1[:,1])) if df['VOC'].iloc[j] == u]
        zi = [Xt1[j,2] for j in range(len(Xt1[:,2])) if df['VOC'].iloc[j] == u]
        ax1.scatter(xi, yi, zi, c=col, s=60, edgecolors='k',label=str(u))

    
    ax1.set_xlabel("PC1")
    ax1.set_ylabel("PC2")
    ax1.set_zlabel("PC3")
    ax1.set_title('All features')
 
    ax2 = fig.add_subplot(122, projection = '3d')

    for i, u in enumerate(labplot):
        col = np.expand_dims(np.array(colors[i]), axis=0)
        xi = [Xt2[j,0] for j in range(len(Xt2[:,0])) if df['VOC'].iloc[j] == u]
        yi = [Xt2[j,1] for j in range(len(Xt2[:,1])) if df['VOC'].iloc[j] == u]
        zi = [Xt2[j,2] for j in range(len(Xt2[:,2])) if df['VOC'].iloc[j] == u]
        ax2.scatter(xi, yi, zi, c=col, s=60, edgecolors='k',label=str(u))
    
    ax2.set_xlabel("PC1")
    ax2.set_ylabel("PC2")
    ax2.set_zlabel("PC3")
    ax2.set_title('Main features')
 
plt.legend()
plt.show()

Теперь видно, что в трех компонентах основные данные разделяются не особо хуже, чем полные. Хотя дисперсия заметно выше.

Когда-нибудь: не забыть подвинуть подписи к вертикальной оси (как-то так: ax.xaxis.set_label_coords(1.05, -0.025))

Теперь можно смотреть, с какой точностью можно в таких данных предсказывать что за аналит (и что за концентрация, например -- не реализовано).

## Prediction

Сперва смотрим на полном наборе.

### Logistic Regression

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from matplotlib.colors import ListedColormap

# select columns with main features
skpca = sk_pca(n_components=3)

df_train, df_test = train_test_split(df, test_size=0.2) # или подставлять df/df2  для другого набора

train = sc.fit_transform(df_train.values[:, 2:])
X_train = skpca.fit_transform(train)
#X_test = sc.transform(df_test.values[:, 2:])


df_test.head()

In [None]:
# Fitting Logistic Regression To the training set
classifier = LogisticRegression(random_state = 0, max_iter=500) # warning if max_iter less then 300 (or default).
classifier.fit(X_train, df_train.values[:, 0]) # .T.astype("int")


X_test = skpca.fit_transform(sc.transform(df_test.values[:, 2:]))
#X_test = skpca.fit_transform(X_test)
y_test = df_test.values[:, 0]
y_pred = classifier.predict(X_test)

acc = accuracy_score(y_test, y_pred)
print("Accuracy of LogisticRegression is ", acc)

Точность каждый раз разная, непонятно почему, и может скакать в широких пределах:

PCA = 2 : Accuracy of LogisticRegression is  0.797752808988764 // 0.6629213483146067

PCA = 3 : Accuracy of LogisticRegression is  0.8314606741573034 // 0.7865168539325843 // 0.9101123595505618 // 0.30337078651685395 // 0.898876404494382

In [None]:
print(classification_report(y_test, y_pred, zero_division=0))

In [None]:
cm = confusion_matrix(y_test, y_pred)
#print('Оценка совпадения предсказаний: \n', cm)

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=classifier.classes_)
disp.plot(xticks_rotation=45)
plt.title('Confusion Matrix Display (Test set)')
plt.show()

С виду неплохо (если взять 2 компонента то неважно), а на основных элементах еще хуже будет, наверное. 

Теперь построим такую же матрицу с помощью библиотеки Plotly.


однако на локальном Jupyter что-то идет не так. Код из лекции ничего не  кроме ошибки (хотя доустановил пакет):

"$jupyter labextension install jupyterlab-plotly

(Deprecated) Installing extensions with the jupyter labextension install command is now deprecated and will be removed in a future major version of JupyterLab.

Users should manage prebuilt extensions with package managers like pip and conda, and extension authors are encouraged to distribute their extensions as prebuilt packages
"

Удалось запустить в другом виде, но там не удалось понять как менять значения на осях, пропорции, и выводить числа на сам график.

In [None]:
import plotly.graph_objs as go
import plotly.io as pio
pio.renderers.default = 'plotly_mimetype+notebook'

In [None]:
# In case you want to use Jupyter lab, you will have to install the plotly jupyterlab extension:
# https://stackoverflow.com/questions/52771328/plotly-chart-not-showing-in-jupyter-notebook
# jupyter labextension install jupyterlab-plotly

'''
import plotly.express as px

fig = px.imshow([[1, 20, 30],
                 [20, 1, 60],
                 [30, 60, 1]])
fig.show()
'''

heatmap = go.Heatmap(z=cm, colorscale='Viridis')
voc_names = ('Ethanol','Ethylene', 'Ammonia', 'Acetaldehyd', 'Acetone', 'Toluene')
# create the layout
layout = go.Layout(title='Confusion Matrix Display (Test set)')

# create the figure
fig = go.Figure(data=[heatmap], layout=layout) # , , x=voc_names, y=voc_names

fig.show()

'''
fig = px.imshow(cm, color_continuous_scale='RdYlBu') # , x=['A', 'B', 'C', 'D'], y=['V1', 'V2', 'V3', 'V4']
fig.show()
'''

Код для графического отображения предсказаний ниже работает только для РСА=2 (полный набор), а расчеты сейчас ведутся для РСА=3. При РСА-2 получилось бы так:

![image.png](attachment:515617da-2c5a-4e0c-9deb-a9e135987e65.png)

In [None]:
x_set, y_set = X_train, df_train.values[:, 0]
x_test = X_test

X1, X2 = np.meshgrid(np.arange(start = x_set[:, 0].min() - 1,
                     stop = x_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = x_set[:, 1].min() - 1,
                     stop = x_set[:, 1].max() + 1, step = 0.01))

voc2numbers = [labplot.index(i) for i in classifier.predict(np.array([X1.ravel(), X2.ravel()]).T)]
print(voc2numbers)

plt.contourf(X1, X2, np.array(voc2numbers).reshape(X1.shape), alpha = 0.75,
             cmap = ListedColormap(colors))
  
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
  
for i, j in enumerate(labplot):
    plt.scatter(x_set[y_set == j, 0], x_set[y_set == j, 1],
                color = np.expand_dims(np.array(colors[i]), axis=0), alpha=0.3, label = 'Train ' + str(j))
                
#  добавим "проверочные" точки на график
for i, j in enumerate(labplot):
    plt.scatter(x_test[y_test == j, 0], x_test[y_test == j, 1],
                color = np.expand_dims(np.array(colors[i]), axis=0), label = 'Test ' + str(j))

  
plt.title('Logistic Regression (Training set)')
plt.xlabel('PC1') # for Xlabel
plt.ylabel('PC2') # for Ylabel
plt.legend() # to show legend
  
# show scatter plot
plt.show()

### Набор на основных параметрах

Формируем дополнительный датафрейм df2 только с основными признаками, в комплект к полному. А то если раньше можно было по прежнему индексу обращаться к датасету, то теперь-то он разделиться на две части и индексация потеряется.

И  далее подставлять тот или иной набор данных.

In [None]:
#p = list(range(len(df_columns)))
#main_comp = [v for i, v in enumerate(p) if ((i - 2) % 8 in {0, 1} or i in {0, 1})]

main_comp = [v for i, v in enumerate(df_columns) if ((i - 2) % 8 in {0, 1} or i in {0, 1})]
df2 = df.loc[:,main_comp]
df2.head()

In [None]:
skpca = sk_pca(n_components=3)

df_train, df_test = train_test_split(df2, test_size=0.2) # или подставлять df/df2  для другого набора

sc = StandardScaler()
train = sc.fit_transform(df_train.values[:, 2:])
X_train = skpca.fit_transform(train)
#X_test = sc.transform(df_test.values[:, 2:])


df_test.head()

In [None]:
# Fitting Logistic Regression To the training set
classifier = LogisticRegression(random_state = 0, max_iter=500) # warning if max_iter less then 300 (or default).
classifier.fit(X_train, df_train.values[:, 0]) # .T.astype("int")


X_test = skpca.fit_transform(sc.transform(df_test.values[:, 2:]))
#X_test = skpca.fit_transform(X_test)
y_test = df_test.values[:, 0]
y_pred = classifier.predict(X_test)

acc = accuracy_score(y_test, y_pred)
print("Accuracy of LogisticRegression is ", acc)
# PCA = 2 : Accuracy of LogisticRegression is  0.797752808988764 // 0.6629213483146067
# PCA = 3 : Accuracy of LogisticRegression is  0.8314606741573034 // 0.7865168539325843 // 0.9101123595505618 // 0.30337078651685395

Тут точность тоже прыгает , можно увидеть и 0,4, и 0,14.

In [None]:
print(classification_report(y_test, y_pred, zero_division=0))

In [None]:
cm = confusion_matrix(y_test, y_pred)
#print('Оценка совпадения предсказаний: \n', cm)

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=classifier.classes_)
disp.plot(xticks_rotation=45)
plt.title('Confusion Matrix Display (Test set)')
plt.show()

Кажется это надо пробовать считать в разных файлах, каждый набор в своем, или тут использовать разные имена, тк второй результат раз от раза отличается. Да и погрешность не ожидал что вдвое хуже будет.