## 6. Исследовательский анализ данных и машинное обучение

## 6.1. Проверка мультиколлинеарности и отбор признаков

In [None]:
import pandas as pd
import seaborn as sns
iris = pd.read_csv('iris.csv')

print(iris['species'].value_counts())

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

iris = pd.read_csv('iris.csv')

plt.rcParams['figure.figsize'] = (10,10)
sns.heatmap(iris.drop(['species'], axis=1).corr(), annot=True)
plt.show()

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from itertools import compress
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.model_selection import train_test_split 

iris = pd.read_csv('iris.csv')

X = iris.drop(['species'], axis=1)
y = iris['species']
 
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state = 42, test_size = 0.33)
skb = SelectKBest(f_classif, k=2).fit(X_train, y_train)
mask = skb.get_support()
name_col = X_train.columns.values
result = list(compress(name_col, mask))
score_skb = skb.scores_

plt.bar(result, score_skb)
plt.show()

## 6.2. Регрессионный анализ

In [None]:
# Подключение класса LinearRegression из модуля scikit-learn
from sklearn.linear_model import LinearRegression

# Подключение train_test_split из модуля scikit-learn
from sklearn.model_selection import train_test_split

# Подключение библиотеки matplotlib
import matplotlib.pyplot as plt

# Подключение библиотек numpy и pandas
import numpy as np
import pandas as pd

df = pd.read_excel('temp_around.xlsx')

X = df[['temp_ground']] # строго двойные кв. скобки
Y = df['temp_air']

In [None]:
# Разбиение данных на два подмножества: для обучения и тестирования (Train-Test Split)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state=1)

# STEP1 - создание экземпляра модели (Instantiating the Model)
model = LinearRegression()

# STEP2 - обучение модели (Fitting the Model)
model.fit(X_train, Y_train)

# STEP3 - расчёт коэффициентов линейной модели Y = intercept_ + coef_ * X
print(model.intercept_.round(2))
print(model.coef_.round(2))

In [None]:
# STEP4 - проверка модели на одном тестовом значении (Prediction)
new_temp_ground = np.array([23.5]).reshape(-1,1) # необходим 2d или DataFrame
print(model.predict(new_temp_ground))

# STEP5 - проверка модели на множестве тестовых значений (оценка производительности)
y_test_predicted = model.predict(X_test)
print(y_test_predicted)

In [None]:
# STEP6 - среднеквадратическая ошибка (mean squared error (MSE) -> 0)
residuals = Y_test - y_test_predicted
print((residuals**2).mean())

# STEP7 - нахождение R-квадрата (R-squared, 0-100%)
# 1 - (residuals**2).sum() / ((Y_test-Y_test.mean())**2).sum()
print(model.score(X_test, Y_test))

In [None]:
# STEP8 - графический анализ результатов (Residuals)
plt.scatter(X_test, Y_test, label='Экспериментальные данные');
plt.plot(X_test, y_test_predicted, label='Модель', linewidth=3)
plt.xlabel('temp_ground'); plt.ylabel('temp_air')
plt.legend(loc='upper left')
plt.show()

## 6.3. Классификация

In [None]:
import pandas as pd
iris = pd.read_csv('iris.csv')

print(iris['species'].value_counts())

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
iris = pd.read_csv('iris.csv')

# создадим цифровой код для каждого сорта
inv_name_dict = {'iris-setosa': 0,
                 'iris-versicolor': 1,
                 'iris-virginica': 2}

# создадим цифровой код для каждого цвета
colors = [inv_name_dict[item] for item in iris['species']] 

scatter = plt.scatter(iris['sepal_len'], iris['sepal_wd'], c = colors)
plt.xlabel('sepal length (cm)')
plt.ylabel('sepal width (cm)')
plt.legend(handles=scatter.legend_elements()[0],
labels = inv_name_dict.keys())
plt.show()

In [None]:
# Подключение библиотеки Pandas
import pandas as pd
iris = pd.read_csv('iris.csv')

# Подключение train_test_split из модуля scikit-learn
from sklearn.model_selection import train_test_split

# Подключение neighbors из модуля scikit-learn
from sklearn.neighbors import KNeighborsClassifier

X = iris[['petal_len', 'petal_wd']] # строго двойные кв. скобки
y = iris['species']

# Разбиение данных на два подмножества: для обучения и тестирования (Train-Test Split)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=1, stratify=y)

In [None]:
# STEP1 - создание экземпляра модели (Instantiating the Model)
# Кол-во соседних значений n = 5
knn = KNeighborsClassifier(n_neighbors=5)

# STEP2 - подгонка модели (Fitting the Model)
knn.fit(X_train, y_train)

# STEP3 - проверка модели на одном тестовом значении (Prediction)
import numpy as np
new_data = np.array([3.76, 1.20])
new_data = new_data.reshape(1, -1)
print(knn.predict(new_data))
# STEP4 - проверка модели на множестве тестовых значений (Prediction)
pred_X_test = knn.predict(X_test)
print(pred_X_test)

# STEP5 - вероятностное предсказание (Probability Prediction)
y_pred_prob = knn.predict_proba(X_test)
print(y_pred_prob[10:12])

# STEP6 - проверка точности модели
print(knn.score(X_test, y_test))

# STEP7 - построение матрицы неточностей и метрик precision, recall, F-мера
y_pred = knn.predict(X_test)

from sklearn.metrics import classification_report
report = classification_report(y_test, y_pred)
print(report)

from sklearn.metrics import confusion_matrix 
print(confusion_matrix(y_test, y_pred))

In [None]:
# STEP8 - перекрёстная проверка (K-fold Cross Validation)
from sklearn.model_selection import cross_val_score

knn_cv = KNeighborsClassifier(n_neighbors=3)
# 5-fold cv
cv_scores = cross_val_score(knn_cv, X, y, cv=5)
# print each cv score (accuracy)
print(cv_scores)
print(cv_scores.mean())

# STEP9 - перекрёстная проверка (K-fold Cross Validation с GridSearchCV)
from sklearn.model_selection import GridSearchCV
# Создание нового экземпляра модели (Instantiating the Model)
knn2 = KNeighborsClassifier()
# Создание словаря с разными параметрами соседних значений
param_grid = {'n_neighbors': np.arange(2, 10)}
# Анализ всех n_neighbors при 5-кратной перекрёстной проверке
# Обычно используют 5-ти или 10-кратную перекрёстную проверку
knn_gscv = GridSearchCV(knn2, param_grid, cv=5)
# Подгонка модели и вывод лучшего n_neighbors
knn_gscv.fit(X, y)
print(knn_gscv.best_params_) 

## 6.4. Деревья решений

In [None]:
# Подключение библиотеки Pandas
import pandas as pd
# Подключение библиотеки sklearn
from sklearn import tree
# Использование модели классификации в деревьях решений
from sklearn.tree import DecisionTreeClassifier

df = pd.read_csv('weather.csv')

# rename и map() позволяют преобразовать категориальные признаки в числа
rename = {'rain': 1, 'sunny': 0}
# целевая переменная
df['rainfall'] = df['rainfall'].map(rename)

# переменные для построения модели
features = ['temp', 'press', 'wind', 'humidity', 'temp_water']

X = df[features]
y = df['rainfall']

# создание экземпляра класса (Instantiating the Model)
dtree = DecisionTreeClassifier()

# подгонка модели (Fitting the Model)
dtree = dtree.fit(X, y)

# предсказание модели (Prediction)
X_new = [15, 750, 4.3, 63, 14]
print(dtree.predict([X_new]))

# если [1] – будет дождь, если [0] – будет солнечная погода
print("[1] rain")
print("[0] sunny")

In [None]:
# Подключение библиотеки Pandas
import pandas as pd
# Подключение библиотеки sklearn
from sklearn import tree
# Использование модели классификации в деревьях решений
from sklearn.tree import DecisionTreeClassifier

# Библиотеки для построения графика
import pydotplus
import matplotlib.pyplot as plt
import matplotlib.image as pltimg

df = pd.read_csv('weather.csv')

# rename и map() позволяют преобразовать категориальные признаки в числа
rename = {'rain': 1, 'sunny': 0}
# целевая переменная
df['rainfall'] = df['rainfall'].map(rename)

# переменные для построения модели
features = ['temp', 'press', 'wind', 'humidity', 'temp_water']

X = df[features]
y = df['rainfall']

# создание экземпляра класса (Instantiating the Model)
dtree = DecisionTreeClassifier()

# подгонка модели (Fitting the Model)
dtree = dtree.fit(X, y)

# построение графика и создание изображения
data = tree.export_graphviz(dtree, out_file=None, feature_names=features)
graph = pydotplus.graph_from_dot_data(data)
graph.write_png('decisiontree.png')

# вывод графика на экран
img=pltimg.imread('decisiontree.png')
imgplot = plt.imshow(img)
plt.show()

## 6.5. Нейронные сети

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

iris = pd.read_csv('iris.csv')

X = iris[['petal_len', 'petal_wd', 'sepal_len', 'sepal_wd']] # строго двойные кв. скобки
y = iris['species']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=1, stratify=y)

clf = MLPClassifier(solver = 'lbfgs', alpha=1e-5, max_iter = 1000, random_state = 0)

scale = StandardScaler()
clf = clf.fit(X_train, y_train)

X_test_scaled = scale.fit_transform(X_test)

print('prediction: ', clf.predict(X_test_scaled))
print(clf.score(X_test_scaled, y_test).round(2))

## 6.6. Кластеризация

In [None]:
import numpy as np

x1 = np.array([0, 2])
x2 = np.array([4, 0])
result = np.sqrt(((x1-x2)**2).sum())
print(np.sqrt(result).round(2))

### 1. Загрузка данных. Предварительный анализ.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine

data = load_wine()
wine = pd.DataFrame(data.data, columns=data.feature_names)
print(wine.shape)
print(wine.columns)

### 2. Графическое представление данных.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from pandas.plotting import scatter_matrix

data = load_wine()
wine = pd.DataFrame(data.data, columns=data.feature_names)
scatter_matrix(wine.iloc[:,[0,5]])
plt.show()

### 3. Стандартизация. Масштабирование.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine

data = load_wine()
wine = pd.DataFrame(data.data, columns=data.feature_names)

X = wine[['alcohol', 'total_phenols']] 

from sklearn.preprocessing import StandardScaler
scale = StandardScaler()
scale.fit(X)

print(scale.mean_)
print(scale.scale_)

X_scaled = scale.transform(X)
print(X_scaled.mean(axis=0))
print(X_scaled.std(axis=0))

In [None]:
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler

data = load_wine()
wine = pd.DataFrame(data.data, columns=data.feature_names)

X = wine[['alcohol', 'total_phenols']]

scale = StandardScaler()
scale.fit(X)
X_scaled = scale.transform(X)

from sklearn.cluster import KMeans
# Создание нового экземпляра модели (Instantiating the Model)
kmeans = KMeans(n_clusters=3)
# Обучение модели (Fitting the Model)
kmeans.fit(X_scaled)
# Проверка модели (Prediction)
y_pred = kmeans.predict(X_scaled)
print(y_pred)

# Предсказание на одном образце
X_new = np.array([[13, 2.5]])
X_new_scaled = scale.transform(X_new)

print(kmeans.predict(X_new_scaled))

### 4. Оптимизация количества кластеров.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

data = load_wine()
wine = pd.DataFrame(data.data, columns=data.feature_names)

X = wine[['alcohol', 'total_phenols']]

scale = StandardScaler()
scale.fit(X)
X_scaled = scale.transform(X)

kmeans = KMeans(n_clusters=3)
kmeans.fit(X_scaled)
print(kmeans.inertia_)

import numpy as np
# Вычисление инерции при разном кол-ве кластеров
inertia = []
for i in np.arange(1, 11):
    km = KMeans(
        n_clusters=i
    )
    km.fit(X_scaled)
    inertia.append(km.inertia_)

plt.plot(np.arange(1, 11), inertia, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Inertia')
plt.show()