# Демонстрационный пример

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier, export_text
from sklearn.preprocessing import LabelEncoder

In [None]:
def entropy(y):
  _, counts = np.unique(y, return_counts=True)
  probabilities = counts / len(y)
  return -np.sum(probabilities * np.log2(probabilities + 1e-10))

def information_gain(X, y, feature):
  total_entropy = entropy(y)
  values, counts = np.unique(X[:, feature], return_counts=True)
  weighted_entropy = sum(counts[i] / len(y) * entropy(y[X[:, feature] == values[i]]) for i in range(len(values)))
  return total_entropy - weighted_entropy

In [None]:
X = np.array([
  ['Высокая', 'Да'],
  ['Высокая', 'Да'],
  ['Высокая', 'Да'],
  ['Высокая', 'Да'],
  ['Высокая', 'Нет'],
  ['Высокая', 'Да'],
  ['Высокая', 'Нет'],
  ['Низкая', 'Да'],
  ['Низкая', 'Нет'],
  ['Низкая', 'Нет'],
  ['Низкая', 'Да'],
  ['Низкая', 'Да']
])

y = np.array(['Сдал', 'Сдал', 'Сдал', 'Сдал', 'Сдал', 'Сдал', 'Не сдал',
              'Сдал', 'Не сдал', 'Не сдал', 'Не сдал', 'Не сдал'])

le_X = LabelEncoder()
le_y = LabelEncoder()
X_encoded = np.apply_along_axis(le_X.fit_transform, axis=0, arr=X)
y_encoded = le_y.fit_transform(y)
feature_names = ['Посещаемость', 'Домашние задания']

info_gains = []
for i, name in enumerate(feature_names):
  ig = information_gain(X_encoded, y_encoded, i)
  info_gains.append(ig)
  print(f"Информационный выигрыш для признака {name}: {ig:.4f}")

best_feature = feature_names[np.argmax(info_gains)]
print(f"\nЛучший признак для первого разделения: '{best_feature}'")

Информационный выигрыш для признака Посещаемость: 0.3339
Информационный выигрыш для признака Домашние задания: 0.1686

Лучший признак для первого разделения: 'Посещаемость'


In [None]:
clf = DecisionTreeClassifier(random_state=42, max_depth=2)
clf.fit(X_encoded, y_encoded)
tree_rules = export_text(clf, feature_names=feature_names)
print("\nПравила дерева решений:")
print(tree_rules)


Правила дерева решений:
|--- Посещаемость <= 0.50
|   |--- Домашние задания <= 0.50
|   |   |--- class: 1
|   |--- Домашние задания >  0.50
|   |   |--- class: 0
|--- Посещаемость >  0.50
|   |--- Домашние задания <= 0.50
|   |   |--- class: 0
|   |--- Домашние задания >  0.50
|   |   |--- class: 0



# Задача №1. Самостоятельный пример.

In [None]:
X = np.array([
  ['Много', 'Да'],
  ['Много', 'Да'],
  ['Много', 'Нет'],
  ['Много', 'Да'],
  ['Много', 'Нет'],
  ['Много', 'Да'],
  ['Мало', 'Нет'],
  ['Мало', 'Нет'],
  ['Мало', 'Да'],
  ['Мало', 'Нет'],
  ['Мало', 'Да'],
  ['Мало', 'Да']
])

y = np.array(['Успешен', 'Успешен', 'Не успешен', 'Успешен', 'Не успешен',
              'Успешен', 'Не успешен', 'Не успешен', 'Успешен', 'Не успешен',
              'Успешен', 'Успешен'])

le_X = LabelEncoder()
le_y = LabelEncoder()
X_encoded = np.apply_along_axis(le_X.fit_transform, axis=0, arr=X)
y_encoded = le_y.fit_transform(y)
feature_names = ['Участие в дискуссиях', 'Практические задания']

info_gains = []
for i, name in enumerate(feature_names):
  ig = information_gain(X_encoded, y_encoded, i)
  info_gains.append(ig)
  print(f"Информационный выигрыш для признака {name}: {ig:.4f}")

best_feature = feature_names[np.argmax(info_gains)]
print(f"\nЛучший признак для первого разделения: {best_feature}")

Информационный выигрыш для признака Участие в дискуссиях: 0.0207
Информационный выигрыш для признака Практические задания: 0.9799

Лучший признак для первого разделения: Практические задания


In [None]:
clf = DecisionTreeClassifier(random_state=42, max_depth=2)
clf.fit(X_encoded, y_encoded)
tree_rules = export_text(clf, feature_names=feature_names)
print("\nПравила дерева решений:")
print(tree_rules)


Правила дерева решений:
|--- Практические задания <= 0.50
|   |--- class: 1
|--- Практические задания >  0.50
|   |--- class: 0



# Задача №2. Самостоятельный пример.

In [None]:
X = np.array([
  ['Высокая', 'Да', 'Сложная'],
  ['Высокая', 'Да', 'Простая'],
  ['Высокая', 'Нет', 'Сложная'],
  ['Высокая', 'Да', 'Сложная'],
  ['Высокая', 'Нет', 'Простая'],
  ['Низкая', 'Да', 'Простая'],
  ['Низкая', 'Нет', 'Сложная'],
  ['Низкая', 'Нет', 'Простая'],
  ['Низкая', 'Да', 'Простая'],
  ['Средняя', 'Да', 'Сложная'],
  ['Средняя', 'Нет', 'Простая'],
  ['Средняя', 'Да', 'Сложная']
])

y = np.array(['Успешен', 'Успешен', 'Не успешен', 'Успешен', 'Не успешен',
              'Успешен', 'Не успешен', 'Не успешен', 'Успешен', 'Успешен',
              'Не успешен', 'Успешен'])

le_X = LabelEncoder()
le_y = LabelEncoder()
X_encoded = np.apply_along_axis(le_X.fit_transform, axis=0, arr=X)
y_encoded = le_y.fit_transform(y)
feature_names = ['Посещаемость', 'Домашние задания', 'Сложность курса']

info_gains = []
for i, name in enumerate(feature_names):
  ig = information_gain(X_encoded, y_encoded, i)
  info_gains.append(ig)
  print(f"Информационный выигрыш для признака {name}: {ig:.4f}")

best_feature = feature_names[np.argmax(info_gains)]
print(f"\nЛучший признак для первого разделения: {best_feature}")

Информационный выигрыш для признака Посещаемость: 0.0124
Информационный выигрыш для признака Домашние задания: 0.9799
Информационный выигрыш для признака Сложность курса: 0.0207

Лучший признак для первого разделения: Домашние задания


In [None]:
clf = DecisionTreeClassifier(random_state=42, max_depth=3)
clf.fit(X_encoded, y_encoded)
tree_rules = export_text(clf, feature_names=feature_names)
print("\nПравила дерева решений:")
print(tree_rules)


Правила дерева решений:
|--- Домашние задания <= 0.50
|   |--- class: 1
|--- Домашние задания >  0.50
|   |--- class: 0

