## Регрессия

In [None]:
import numpy as np                                          # Линейная Регрессия
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Генерируем случайные данные для регрессии
np.random.seed(0)
X = np.random.randn(100, 1)
y = X*np.random.rand(100, 1)

# Разделяем данные на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=100)

# Создаем модель линейной регрессии
model = LinearRegression()

# Обучаем модель на обучающем наборе данных
model.fit(X_train, y_train)

# Получаем предсказания на тестовом наборе данных
y_pred = model.predict(X_test)

# Визуализируем данные и линию регрессии
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, color='green')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.xlabel('X')
plt.ylabel('y')
plt.title('Линейная Регрессия')
plt.show()

In [None]:
from sklearn.metrics import r2_score

# Оцениваем точность модели с помощью коэффициента детерминации
r2 = r2_score(X_test, y_pred)
print("Коэффициент детерминации (R^2):", r2)


In [None]:
import pandas as pd                                         # Линейная Регрессия
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
df=pd.read_excel('C:/Users/bondarenkovv/Desktop/Python/ML/test.xlsx')
# Обучение модели линейной регрессии
model = LinearRegression()
model.fit(df[['Вес']], df['Количество_колес'])

# Предсказание значений
y_pred = model.predict(df[['Вес']])

# Построение графика
plt.figure(figsize=(10, 6))
plt.scatter(df.Вес, df.Количество_колес, color='red')
plt.plot(df.Вес, y_pred, color='blue', linewidth=3)
plt.xlabel('Вес')
plt.ylabel('Количество колес')
plt.title('Линейная Регрессия')
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Ваши данные
X = np.array([55, 49, 51, 63, 48, 51, 49, 48, 46, 45, 48, 62, 55, 54, 52, 51, 55]).reshape(-1, 1)
y = np.array([9, 8.7, 8.8, 10.5, 8.6, 10, 8.8, 8.7, 8.6, 8.5, 8.4, 10, 10.2, 9.1, 8.9, 8.7, 8.6])

# Разделение данных на тренировочные и тестовые наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовом наборе данных
y_pred = model.predict(X_test)

# Оценка модели с использованием различных метрик
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Вывод метрик
print(f"Mean Squared Error: {mse}")
print(f"Mean Absolute Error: {mae}")
print(f"R^2 Score: {r2}")

# Вывод предсказанных и истинных значений для сравнения
print("Predicted values:", y_pred)
print("True values:", y_test)

In [None]:
from sklearn.linear_model import LinearRegression    # Линейная Регрессия Рост Вес
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# Данные
height = [170, 171, 172, 173, 174, 175, 176, 177, 178, 179,
          180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190]
weight = [54, 55, 60, 59, 68, 70, 65, 78, 82, 83,
          80, 82, 81, 85, 90, 86, 88, 88, 89, 91, 94]

# Преобразование в массив numpy
X = np.array([height]).T  # .T используется для транспонирования массива
y = np.array(weight)  # Мы используем рост в качестве зависимой переменной для примера

# Создание и обучение модели
model = LinearRegression()
model.fit(X, y)

# Вывод коэффициентов регрессии
print("Коэффициенты регрессии (w0, w1):", model.intercept_, model.coef_)

# Предсказание значений
y_pred = model.predict(X)

# Вычисление метрик
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)
print("Среднеквадратическая ошибка (MSE):", mse)
print("Коэффициент детерминации (R²):", r2)

# Построение графика
plt.figure(figsize=(10, 6))
plt.scatter(height, weight, color='green', label='Фактические данные')
plt.plot(height, y_pred, color='red', linewidth=3, label='Линия регрессии')
plt.xlabel('Рост')
plt.ylabel('Вес')
plt.title('Линейная Регрессия')
plt.legend()
plt.show()


In [None]:
import numpy as np                            # Полиномиальная Регрессия Рост Вес(степень 4)
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Данные
height = [170, 171, 172, 173, 174, 175, 176, 177, 178, 179,
          180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190]
weight = [54, 55, 60, 59, 68, 70, 65, 78, 82, 83,
          80, 82, 81, 85, 90, 86, 88, 88, 89, 91, 94]

# Преобразование в массив numpy
X = np.array(height).reshape(-1, 1)
y = np.array(weight)

# Создание полиномиальных признаков (например, степени 2)
poly_features = PolynomialFeatures(degree=6)
X_poly = poly_features.fit_transform(X)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_poly, y)

# Предсказание значений
y_pred = model.predict(X_poly)

# Вычисление метрик
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)
print("Среднеквадратическая ошибка (MSE):", mse)
print("Коэффициент детерминации (R²):", r2)
print("Коэффициенты регрессии (w0, w1, w2, w3):", model.intercept_, model.coef_)
# Построение графика
plt.figure(figsize=(10, 6))
plt.scatter(height, weight, color='green', label='Фактические данные')
plt.plot(height, y_pred, color='red', linewidth=3, label='Полиномиальная регрессия (степень 4)')
plt.xlabel('Рост')
plt.ylabel('Вес')
plt.title('Полиномиальная Регрессия')
plt.legend()
plt.show()



In [None]:
import numpy as np                     # Метод наименьших квадратов( та же задача без sklearn)
import matplotlib.pyplot as plt

# Данные
height = np.array([170, 171, 172, 173, 174, 175, 176, 177, 178, 179,
                   180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190])
weight = np.array([54, 55, 60, 59, 68, 70, 65, 78, 82, 83,
                   80, 82, 81, 85, 90, 86, 88, 88, 89, 91, 94])

# Рассчитываем средние значения
mean_x = np.mean(height)
mean_y = np.mean(weight)

# Рассчитываем коэффициенты
numerator = np.sum((height - mean_x) * (weight - mean_y))
denominator = np.sum((height - mean_x) ** 2)
beta_1 = numerator / denominator
beta_0 = mean_y - beta_1 * mean_x

print(f"Коэффициенты регрессии (beta_0, beta_1): {beta_0}, {beta_1}")

# Предсказанные значения
weight_pred = beta_0 + beta_1 * height

# Вычисление метрик
mse = np.mean((weight - weight_pred) ** 2)
r2 = 1 - (np.sum((weight - weight_pred) ** 2) / np.sum((weight - mean_y) ** 2))

print("Среднеквадратическая ошибка (MSE):", mse)
print("Коэффициент детерминации (R²):", r2)

# Построение графика
plt.figure(figsize=(10, 6))
plt.scatter(height, weight, color='green', label='Фактические данные')
plt.plot(height, weight_pred, color='red', linewidth=3, label='Линия регрессии')
plt.xlabel('Рост')
plt.ylabel('Вес')
plt.title('Линейная Регрессия методом наименьших квадратов')
plt.legend()
plt.show()


## Класификация

In [None]:
import numpy as np
import matplotlib.pyplot as plt
z = np.linspace(-10, 10, 100)
sigma = 1/(1+np.exp(-z))
plt.plot(z, sigma)
plt.ylim(-0.1, 1.1)
plt.xlabel('$z$')

_ = plt.title('График логистической функции $\sigma(z)$')
plt.show()

In [None]:
import numpy as np                               # Логистическая Регрессия
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression

# Время учебы в часах
study_hours = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)

# Сдал экзамен или нет (1 - сдал, 0 - не сдал)
passed_exam = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

# Обучение модели логистической регрессии
model = LogisticRegression()
model.fit(study_hours, passed_exam)

# Вывод коэффициентов регрессии
print("Коэффициенты регрессии (β0, β1):", model.intercept_, model.coef_)

# Предсказание для новых данных (время учебы от 0 до 12 часов)
study_hours_new = np.arange(0, 13).reshape(-1, 1)
predictions = model.predict(study_hours_new)
probabilities = model.predict_proba(study_hours_new)[:, 1]

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(study_hours, passed_exam, color='blue', label='Данные')
plt.plot(study_hours_new, probabilities, color='red', linewidth=3, label='Граница решения')
plt.xlabel('Время учебы (часы)')
plt.ylabel('Сдал экзамен (1) / Не сдал экзамен (0)')
plt.title('Логистическая Регрессия: Предсказание сдачи экзамена')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import random
#import utils


features = np.array([[1,0],[0,2],[1,1],[1,2],[1,3],[2,2],[2,3],[3,2]])
labels = np.array([0,0,0,0,1,1,1,1])

def plot_points(features, labels):
    X = np.array(features)
    y = np.array(labels)
    spam = X[np.argwhere(y==1)]
    ham = X[np.argwhere(y==0)]
    plt.scatter([s[0][0] for s in spam],
                   [s[0][1] for s in spam],
                   s = 100,
                   color = 'cyan',
                   edgecolor = 'k',
                   marker = '^')
    plt.scatter([s[0][0] for s in ham],
                   [s[0][1] for s in ham],
                   s = 100,
                   color = 'red',
                   edgecolor = 'k',
                   marker = 's')
    plt.xlabel('aack')
    plt.ylabel('beep')
    plt.legend(['happy','sad'])
    
def draw_line(a,b,c, starting=0, ending=3, **kwargs):
    # Plotting the line ax + by + c = 0
    x = np.linspace(starting, ending, 1000)
    plt.plot(x, -c/b - a*x/b, **kwargs)

plot_points(features, labels)  
draw_line(1,1,-3.5)

#utils.plot_points(features, labels)
#utils.draw_line(1,1,-3.5)

In [None]:
from sklearn import svm                  # SVM
import numpy as np
import matplotlib.pyplot as plt

# Данные
X = np.array([[2, 3], [1, 1], [2, 1], [3, 1], [4, 2], [1, 3]])
y = np.array([1, 1, -1, -1, -1, 1])

# Создание модели SVM с RBF ядром
model = svm.SVC(kernel='rbf', gamma='scale')

# Обучение модели
model.fit(X, y)

# Визуализация данных и границ принятия решений
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='bwr', alpha=0.7)

# Построение сетки для визуализации границ принятия решений
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100))

# Прогнозирование значений на сетке
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Визуализация границ принятия решений
plt.contourf(xx, yy, Z, alpha=0.3, cmap='bwr')
plt.xlabel('Признак 1')
plt.ylabel('Признак 2')
plt.title('Границы принятия решений SVM с RBF ядром')
plt.show()

# Новые данные для прогнозирования
X_new = np.array([[3, 2], [1, 3]])

# Прогнозирование
predictions = model.predict(X_new)
print(f"Прогнозы для новых данных: {predictions}")

# Прогнозы для новых данных: [ 1 -1]

In [None]:
from sklearn.datasets import load_iris                               # K-NN к ближайших соседей
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Нормализация данных
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Обучение модели k-NN с Евклидовым расстоянием
knn_euclidean = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_euclidean.fit(X_train, y_train)
y_pred_euclidean = knn_euclidean.predict(X_test)
accuracy_euclidean = accuracy_score(y_test, y_pred_euclidean)

# Обучение модели k-NN с Манхэттенским расстоянием
knn_manhattan = KNeighborsClassifier(n_neighbors=3, metric='manhattan')
knn_manhattan.fit(X_train, y_train)
y_pred_manhattan = knn_manhattan.predict(X_test)
accuracy_manhattan = accuracy_score(y_test, y_pred_manhattan)

print(f'Accuracy with Euclidean distance: {accuracy_euclidean}')
print(f'Accuracy with Manhattan distance: {accuracy_manhattan}')

In [None]:
from sklearn.datasets import fetch_20newsgroups                          # Наивный Байес
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Загрузка данных
data = fetch_20newsgroups(subset='all')
X = data.data
y = data.target

# Преобразование текстовых данных в числовые признаки
vectorizer = CountVectorizer()
X_vec = vectorizer.fit_transform(X)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_vec, y, test_size=0.3, random_state=42)

# Обучение модели Наивного Байеса
nb = MultinomialNB()
nb.fit(X_train, y_train)

# Предсказание и оценка
y_pred = nb.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(classification_report(y_test, y_pred, target_names=data.target_names))

## Кластеризация

In [None]:
import numpy as np                        #KMeans   3 Кластеров ( Центроиды и Евклидово растояние до точки.
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score

# Генерация синтетических данных о клиентах (возраст, доход)
np.random.seed(42)
data = np.random.rand(100, 2) * [50, 100000] + [20, 20000]  # Возраст от 20 до 70 лет, доход от 20k до 120k

# Преобразование данных в DataFrame
df = pd.DataFrame(data, columns=['Age', 'Income'])

# Применение K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster'] = kmeans.fit_predict(df[['Age', 'Income']])

# Визуализация результатов
plt.scatter(df['Age'], df['Income'], c=df['Cluster'], cmap='viridis')
plt.xlabel('Age')
plt.ylabel('Income')
plt.title('Customer Segmentation')
plt.show()

# Метрики качества кластеризации
silhouette_avg = silhouette_score(df[['Age', 'Income']], df['Cluster'])
db_index = davies_bouldin_score(df[['Age', 'Income']], df['Cluster'])
ch_index = calinski_harabasz_score(df[['Age', 'Income']], df['Cluster'])

print("K-Means Silhouette Score: ", silhouette_avg)
print("K-Means Davies-Bouldin Index: ", db_index)
print("K-Means Calinski-Harabasz Index: ", ch_index)


In [None]:
import numpy as np                               #DBSCAN (Радиус, корневые и крайние точки + шум )
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score

# Генерация синтетических данных (два полумесяца)
X, _ = make_moons(n_samples=200, noise=0.1, random_state=42)

# Применение DBSCAN
dbscan = DBSCAN(eps=0.2, min_samples=5)
clusters = dbscan.fit_predict(X)

# Визуализация результатов
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap='turbo')
plt.title('DBSCAN Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.colorbar(label='Cluster')
plt.show()
print("DBSCAN Silhouette Score: ", silhouette_score(X, clusters))
print("DBSCAN Davies-Bouldin Index: ", davies_bouldin_score(X, clusters))
print("DBSCAN Calinski-Harabasz Index: ", calinski_harabasz_score(X, clusters))

In [None]:
import numpy as np                           #HDBSCAN
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
import hdbscan

# Генерация данных make_moons
X, _ = make_moons(n_samples=200, noise=0.1, random_state=42)

# Применение HDBSCAN
hdbscan_clusterer = hdbscan.HDBSCAN(min_cluster_size=5)
labels = hdbscan_clusterer.fit_predict(X)

# Визуализация данных и результатов кластеризации
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='turbo', s=50)
plt.title('HDBSCAN Clustering on make_moons Data')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.colorbar(label='Cluster')
plt.show()
print("HDBSCAN Silhouette Score: ", silhouette_score(X, labels))
print("HDBSCAN Davies-Bouldin Index: ", davies_bouldin_score(X, labels))
print("HDBSCAN Calinski-Harabasz Index: ", calinski_harabasz_score(X, labels))

In [None]:
import numpy as np                      #PCA
import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Создание случайного набора данных
np.random.seed(0)
data = np.random.rand(100, 5)
df = pd.DataFrame(data, columns=['Feature1', 'Feature2', 'Feature3', 'Feature4', 'Feature5'])

# Центрирование данных
df_centered = df - df.mean()

# Применение PCA
pca = PCA(n_components=2)  # Проекция на 2 главные компоненты
principal_components = pca.fit_transform(df_centered)

# Создание DataFrame с результатами PCA
df_pca = pd.DataFrame(data=principal_components, columns=['Principal Component 1', 'Principal Component 2'])

# Вывод объясненной дисперсии
print("Объясненная дисперсия главных компонент:", pca.explained_variance_ratio_)

# Визуализация данных в новом пространстве
plt.figure(figsize=(8, 6))
plt.scatter(df_pca['Principal Component 1'], df_pca['Principal Component 2'])
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA: Проекция данных на первые две главные компоненты')
plt.show()


In [None]:
import numpy as np                       #LCA
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

# Пример текстовых данных
documents = [
    "Привет мама,я иду домой",
    "Привет папа,рад тебя видеть",
    "Я очень люблю своих маму и папу",
    "Мы с мамой и папой очень дружная семья"
]

# Создание матрицы термов-документов с использованием TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# Применение SVD для снижения размерности
svd = TruncatedSVD(n_components=2)  # Проекция на пространство с двумя измерениями
X_reduced = svd.fit_transform(X)

# Вывод результатов
print("Матрица термов-документов (TF-IDF):")
print(pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out()))

print("\nМатрица после применения SVD:")
print(X_reduced)

print("\nТермины:")
print(vectorizer.get_feature_names_out())

print("\nКомпоненты SVD:")
print(svd.components_)


## Градиентный бустинг/спуск.Продвинутые Ансамбли

In [None]:
import numpy as np                       #  Градиент
# Определяем целевую функцию и её градиент
def f(theta):
    return theta**2

def gradient_f(theta):
    return 2 * theta

# Начальные параметры
theta = 1.0  # Начальное значение
learning_rate = 0.1  # Шаг обучения
num_iterations = 10  # Количество итераций

# Градиентный спуск
for i in range(num_iterations):
    grad = gradient_f(theta)
    theta -= learning_rate * grad
    # Печать текущего значения функции и параметра
    print(f"Iteration {i+1}: theta = {theta}, f(theta) = {f(theta)}")


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Определяем целевую функцию и её градиент
def f(theta):
    return theta**2

def gradient_f(theta):
    return 2 * theta

# Начальные параметры
theta = 1.0  # Начальное значение
learning_rate = 0.1  # Шаг обучения
num_iterations = 10  # Количество итераций

# Сохранение значений theta и f(theta) для отображения
theta_values = []
f_values = []

# Градиентный спуск
for i in range(num_iterations):
    grad = gradient_f(theta)
    theta_values.append(theta)
    f_values.append(f(theta))
    theta -= learning_rate * grad

# График функции и траектории градиентного спуска
theta_range = np.linspace(-1.5, 1.5, 400)
f_range = f(theta_range)

plt.figure(figsize=(10, 6))
plt.plot(theta_range, f_range, label='$f(\\theta) = \\theta^2$', color='g')
plt.scatter(theta_values, f_values, color='red')
plt.plot(theta_values, f_values, color='red', linestyle='--', marker='o', label='Gradient Descent Path')
plt.title('Gradient Descent on $f(\\theta) = \\theta^2$')
plt.xlabel('$\\theta$')
plt.ylabel('$f(\\theta)$')
plt.legend()
plt.grid(True)
plt.show()


In [None]:
import lightgbm as lgb                        #lightgbm
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Более расширенный пример данных для обучения модели
data = {
    'Age':           [25, 35, 45, 50, 30, 55, 65, 20, 40, 70, 34, 29, 49, 52, 31, 57, 68, 23, 41, 72],
    'BMI':           [22, 28, 24, 31, 26, 29, 33, 21, 27, 32, 30, 23, 25, 34, 28, 30, 36, 20, 26, 35],
    'Glucose_Level': [90, 120, 100, 150, 110, 95, 140, 80, 105, 130, 115, 85, 102, 145, 112, 97, 138, 78, 108, 125],
    'Diabetes':      [0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1]  # 1 - Диабет, 0 - Нет диабета
}

df = pd.DataFrame(data)

# Разделяем на признаки и целевую переменную
X = df.drop('Diabetes', axis=1)
y = df['Diabetes']

# Разделяем на обучающий и тестовый наборы данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Преобразуем данные в формат, совместимый с LightGBM
train_data = lgb.Dataset(X_train, label=y_train)

# Определяем параметры модели
parameters = {
    'objective': 'binary',  # бинарная классификация
    'metric': 'binary_logloss',  # логарифмическая функция потерь
    'boosting': 'gbdt',  # градиентный бустинг решающих деревьев
    'learning_rate': 0.1,  # коэффициент обучения
    'num_leaves': 31,  # максимальное количество листьев в дереве
    'max_depth': -1,  # максимальная глубина дерева (-1 для отсутствия ограничений)
    'min_data_in_leaf': 5,  # минимальное количество объектов в листе
    'verbosity': -1  # уровень подробности вывода (чем меньше, тем меньше вывода)
}

# Обучаем модель
num_round = 100  # количество итераций обучения
bst = lgb.train(parameters, train_data, num_round)

# Функция для предсказания на основе введённых данных
def predict_diabetes(age, bmi, glucose_level):
    new_data = pd.DataFrame({'Age': [age], 'BMI': [bmi], 'Glucose_Level': [glucose_level]})
    prediction = bst.predict(new_data)[0]
    return prediction

# Ввод данных пользователем
age = int(input("Введите возраст: "))
bmi = float(input("Введите индекс массы тела (BMI): "))
glucose_level = float(input("Введите уровень глюкозы: "))

# Предсказание и вывод результата
prediction = predict_diabetes(age, bmi, glucose_level)
diagnosis = "Диабет" if prediction >= 0.5 else "Нет диабета"
if diagnosis =="Диабет":
    probability = prediction *100
else:
    probability = 100-(prediction *100)

print(f"Диагноз: {diagnosis} с вероятностью {probability:.2f}%")


In [None]:
# Импорт необходимых библиотек                 CatBoost
import pandas as pd
import numpy as np
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Создание искусственного набора данных
data = pd.DataFrame({
    'age': np.random.randint(18, 70, 1000),
    'income': np.random.randint(30000, 150000, 1000),
    'marital_status': np.random.choice(['single', 'married', 'divorced'], 1000),
    'employment_type': np.random.choice(['employed', 'unemployed', 'self-employed'], 1000),
    'education': np.random.choice(['higher', 'secondary', 'none'], 1000),
    'housing': np.random.choice(['rent', 'own'], 1000),
    'defaulted': np.random.choice([0, 1], 1000)  # Целевая переменная
})

# Отделение целевой переменной от признаков
X = data.drop('defaulted', axis=1)
y = data['defaulted']

# Определение категориальных признаков
categorical_features = ['marital_status', 'employment_type', 'education', 'housing']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация и обучение модели CatBoostClassifier
model = CatBoostClassifier(iterations=1000, learning_rate=0.1, depth=6, loss_function='Logloss', verbose=250)
model.fit(X_train, y_train, cat_features=categorical_features)

# Прогнозирование на тестовом наборе данных
y_pred = model.predict(X_test)

# Оценка точности модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")


## NLP


In [14]:
import nltk
nltk.download('punkt')  # Токенизатор
nltk.download('averaged_perceptron_tagger')  # Теггер частей речи
nltk.download('wordnet')  # Лексическая база данных WordNet
nltk.download('stopwords')  # Часто встречающиеся слова

nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\bondarenkovv\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\bondarenkovv\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\bondarenkovv\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\bondarenkovv\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\bondarenkovv\AppData\Roaming\nltk_data...


True

In [17]:
from nltk.tokenize import word_tokenize, sent_tokenize       #Токенизация 

text = "Привет мамуля! как у тебя делишки? А у нас потихоньку"
words = word_tokenize(text)
sentences = sent_tokenize(text)

print("Words:", words)
print("Sentences:", sentences)

Words: ['Привет', 'мамуля', '!', 'как', 'у', 'тебя', 'делишки', '?', 'А', 'у', 'нас', 'потихоньку', 'running']
Sentences: ['Привет мамуля!', 'как у тебя делишки?', 'А у нас потихоньку running']


In [None]:
from nltk.corpus import stopwords   #Удаление стоп-слов 

stop_words = set(stopwords.words('russian'))
filtered_words = [word for word in words if word.lower() not in stop_words]

print("Filtered Words:", filtered_words)

In [18]:
from nltk.stem import WordNetLemmatizer  #Лемматизация 

lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

print("Lemmatized Words:", lemmatized_words)

Lemmatized Words: ['Привет', 'мамуля', '!', 'как', 'у', 'тебя', 'делишки', '?', 'А', 'у', 'нас', 'потихоньку', 'running']


In [None]:
from nltk.stem import PorterStemmer   #Стемминг

stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in words]

print("Stemmed Words:", stemmed_words)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer #Векторизация 

documents = [
    "Привет мамуля! Как у тебя делишки, А у нас потихоньку.",
    "Привет! Как у тебя дела?",
    "Мамуля у нас все хорошо.",
    "Привет, мамуля! Как у тебя?"
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

print(vectorizer.get_feature_names_out())
print(X.toarray())


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer #Векторизация 

# Наши предложения
documents = [
    "Привет мамуля! Как у тебя делишки, А у нас потихоньку.",
    "Привет! Как у тебя дела?",
    "Мамуля у нас все хорошо.",
    "Привет, мамуля! Как у тебя?"
]

# Инициализируем TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразуем наши документы в матрицу TF-IDF
tfidf_matrix = vectorizer.fit_transform(documents)

# Получаем список всех слов (токенов)
feature_names = vectorizer.get_feature_names_out()

# Выводим результат
import pandas as pd

# Преобразуем матрицу TF-IDF в DataFrame для наглядности
df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
print(df)


In [None]:
from transformers import BertTokenizer, BertModel  # BERT
import torch

# Загрузка модели и токенизатора
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertModel.from_pretrained('bert-base-multilingual-cased')

# Пример текста
text = "Привет, как дела?"

# Токенизация текста
inputs = tokenizer(text, return_tensors='pt')

# Получение эмбеддингов
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

print(last_hidden_states)

# Нейронка

<img src="Progress.png">

In [None]:
import warnings
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD
from keras.regularizers import l1, l2

warnings.filterwarnings("ignore")

# Создание DataFrame
data = {
    'Кашель':               [0, 1, 1, 1, 1, 0, 0, 0],
    'Температура':          [1, 1, 0, 1, 0, 1, 1, 0],
    'Затруднённое дыхание': [1, 0, 1, 1, 0, 1, 0, 0],
    'Усталость':            [1, 1, 1, 0, 1, 0, 0, 1],
    'Диагноз':              [1, 1, 1, 1, 0, 0, 0, 0]
}

df = pd.DataFrame(data)
X = df.drop('Диагноз', axis=1)
y = df['Диагноз']

# Создание нейронной сети
model = Sequential()
model.add(Dense(16, input_dim=4, activation='relu', kernel_regularizer=l2(0.01))) # Скрытый слой с 16 нейронами/регуляризация Л2
model.add(Dense(8, activation='relu', kernel_regularizer=l2(0.01))) # Дополнительный скрытый слой с 8 нейронами, функция активация и Регуляризация
model.add(Dense(1, activation='sigmoid'))  # Выходной слой

# Компиляция модели с оптимизатором SGD (Градиентный спукс /Stochastic Gradient Descent)
sgd = SGD(learning_rate=0.01, momentum=0.9)  # lr - скорость обучения, momentum - момент
model.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['accuracy','Precision'])
# model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 

# Обучение модели
history = model.fit(X, y, epochs=250, batch_size=10, verbose=0)

# Вывод метрик на последней эпохе
print("Метрики на последней эпохе:")
print("Loss:", history.history['loss'][-1])
print("Accuracy:", history.history['accuracy'][-1])
print("Precision:", history.history['Precision'][-1])

# Функция для получения симптомов от пользователя
def get_symptoms():
    cough = input("Есть ли у пациента кашель? (y/n): ")
    fever = input("Есть ли у пациента температура? (y/n): ")
    breathing_difficulty = input("Есть ли у пациента затрудненное дыхание? (y/n): ")
    tiredness = input("Есть ли у пациента усталость? (y/n): ")
    
    # Преобразование ввода пользователя в числовые значения
    symptoms = {
        'Кашель': 1 if cough.lower() == 'y' else 0,
        'Температура': 1 if fever.lower() == 'y' else 0,
        'Затруднённое дыхание': 1 if breathing_difficulty.lower() == 'y' else 0,
        'Усталость': 1 if tiredness.lower() == 'y' else 0,
    }
    symptoms_df = pd.DataFrame([symptoms])
    return symptoms_df

# Получение симптомов и прогнозирование
symptoms = get_symptoms()

# Прогнозирование с помощью обученной модели
prediction = model.predict(symptoms)

# Вывод диагноза и вероятности
probability = prediction[0][0]
if probability > 0.5:
    print(f"Диагноз: Болен (вероятность {probability:.2%})")
else:
    print(f"Диагноз: Здоров (вероятность {(1-probability):.2%})")

<img src="neuro1.png">

In [None]:
import math

def sigmoid(x):
  return 1 / (1 + math.exp(-x))

def predict(x1, x2):
  # Скрытый слой
  hidden1 = sigmoid(x1 * (1) + x2 * (-2) - 1)
  hidden2 = sigmoid(x1 * (-1) + x2 * (3) - 1)

  # Выходной слой
  output = sigmoid(hidden1 * (-1) + hidden2 * (2) + 1)
  return output

# Входные данные (1, 1)
result = predict(1, 1)
print(f"Прогноз сети: {result}")

## Архитектуры сетей

In [None]:
import torch
import torch.nn as nn

class MLP(nn.Module):
    def __init__(self, input_dim):
        super(MLP, self).__init__()
        self.hidden1 = nn.Linear(input_dim, 100)
        self.hidden2 = nn.Linear(100, 50)
        self.output = nn.Linear(50, 1)
        self.relu = nn.ReLU()
    
    def forward(self, x):
        x = self.relu(self.hidden1(x))
        x = self.relu(self.hidden2(x))
        x = self.output(x)
        return x

In [None]:
import torch
import torch.nn as nn

class RNN(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim, n_layers=1):
        super(RNN, self).__init__()
        self.rnn = nn.RNN(input_dim, hidden_dim, n_layers, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)
    
    def forward(self, x):
        h0 = torch.zeros(1, x.size(0), hidden_dim).to(x.device)
        out, _ = self.rnn(x, h0)
        out = self.fc(out[:, -1, :])
        return out

In [None]:
import torch
import torch.nn as nn

class FNN(nn.Module):
    def __init__(self, input_dim):
        super(FNN, self).__init__()
        self.hidden1 = nn.Linear(input_dim, 128)
        self.hidden2 = nn.Linear(128, 64)
        self.output = nn.Linear(64, 10)  # Например, 10 классов для классификации
        self.relu = nn.ReLU()
    
    def forward(self, x):
        x = self.relu(self.hidden1(x))
        x = self.relu(self.hidden2(x))
        x = self.output(x)
        return x

# Пример использования
model = FNN(input_dim=784)  # Например, для классификации изображений 28x28 (784 пикселя)

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.fc2 = nn.Linear(128, 10)  # Например, 10 классов для классификации
    
    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 64 * 7 * 7)  # Разворачивание тензора
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Пример использования
model = CNN()  # Например, для классификации изображений 28x28

In [None]:
import torch
import torch.nn as nn

# Генератор
class Generator(nn.Module):
    def __init__(self, noise_dim, output_dim):
        super(Generator, self).__init__()
        self.fc1 = nn.Linear(noise_dim, 128)
        self.fc2 = nn.Linear(128, 256)
        self.fc3 = nn.Linear(256, output_dim)
        self.relu = nn.ReLU()
        self.tanh = nn.Tanh()
    
    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.tanh(self.fc3(x))
        return x

# Дискриминатор
class Discriminator(nn.Module):
    def __init__(self, input_dim):
        super(Discriminator, self).__init__()
        self.fc1 = nn.Linear(input_dim, 256)
        self.fc2 = nn.Linear(256, 128)
        self.fc3 = nn.Linear(128, 1)
        self.relu = nn.ReLU()
        self.sigmoid = nn.Sigmoid()
    
    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.sigmoid(self.fc3(x))
        return x

# Пример использования
noise_dim = 100
image_dim = 28 * 28  # Например, для изображений 28x28

generator = Generator(noise_dim=noise_dim, output_dim=image_dim)
discriminator = Discriminator(input_dim=image_dim)