1. Створення набору даних за допомогою DatasetGenerator
Для генерації набору даних можна використовувати функцію make_classification з бібліотеки scikit-learn. Вона дозволяє створити набір даних із заданими характеристиками.

In [None]:
from sklearn.datasets import make_classification
import pandas as pd

# Генеруємо набір даних
X, y = make_classification(
    n_samples=1000,  # кількість зразків
    n_features=10,   # кількість ознак
    n_informative=5, # кількість інформативних ознак
    n_redundant=2,   # кількість надлишкових ознак
    n_classes=2,     # кількість класів
    random_state=42  # для відтворюваності
)

# Перетворюємо на DataFrame
df_generated = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(10)])
df_generated['target'] = y

print(df_generated.head())


   feature_0  feature_1  feature_2  feature_3  feature_4  feature_5  \
0   1.125100   1.178124   0.493516   0.790880  -0.614278   1.347020   
1  -0.564641   3.638629  -1.522415  -1.541705   1.616697   4.781310   
2   0.516313   2.165426  -0.628486  -0.386923   0.492518   1.442381   
3   0.537282   0.966618  -0.115420   0.670755  -0.958516   0.871440   
4   0.278385   1.065828  -1.724917  -2.235667   0.715107   0.731249   

   feature_6  feature_7  feature_8  feature_9  target  
0   1.419515   1.357325   0.966041  -1.981139       1  
1   3.190292  -0.890254   1.438826  -3.828748       0  
2   1.332905  -1.958175  -0.348803  -1.804124       0  
3   0.508186  -1.034471  -1.654176  -1.910503       1  
4  -0.674119   0.598330  -0.524283   1.047610       0  


2. Завантаження набору даних із Kaggle

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Завантаження даних
df = pd.read_csv("data set fake bills/spambase_csv.csv")

# Попередній аналіз даних
print("Перші рядки датасету:")
print(df.head())

print("\nІнформація про дані:")
print(df.info())

# Перевірка пропусків
print("\nКількість пропущених значень:")
print(df.isnull().sum())

# 1. Заповнення пропусків
# Використання середнього значення для числових колонок
numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns
df[numerical_cols] = df[numerical_cols].fillna(df[numerical_cols].mean())

# Використання моди для категоріальних колонок
categorical_cols = df.select_dtypes(include=['object']).columns
for col in categorical_cols:
    df[col] = df[col].fillna(df[col].mode()[0])

# 2. Кодування категоріальних змінних
encoder = LabelEncoder()
for col in categorical_cols:
    df[col] = encoder.fit_transform(df[col])

# 3. Вибір ознак та цільової змінної
# Припустимо, що остання колонка — цільова
X = df.iloc[:, :-1]  # Всі колонки, окрім останньої
y = df.iloc[:, -1]   # Остання колонка

# 4. Розподіл на навчальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабування ознак
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 5. Навчання моделі
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 6. Передбачення та оцінка
y_pred = model.predict(X_test)

print("\nМатриця плутанини:")
print(confusion_matrix(y_test, y_pred))

print("\nКласифікаційний звіт:")
print(classification_report(y_test, y_pred))

print("\nТочність моделі (Accuracy):", accuracy_score(y_test, y_pred))


Перші рядки датасету:
   word_freq_make  word_freq_address  word_freq_all  word_freq_3d  \
0            0.00               0.64           0.64           0.0   
1            0.21               0.28           0.50           0.0   
2            0.06               0.00           0.71           0.0   
3            0.00               0.00           0.00           0.0   
4            0.00               0.00           0.00           0.0   

   word_freq_our  word_freq_over  word_freq_remove  word_freq_internet  \
0           0.32            0.00              0.00                0.00   
1           0.14            0.28              0.21                0.07   
2           1.23            0.19              0.19                0.12   
3           0.63            0.00              0.31                0.63   
4           0.63            0.00              0.31                0.63   

   word_freq_order  word_freq_mail  ...  char_freq_%3B  char_freq_%28  \
0             0.00            0.00  ...      

3. Генерація набору даних із використанням Python

In [3]:
import numpy as np

# Генерація даних
np.random.seed(42)
n_samples = 1000
n_features = 5

X_custom = np.random.rand(n_samples, n_features)
y_custom = (np.sum(X_custom, axis=1) > 2.5).astype(int)

# Створення DataFrame
df_custom = pd.DataFrame(X_custom, columns=[f'feature_{i}' for i in range(n_features)])
df_custom['target'] = y_custom

print(df_custom.head())


   feature_0  feature_1  feature_2  feature_3  feature_4  target
0   0.374540   0.950714   0.731994   0.598658   0.156019       1
1   0.155995   0.058084   0.866176   0.601115   0.708073       0
2   0.020584   0.969910   0.832443   0.212339   0.181825       0
3   0.183405   0.304242   0.524756   0.431945   0.291229       0
4   0.611853   0.139494   0.292145   0.366362   0.456070       0


4. Попередня обробка даних

In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# Обробка пропусків
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(df_generated.drop(columns=['target']))

# Масштабування даних
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)

# Розділення на навчальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X_scaled, df_generated['target'], test_size=0.2, random_state=42)

print("Навчальна вибірка:", X_train.shape, y_train.shape)
print("Тестова вибірка:", X_test.shape, y_test.shape)


Навчальна вибірка: (800, 10) (800,)
Тестова вибірка: (200, 10) (200,)


5. Оцінка моделі

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# Навчання моделі
model = LogisticRegression()
model.fit(X_train, y_train)

# Передбачення
y_pred = model.predict(X_test)

# Оцінка
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


[[95 17]
 [16 72]]
              precision    recall  f1-score   support

           0       0.86      0.85      0.85       112
           1       0.81      0.82      0.81        88

    accuracy                           0.83       200
   macro avg       0.83      0.83      0.83       200
weighted avg       0.84      0.83      0.84       200

