In [4]:
import os
import pandas as pd
from PIL import Image
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# Функція для отримання розмірів і ваги зображень
def get_image_data(image_folder):
    data = {'Width': [], 'Height': [], 'FileSize': [], 'Label': []}
    
    # Обробка зображень у вказаній папці
    for filename in os.listdir(image_folder):
        if filename.endswith(('.png', '.jpg', '.jpeg')):
            image_path = os.path.join(image_folder, filename)
            
            # Отримання розмірів зображення
            img = Image.open(image_path)
            width, height = img.size
            data['Width'].append(width)
            data['Height'].append(height)
            
            # Отримання ваги файлу
            filesize = os.path.getsize(image_path)
            data['FileSize'].append(filesize)

            # Додавання мітки (використовуємо назву файлу як мітку класу)
            label = filename.split('_')[0] 
            data['Label'].append(label)
    
    return pd.DataFrame(data)

# Шлях до папки з зображеннями
image_folder = r'D:\Learning\Інтелектуальний аналіз даних\Data_Science\DataSet\archive\train\iris'

# Створення набору даних для зображень
df = get_image_data(image_folder)

# Виводимо перші кілька рядків датасету та назви стовпців
print("Перевірка стовпців:")
print(df.head())
print("Стовпці в DataFrame:")
print(df.columns.tolist())  

# Перетворення категоріальних змінних у числові (одне з кодувань)
df = pd.get_dummies(df, columns=['Label'], drop_first=True)

# Визначення незалежних та залежних змінних
X = df[['Width', 'Height', 'FileSize']] 

# Перевірка наявності стовпця 'Label' після кодування
print("Стовпці після кодування:")
print(df.columns.tolist()) 
# Визначення залежної змінної
y = df['Label'] if 'Label' in df.columns else None  

if y is None:
    print("Стовпець 'Label' не знайдено!")
else:
    # Розподіл даних на тренувальну та тестову вибірки
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Масштабування даних
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    # Моделювання
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)  

    # Передбачення
    y_pred = model.predict(X_test)

    # Оцінка моделі
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')

    print(f'Accuracy: {accuracy}')
    print(f'Precision: {precision}')
    print(f'Recall: {recall}')
    print(f'F1 Score: {f1}')

    # Візуалізація матриці плутанини
    conf_matrix = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=model.classes_, yticklabels=model.classes_)
    plt.ylabel('Actual')
    plt.xlabel('Predicted')
    plt.title('Confusion Matrix')
    plt.show()


Перевірка стовпців:
   Width  Height  FileSize        Label
0    256     256      9955  10115417745
1    256     256     12471  10280954713
2    256     256      8864  10802001213
3    256     256     14732  10901137955
4    256     256     13094   1106870785
Стовпці в DataFrame:
['Width', 'Height', 'FileSize', 'Label']
Стовпці після кодування:
['Width', 'Height', 'FileSize', 'Label_10280954713', 'Label_10802001213', 'Label_10901137955', 'Label_1106870785', 'Label_11134070315', 'Label_11271936725', 'Label_11412300846', 'Label_11412306885', 'Label_11571471073', 'Label_1160871115', 'Label_11817916283', 'Label_120924118', 'Label_12657457655', 'Label_128528375', 'Label_1306594276', 'Label_1362616513', 'Label_13637058274', 'Label_13680240975', 'Label_13680289453', 'Label_13693690365', 'Label_13723197524', 'Label_13780880885', 'Label_13780881813', 'Label_13834265613', 'Label_13891068166', 'Label_13913219162', 'Label_13923801333', 'Label_13939944668', 'Label_139435051', 'Label_139461243', 'La