Wykonaj implementację i szczegółową dokumentację techniczną/tłumaczącą algorytmy/działanie/dyskusję na temat wyników (np.: w notebooku) dla poniższych zadań:

 - Wczytaj do programu zbiór danych Pima Indians Diabetes.
 - Wykonaj analizę danych.
 - Zbiór przetasuj, podziel na zbiór treningowy/walidacyjny.
 - Utwórz zbiór znormalizowany.
 - Zaimplementuj klasteryzajcę k-nn i przetestuj dla obydwóch baz danych.
 - Zaimplementuj algorytm inferencji zbiorami miękkimi.
 - Podsumuj wyniki przeprowadzonych analiz.

Wysyłany dokument (lub skoroszyt) powinien zawierać wyniki badań oraz odpowiednie komentarze i wyjasnienai.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split


Wczytanie zbioru danych

In [None]:
data = pd.read_csv(r"diabetes.csv")


In [None]:
data.head()

Wykonanie analizy danych

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data['Age'])
plt.title('Histogram of Age')
plt.xlabel('Age')
plt.ylabel('Number of patients')
plt.show()

In [None]:
plt.figure(figsize=(12,8))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Matrix')
plt.show()

In [None]:
data.corr()

In [None]:
data.info()

In [None]:
X = data.drop('Outcome', axis=1)
y = data['Outcome']


print("Y:")
print(y.head())
print("X:")
X.head()


Przetasowanie i podzielenie na zbiór treningowy/walidacyjny.

In [None]:
# Podziel dane na zestawy treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

X_test.shape

Utworzenie zbioru znormalizowanego

In [None]:
scaler = StandardScaler()
X_1 = scaler.fit_transform(X)
X_df = pd.DataFrame(X_1, columns=data.columns[:-1])

X_df.describe()


Testowanie KNN za pomocą dostępnej biblioteki sklearn

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
k = 3
knn = KNeighborsClassifier(k)
knn.fit(X_train, y_train)
knn.score(X_test, y_test)

Zaimplementowanie klasteryzacji k-nn i przetestowanie dla obydwóch baz danych.

In [None]:
class KNN:
    def __init__(self, k):
        self.k = k

    def fit(self, X, y):
        self.X_train = X.values
        self.y_train = y.values

    def predict(self, X_test):
        predictions = []
        for x in X_test.values:
            distances = [np.linalg.norm(x - x_train) for x_train in self.X_train]
            k_indices = np.argsort(distances)[:self.k]
            k_nearest_labels = [self.y_train[i] for i in k_indices]
            predicted_value = max(set(k_nearest_labels), key=k_nearest_labels.count)
            predictions.append(predicted_value)
        return predictions
    def score(self, X_test, y_test):
        predictions = self.predict(X_test)
        return np.mean(predictions == y_test)
        

In [None]:
k = 3
knn = KNN(k)

knn.fit(X_train, y_train)
predictions = knn.predict(X_test)
# for i in range(len(predictions)):
#     print(f'Predicted value: {predictions[i]}, Actual value: {y_test.iloc[i]}')
print(f'KNN accuracy: {knn.score(X_test, y_test)}')

Zaimplementowanie algorytmu inferencji zbiorami miękkimi.
