<a href="https://colab.research.google.com/github/maverick2903/SEM6_Programs/blob/main/ML/KNNfrom_scratch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import math
import pandas as pd

class KNN:
    def __init__(self, k, method):
        self.k = k
        self.method = method

    def euclidean_dist(self, x1, x2, y1, y2):
        return math.sqrt((x1 - x2) ** 2 + (y1 - y2) ** 2)

    def predict(self, X_train, X_test, y_train):

        predictions = []
        for i in range(len(X_test)):
            distances = {}

            # Calculate distances to all training data points
            for j in range(len(X_train)):
                distance = self.euclidean_dist(
                    X_test.iloc[i][0], X_train.iloc[j][0],
                    X_test.iloc[i][1], X_train.iloc[j][1]
                )
                distances[j] = distance

            # Sort data points based on distance
            sorted_distances = dict(sorted(distances.items(), key=lambda x: x[1]))

            # Find k nearest neighbors
            k_nearest = [y_train[key] for key in list(sorted_distances.keys())[:self.k]]


            if self.method == 'classification':
                prediction = max(set(k_nearest), key=k_nearest.count)
            elif self.method == 'regression':
                prediction = sum(k_nearest) / self.k
            else:
                raise ValueError("Invalid method. Please choose 'classification' or 'regression'.")

            predictions.append(prediction)

        return predictions






#First dataset

In [None]:
import pandas as pd
import numpy as np

# Create a list of data
data = [
    [5, 45, 77],
    [5.11, 26, 47],
    [5.6, 30, 55],
    [5.9, 34, 59],
    [4.8, 40, 72],
    [5.8, 36, 60],
    [5.3, 19, 40],
    [5.8, 28, 60],
    [5.5, 23, 45],
    [5.6, 32, 58],
]

# Create a DataFrame
df = pd.DataFrame(data, columns=["Height", "Age", "Weight"])

X_train = df[['Height', 'Age']]
y_train = df['Weight']
X_test = pd.DataFrame({'Height': [5.5], 'Age': [38]})

#Second Dataset

In [None]:
data = [
    [167, 51, "Underweight"],
    [182, 62, "Normal"],
    [176, 69, "Normal"],
    [173, 64, "Normal"],
    [172, 65, "Normal"],
    [174, 56, "Underweight"],
    [169, 58, "Normal"],
    [173, 57, "Normal"],
    [170, 55, "Normal"],
]

# Create column names
column_names = ["Height", "Weight", "Class"]

# Create the DataFrame
df = pd.DataFrame(data, columns=column_names)

X_train = df[['Height', 'Weight']]
y_train = df['Class']
X_test = pd.DataFrame({'Height': [170], 'Weight': [57]})

#Custom Dataset

In [None]:
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# Load the dataset
data = load_breast_cancer()
features = pd.DataFrame(data.data)
target = data.target

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(features.iloc[:, :2], target, test_size=0.2, random_state=42)



#Predictions

In [None]:
# KNN for classification
knn_classifier = KNN(3, 'classification')
predicted_labels = knn_classifier.predict(X_train, X_test, y_train)
print("Predicted Labels (Classification):", predicted_labels)

Predicted Labels (Classification): [1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0]


In [None]:
# KNN for regression
knn_regressor = KNN(3, 'regression')
predicted_values = knn_regressor.predict(X_train, X_test, y_train)
print("Predicted Values (Regression):", predicted_values)

Predicted Values (Regression): [1.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.6666666666666666, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.3333333333333333, 1.0, 0.6666666666666666, 1.0, 0.6666666666666666, 1.0, 1.0, 0.6666666666666666, 1.0, 0.0, 0.0, 0.3333333333333333, 1.0, 1.0, 1.0, 1.0, 0.0, 0.3333333333333333, 1.0, 1.0, 0.0, 0.0, 0.6666666666666666, 1.0, 0.6666666666666666, 0.0, 0.0, 1.0, 1.0, 0.6666666666666666, 0.3333333333333333, 0.6666666666666666, 0.0, 1.0, 1.0, 0.3333333333333333, 0.6666666666666666, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.6666666666666666, 0.6666666666666666, 0.0, 0.3333333333333333, 1.0, 0.6666666666666666, 0.6666666666666666, 0.3333333333333333, 1.0, 0.6666666666666666, 1.0, 0.0, 0.6666666666666666, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 1.0, 1.0, 0.6666666666666666