<a href="https://colab.research.google.com/github/claudiatamas/colab_notebooks/blob/main/nearest_neighbour.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Nearest Neighbour***

---






### **Teoria algoritmului:**
 Algoritmul Nearest Neighbour (Cel mai Apropiat Vecin) este o tehnică de clasificare simplă și eficientă, folosită în învățarea automată. Acesta clasifică un nou punct de date prin identificarea celor mai apropiați vecini ai săi din setul de date de antrenament. Clasificarea se face pe baza majorității voturilor vecinilor săi - punctul de date este atribuit clasei cele mai frecvente în rândul vecinilor săi.

### **Descrierea problemei:**
Vom folosi algoritmul Nearest Neighbour pentru problema de clasificare a pacienților în două categorii: diabetici și non-diabetici.



### **Biblioteci utilizate:**



* **pandas** - Este o bibliotecă software scrisă pentru limbajul de programare Python pentru manipularea și analiza datelor.Oferă structuri de date rapide, flexibile și expresive concepute pentru a face munca cu "date relaționale" sau "date etichetate" atât ușoară cât și intuitivă.Permite diverse operații de manipulare a datelor: filtrarea datelor, curățarea, explorarea și analiza acestora.

* **scikit-learn** - Este una dintre cele mai populare biblioteci de învățare automată pentru Python. Oferă o selecție de instrumente eficiente pentru modelarea statistică a datelor, inclusiv clasificare, regresie, clustering și reducerea dimensionalității.Conține o mulțime de algoritmi de preprocesare pentru date, algoritmi de învățare automată și metode de validare a modelului.








In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

### **Set de date:**

Setul de date **diabetes_prediction_dataset.csv** include informații despre diferiți indivizi, cu variabile precum:
* **gender** - Această variabilă reprezintă sexul individului.
* **age** - Vârsta individului.
* **hypertension** - Indică dacă individul suferă de hipertensiune arterială.
* **heart_disease** - Prezența sau absența bolilor de inimă.
* **smoking_history** - Istoricul de fumat al individului.
* **BMI** - O măsură care evaluează greutatea în raport cu înălțimea. Un BMI ridicat este adesea asociat cu un risc crescut de diabet de tip 2.
* **HbA1c_level** - Nivelul de hemoglobină glicată (HbA1c) în sânge.
* **blood_glucose_level** - Nivelul glicemiei sau zahărului din sânge.

Variabila ***diabetes*** este variabila dependentă este variabila dependentă, indicând dacă individul are diabet.






### **Algoritm:**


1.   Importarea setului de date - În această etapă, se încarcă setul de date dintr-un fișier CSV într-un DataFrame pandas pentru a putea fi prelucrat. .


In [None]:
from google.colab import files


uploaded = files.upload()

Saving diabetes_prediction_dataset.csv to diabetes_prediction_dataset.csv


In [None]:
import pandas as pd
import io

df = pd.read_csv(io.BytesIO(uploaded['diabetes_prediction_dataset.csv']))
print(df)

       gender   age  hypertension  heart_disease smoking_history    bmi  \
0      Female  80.0             0              1           never  25.19   
1      Female  54.0             0              0         No Info  27.32   
2        Male  28.0             0              0           never  27.32   
3      Female  36.0             0              0         current  23.45   
4        Male  76.0             1              1         current  20.14   
...       ...   ...           ...            ...             ...    ...   
99995  Female  80.0             0              0         No Info  27.32   
99996  Female   2.0             0              0         No Info  17.37   
99997    Male  66.0             0              0          former  27.83   
99998  Female  24.0             0              0           never  35.42   
99999  Female  57.0             0              0         current  22.43   

       HbA1c_level  blood_glucose_level  diabetes  
0              6.6                  140        

2. Prelucrarea datelor - În pasul de prelucrare a datelor, se efectuează o transformare specifică a setului de date pentru a-l pregăti pentru modelul de regresie liniară, trebuie să convertim aceste caracteristici categorice într-un format numeric, proces cunoscut sub numele **one-hot encoding**, fiind o tehnică de preprocesare care transformă fiecare valoare unică dintr-o coloană categorică într-o coloană binară nouă.

In [None]:
categorical_features = ['gender', 'smoking_history']
one_hot_encoder = OneHotEncoder()


numerical_features = X.drop(columns=categorical_features).columns
scaler = StandardScaler()


preprocessor = ColumnTransformer(
    transformers=[
        ('cat', one_hot_encoder, categorical_features),
        ('num', scaler, numerical_features)
    ]
)


X_processed = preprocessor.fit_transform(X)


3. Pregătirea seturilor de date pentru antrenare și testare - Aceste linii de cod separă caracteristicile (X) și variabila țintă (y), apoi împart datele în seturi de antrenare și testare.




In [None]:
X = df.drop('diabetes', axis=1)
y = df['diabetes']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. Antrenarea modelului - Aici se antrenează modelul Nearest Neighbour pe setul de antrenare.

In [None]:
knn = KNeighborsClassifier(n_neighbors=100)
knn.fit(X_train, y_train)

5. . Predicțiile și evaluarea modelului - După antrenare, modelul face predicții pe setul de test. Apoi, se calculează și se afișează acuratețea, precum și raportul de clasificare.

In [None]:
y_pred = knn.predict(X_test)


accuracy = accuracy_score(y_test, y_pred)
print(f'Acuratețea modelului: {accuracy}')


report = classification_report(y_test, y_pred)
print(report)

6. Vizualizarea rezultatelor - În final, se creează un tabel pentru a vizualiza comparația între datele reale și cele prezise de model.

In [None]:
test_results = pd.DataFrame({'Real Data': y_test, 'Predicted Data': y_pred})
print(test_results.head(31))

### **Împărțirea Datelor:**
Vom împărți setul de date în 80% pentru antrenare și 20% pentru testare.


### **Analiză**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer


df = pd.read_csv('diabetes_prediction_dataset.csv')


X = df.drop('diabetes', axis=1)
y = df['diabetes']


categorical_features = ['gender', 'smoking_history']
one_hot_encoder = OneHotEncoder()


numerical_features = X.drop(columns=categorical_features).columns
scaler = StandardScaler()


preprocessor = ColumnTransformer(
    transformers=[
        ('cat', one_hot_encoder, categorical_features),
        ('num', scaler, numerical_features)
    ]
)


X_processed = preprocessor.fit_transform(X)


X_train, X_test, y_train, y_test = train_test_split(X_processed, y, test_size=0.2, random_state=42)


knn = KNeighborsClassifier(n_neighbors=100)
knn.fit(X_train, y_train)


y_pred = knn.predict(X_test)


accuracy = accuracy_score(y_test, y_pred)
print(f'Acuratețea modelului: {accuracy}')


report = classification_report(y_test, y_pred)
print(report)


test_results = pd.DataFrame({'Real Data': y_test, 'Predicted Data': y_pred})
print(test_results.head(31))


Acuratețea modelului: 0.95605
              precision    recall  f1-score   support

           0       0.95      1.00      0.98     18292
           1       0.99      0.49      0.66      1708

    accuracy                           0.96     20000
   macro avg       0.97      0.74      0.82     20000
weighted avg       0.96      0.96      0.95     20000

       Real Data  Predicted Data
75721          0               0
80184          0               0
19864          0               0
76699          0               0
92991          1               0
76434          0               0
84004          0               0
80917          0               0
60767          0               0
50074          0               0
27701          0               0
42141          0               0
45080          0               0
16638          0               0
20424          0               0
88702          1               0
149            0               0
1761           0               0
63120          0



### **Concluzii**

**Acuratețea înaltă**: Modelul are o acuratețe generală de aproximativ 95%, ceea ce indică o performanță general bună în clasificarea corectă a cazurilor ca diabetice sau non-diabetice.

***Clasificarea Clasei 0 (Non-diabetici)***:

1. Precizie (Precision): O precizie de 95% pentru clasa 0 sugerează că 95% din predicțiile modelului pentru non-diabetici sunt corecte.
2. Recall: Un recall de 100% indică faptul că modelul a identificat corect toate cazurile reale de non-diabetici din setul de testare.
3. F1-Score: Scorul F1 de 98% pentru clasa 0 este foarte ridicat, reflectând un echilibru bun între precizie și recall.

***Clasificarea Clasei 1 (Diabetici)***:
1. Precizie: Precizia de 99% pentru clasa 1 este foarte bună, indicând că aproape toate predicțiile modelului de diabetici sunt corecte.
2. Recall: Cu toate acestea, recall-ul de doar 49% pentru clasa 1 sugerează că modelul a ratat mai mult de jumătate dintre cazurile reale de diabetici din setul de testare.
2. F1-Score: Scorul F1 de 66% pentru clasa 1 este semnificativ mai mic decât cel pentru clasa 0, din cauza recall-ului scăzut.