# PreProcessing

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import sklearn as sk

In [2]:
df = pd.read_csv('diabetes.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
df.shape

(768, 9)

In [4]:
df['Outcome'].value_counts()

Outcome
0    500
1    268
Name: count, dtype: int64

In [5]:
 x = df.drop('Outcome', axis=1)
 y = df['Outcome']

In [6]:
x = np.array(x)
y = np.array(y)

## Normalization  &&  Standardization

In [7]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x= scaler.fit_transform(x)
x

array([[ 0.63994726,  0.84832379,  0.14964075, ...,  0.20401277,
         0.46849198,  1.4259954 ],
       [-0.84488505, -1.12339636, -0.16054575, ..., -0.68442195,
        -0.36506078, -0.19067191],
       [ 1.23388019,  1.94372388, -0.26394125, ..., -1.10325546,
         0.60439732, -0.10558415],
       ...,
       [ 0.3429808 ,  0.00330087,  0.14964075, ..., -0.73518964,
        -0.68519336, -0.27575966],
       [-0.84488505,  0.1597866 , -0.47073225, ..., -0.24020459,
        -0.37110101,  1.17073215],
       [-0.84488505, -0.8730192 ,  0.04624525, ..., -0.20212881,
        -0.47378505, -0.87137393]], shape=(768, 8))

در حالت بالا به خاطر این که عددا پخش بودن و خیلی اختلاف داشتند و سیستم میخوایم به همشون به یک درجه اهمیت بده  نرمالایز میکنیم و بین 0 و 1 قرارشون  میدیم حدودا 

- به این حالت که بین صفر و یکه نرمالایز 
- به این حالت که حدود صفر و یک هستش  و شاید بیشتر باشه استاندار میگن

## Train / Test  
- 80/20  or ...

In [8]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [9]:
x_train.shape , y_train.shape

((614, 8), (614,))

In [10]:
x_test.shape , y_test.shape

((154, 8), (154,))

# Naive bayes

classification model type

In [14]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(x_train,y_train)

In [15]:
y_pred_train = model.predict(x_train)
y_pred_test = model.predict(x_test)


In [19]:
from sklearn.metrics import accuracy_score
acc_train = accuracy_score(y_true = y_train ,y_pred= y_pred_train )
acc_test = accuracy_score(y_true = y_test ,y_pred= y_pred_test )

acc_train , acc_test

(0.7638436482084691, 0.7597402597402597)

In [26]:
from sklearn.metrics import  confusion_matrix ,recall_score , precision_score
confusion_matrix(y_test,y_pred_test)

array([[85, 12],
       [25, 32]])

0.7272727272727273

In [31]:
r= recall_score(y_test ,y_pred_test)
r

0.5614035087719298

 # توضیحات کامل کد پیش‌بینی دیابت با Gaussian Naive Bayes

### 1. **وارد کردن داده‌ها (Data Importing):**
```python
df = pd.read_csv('diabetes.csv')
df.head()
df.shape
df['Outcome'].value_counts()
```
- **`pd.read_csv`**: فایل داده‌های CSV مربوط به دیابت را بارگذاری می‌کند.
- **`df.head()`**: پنج سطر اول داده‌ها را نشان می‌دهد.
- **`df.shape`**: تعداد سطرها و ستون‌های داده‌ها را برمی‌گرداند.
  - مثال: اگر خروجی `(768, 9)` باشد، یعنی 768 نمونه و 9 ویژگی داریم.
- **`df['Outcome'].value_counts()`**: تعداد نمونه‌های هر کلاس را نشان می‌دهد:
  - **1**: فرد دیابت دارد.
  - **0**: فرد دیابت ندارد.

---

### 2. **تقسیم داده‌ها به ویژگی‌ها (Features) و خروجی (Labels):**
```python
x = df.drop('Outcome', axis=1)  # حذف ستون 'Outcome' به عنوان ویژگی‌ها
y = df['Outcome']              # انتخاب ستون 'Outcome' به عنوان خروجی (Labels)
x = np.array(x)
y = np.array(y)
```
- **`x`**: ماتریس ویژگی‌ها شامل متغیرهایی مانند بارداری، گلوکز، فشار خون، سن و غیره.
- **`y`**: بردار خروجی که نشان‌دهنده دیابت داشتن (1) یا نداشتن (0) است.

---

### 3. **نرمال‌سازی (Normalization) و استانداردسازی (Standardization):**
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
x = scaler.fit_transform(x)
```
#### چرا نرمال‌سازی یا استانداردسازی؟
- ویژگی‌های مختلف (مثل گلوکز یا فشار خون) مقیاس‌های متفاوتی دارند. این تفاوت باعث می‌شود مدل‌ها، به خصوص مبتنی بر فاصله، به مقیاس بزرگ‌تر اهمیت بیشتری بدهند.
- **نرمال‌سازی (Normalization):** داده‌ها به بازه‌ای خاص (معمولاً بین 0 و 1) تغییر مقیاس می‌دهند.
- **استانداردسازی (Standardization):** داده‌ها حول میانگین 0 و انحراف معیار 1 قرار می‌گیرند.
  - مثال:
    - اگر مقدار اصلی **`Glucose = 148`** باشد و میانگین آن ستون **`mean = 120`** و انحراف معیار **`std = 30`** باشد:
      \[
      \text{Glucose\_scaled} = \frac{\text{148 - 120}}{\text{30}} = 0.933
      \]

---

### 4. **تقسیم داده‌ها به آموزش و آزمایش (Train/Test Split):**
```python
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
```
- **`train_test_split`**: داده‌ها را به دو بخش تقسیم می‌کند:
  - **80%** برای آموزش مدل.
  - **20%** برای آزمایش مدل.
- **`x_train` و `y_train`**: داده‌های آموزشی برای یادگیری مدل.
- **`x_test` و `y_test`**: داده‌های آزمایشی برای ارزیابی عملکرد مدل.

---

### 5. **ایجاد و آموزش مدل Naive Bayes:**
```python
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(x_train, y_train)
```
- **`GaussianNB`**: از توزیع نرمال (Gaussian) برای ویژگی‌ها استفاده می‌کند.
- **`fit(x_train, y_train)`**: مدل را با داده‌های آموزشی یاد می‌گیرد.

---

### 6. **پیش‌بینی نتایج (Predictions):**
```python
y_pred_train = model.predict(x_train)
y_pred_test = model.predict(x_test)
```
- **`predict`**: خروجی مدل را برای داده‌های آموزشی و آزمایشی پیش‌بینی می‌کند.
- **`y_pred_train`**: پیش‌بینی مدل برای داده‌های آموزشی.
- **`y_pred_test`**: پیش‌بینی مدل برای داده‌های آزمایشی.

---

### 7. **ارزیابی مدل (Evaluation):**
#### 1. **دقت (Accuracy):**
```python
from sklearn.metrics import accuracy_score
acc_train = accuracy_score(y_true=y_train, y_pred=y_pred_train)
acc_test = accuracy_score(y_true=y_test, y_pred=y_pred_test)
```
- **`accuracy_score`**: نسبت نمونه‌های درست پیش‌بینی‌شده به کل نمونه‌ها.
  - **`acc_train`**: دقت روی داده‌های آموزشی.
  - **`acc_test`**: دقت روی داده‌های آزمایشی.
  - مثال: \( \text{acc\_test} = 0.76 \) یعنی مدل روی داده‌های آزمایشی 76% نمونه‌ها را درست پیش‌بینی کرده است.

---

#### 2. **ماتریس سردرگمی (Confusion Matrix):**
```python
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred_test)
```
- ماتریس سردرگمی:
\[
\text{array([[85, 12],
             [25, 32]])}
\]
  - **85 (True Negative):** تعداد نمونه‌هایی که مدل درستاً به‌عنوان "دیابت ندارد" پیش‌بینی کرده است.
  - **12 (False Positive):** تعداد نمونه‌هایی که مدل به اشتباه به‌عنوان "دیابت دارد" پیش‌بینی کرده است.
  - **25 (False Negative):** تعداد نمونه‌هایی که مدل به اشتباه به‌عنوان "دیابت ندارد" پیش‌بینی کرده است.
  - **32 (True Positive):** تعداد نمونه‌هایی که مدل درستاً به‌عنوان "دیابت دارد" پیش‌بینی کرده است.

---

#### 3. **بازخوانی (Recall):**
```python
from sklearn.metrics import recall_score
r = recall_score(y_test, y_pred_test)
```
- **Recall:** از بین نمونه‌های واقعاً مثبت (دیابت دارد)، چه تعداد درست پیش‌بینی شده‌اند:
\[
\text{Recall} = \frac{\text{True Positive}}{\text{True Positive + False Negative}}
\]
\[
\text{Recall} = \frac{32}{32 + 25} \approx 0.561
\]

---

### 8. **نتیجه‌گیری:**
- مدل Naive Bayes به خوبی قادر است داده‌ها را پیش‌بینی کند.
- دقت مدل روی داده‌های آزمایشی حدود 76% است.
- **Precision** و **Recall** نشان می‌دهند که مدل در پیش‌بینی موارد دیابت دقت قابل‌قبولی دارد، اما می‌تواند در موارد مثبت واقعی بهتر عمل کند.
