**Numerical Data**

If you have a small amount of data, predict the missing values using k-nearest neighbors (KNN)

In [None]:
# Load libraries
import numpy as np
from fancyimpute import KNN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# Make a simulated feature matrix
features, _ = make_blobs(n_samples=1000, n_features=2, random_state=1)

# Standardize the features
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# Replace the first feature's first value with a missing value
true_value = standardized_features[0, 0]
standardized_features[0, 0] = np.nan

# Predict the missing values in the feature matrix
imputer = KNN(k=5, verbose=0)
features_knn_imputed = imputer.fit_transform(standardized_features)

# Compare true and imputed values
print("True Value:", true_value)
print("Imputed Value:", features_knn_imputed[0, 0])


True Value: 0.8730186113995938
Imputed Value: 1.0955332713113226


## إنشاء مصفوفة بيانات تجريبية

يتم إنشاء مصفوفة بيانات تجريبية تحتوي على 1000 عينة وميزتين (عشوائيتين) باستخدام `make_blobs`.

## تقييس البيانات

يتم تقييس البيانات بحيث تكون ميزات البيانات لها متوسط 0 وانحراف معياري 1 باستخدام `StandardScaler`.

## إدخال قيمة مفقودة

يتم استبدال القيمة الأولى في أول ميزة من البيانات القياسية (`standardized_features`) بقيمة مفقودة (`np.nan`).

## توقع القيم المفقودة

يتم استخدام `KNN` من `fancyimpute` لتوقع القيم المفقودة بناءً على القيم الأخرى في البيانات. يتم تحديد عدد الجيران (`k=5`) لاستخدامه في خوارزمية KNN.

## مقارنة القيم الحقيقية بالقيم المكملة

يتم طباعة القيمة الأصلية التي تم استبدالها (`true_value`) والقيمة المكملة التي تم التنبؤ بها بواسطة خوارزمية KNN (`features_knn_imputed[0, 0]`).

## ملخص النتائج

- **True Value:** القيمة الأصلية التي تم إدخالها كقيمة مفقودة.
- **Imputed Value:** القيمة التي تم التنبؤ بها بواسطة نموذج KNN لتكملة القيمة المفقودة.


Alternatively, we can use scikit-learn’s Imputer module to fill in missing values with
the feature’s mean, median, or most frequent value. However, we will typically get worse results than KNN.

In [None]:
# Load library
from sklearn.impute import SimpleImputer
import numpy as np

# Example data with missing values
features = np.array([[1, 2, np.nan], [3, np.nan, 4], [5, 6, 7]])
true_value = features[0, 0]

# Create imputer
mean_imputer = SimpleImputer(strategy="mean")

# Impute values
features_mean_imputed = mean_imputer.fit_transform(features)

# Compare true and imputed values
print("True Value:", true_value)
print("Imputed Value:", features_mean_imputed[0, 0])


True Value: 1.0
Imputed Value: 1.0


## إنشاء بيانات تجريبية تحتوي على قيم مفقودة

- **features** هي مصفوفة تحتوي على بعض القيم المفقودة (`np.nan`).

## تحديد القيمة الأصلية

- **true_value** هي القيمة الأصلية في `features` التي تم إدخالها كقيمة مفقودة.

## إنشاء كائن SimpleImputer

- يتم استخدام `SimpleImputer` مع استراتيجية `mean`، مما يعني أن القيم المفقودة سيتم ملؤها بالقيمة المتوسطة لكل عمود.

## تطبيق الإكمال

- `fit_transform(features)` يُطبق الإكمال على البيانات ويعيد المصفوفة المكملة.

## مقارنة القيم

- يتم طباعة **true_value** (القيمة الأصلية التي كانت مفقودة) و **features_mean_imputed[0, 0]** (القيمة التي تم استبدالها بواسطة `SimpleImputer`).

## تفسير النتائج

- **True Value:** القيمة الأصلية التي كانت مفقودة في البيانات قبل تطبيق الإكمال.
- **Imputed Value:** القيمة التي تم استبدال القيمة المفقودة بها باستخدام متوسط القيم الأخرى في نفس العمود.


**Categorical Data**

Imputing Missing Class Values

The ideal solution is to train a machine learning classifier algorithm to predict themissing values, commonly a k-nearest neighbors (KNN) classifier.

In [None]:
# Load libraries
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

# Create feature matrix with categorical feature
X = np.array([[0, 2.10, 1.45],
 [1, 1.18, 1.33],
 [0, 1.22, 1.27],
 [1, -0.21, -1.19]])


# Create feature matrix with missing values in the categorical feature
X_with_nan = np.array([[np.nan, 0.87, 1.31],
 [np.nan, -0.67, -0.22]])


# Train KNN learner
clf = KNeighborsClassifier(3, weights='distance')
trained_model = clf.fit(X[:,1:], X[:,0])

# Predict missing values' class
imputed_values = trained_model.predict(X_with_nan[:,1:])


# Join column of predicted class with their other features
X_with_imputed = np.hstack((imputed_values.reshape(-1,1), X_with_nan[:,1:]))

# Join two feature matrices
np.vstack((X_with_imputed, X))

array([[ 0.  ,  0.87,  1.31],
       [ 1.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

**إنشاء البيانات**

- **X:** هي مصفوفة تحتوي على ميزات عددية مع ميزة تصنيفية. في هذا المثال، العمود الأول يمثل الفئة المستهدفة (التصنيف)، والعمودان التاليان هما ميزات عددية.
- **X_with_nan:** هي مصفوفة تحتوي على قيم مفقودة في العمود الأول (العمود التصنيفي).

**تدريب نموذج KNN**

- يتم استخدام `KNeighborsClassifier` من `sklearn` لتدريب نموذج باستخدام الميزات العددية `X[:,1:]` والميزة التصنيفية `X[:,0]`.

**توقع القيم المفقودة**

- بعد تدريب النموذج، يتم استخدام `predict` للتنبؤ بالقيم المفقودة في `X_with_nan` بناءً على الميزات العددية المتاحة.

**دمج القيم المتوقعة**

- يتم دمج القيم المتوقعة مع الميزات الأخرى في `X_with_nan` لإنشاء مصفوفة جديدة `X_with_imputed` تحتوي على القيم المكملة.

**دمج مصفوفتين**

- يتم دمج المصفوفات التي تحتوي على القيم المكملة والبيانات الأصلية في مصفوفة واحدة.

**تفسير النتائج**

- **القيم التصنيفية (Categorical Data) كأرقام:**
  - في البيانات التصنيفية، يتم ترميز الفئات إلى أرقام لتتمكن الخوارزميات العددية من معالجتها. في هذه الحالة، الفئة قد تكون رقمًا مثل 0 أو 1، وهذا هو السبب في أن كل القيم في النتيجة هي أرقام.

- **أسباب ظهور الأرقام:**
  - النموذج يقوم بتوقع الفئات بناءً على الخصائص العددية المتاحة. عند تدريب النموذج، يتم تحويل الفئة (التصنيف) إلى أرقام، لذلك عند التنبؤ، ستظهر القيم كأرقام (مثل 0 أو 1) بدلاً من أسماء الفئات.

- **مثال توضيحي:**
  - إذا كان لديك فئات مثل "A" و "B"، يتم تحويل "A" إلى 0 و "B" إلى 1. عندما يتنبأ النموذج بالقيم المفقودة، ستحصل على أرقام 0 أو 1.


An alternative solution is to fill in missing values with the feature’s most frequent value

In [None]:
from sklearn.impute import SimpleImputer
import numpy as np

# Join the two feature matrices
X_complete = np.vstack((X_with_nan, X))

imputer = SimpleImputer(strategy='most_frequent')

X_imputed = imputer.fit_transform(X_complete)

print("Imputed Data:\n", X_imputed)


Imputed Data:
 [[ 0.    0.87  1.31]
 [ 0.   -0.67 -0.22]
 [ 0.    2.1   1.45]
 [ 1.    1.18  1.33]
 [ 0.    1.22  1.27]
 [ 1.   -0.21 -1.19]]


**إنشاء البيانات**

- **X** و **X_with_nan** هما مصفوفات البيانات الأصلية والمصفوفة التي تحتوي على القيم المفقودة على التوالي.

**دمج المصفوفات**

- **X_complete** هي مصفوفة تحتوي على بيانات مدمجة من **X_with_nan** و **X**. هذا يمكّن `SimpleImputer` من التعامل مع جميع البيانات في خطوة واحدة.

**إنشاء SimpleImputer**

- يتم إنشاء كائن `SimpleImputer` مع استراتيجية `most_frequent`. تعني هذه الاستراتيجية أن القيم المفقودة ستُملأ بالقيمة الأكثر تكرارًا في كل عمود.

**تطبيق الإكمال**

- `fit_transform(X_complete)` يقوم بتطبيق الإكمال على البيانات ويعيد المصفوفة المكملة.

**طباعة البيانات المكملة**

- يتم طباعة **X_imputed** لعرض النتيجة النهائية.

**تفسير النتائج**

- **الإكمال بالقيمة الأكثر تكرارًا:**
  - لكل عمود في **X_complete**، سيقوم `SimpleImputer` بحساب القيمة الأكثر تكرارًا في ذلك العمود ويستخدمها لملء القيم المفقودة.

- **نتائج الإكمال:**
  - سيتم استبدال القيم المفقودة في **X_with_nan** بالقيم الأكثر تكرارًا لكل عمود.
  - مثلاً، إذا كان العمود الأول يحتوي على القيم `[0, 1, 0, 1]`، فإن القيمة الأكثر تكرارًا هي `0`، لذا سيتم استخدام `0` لملء القيم المفقودة في ذلك العمود.
