In [7]:
import pandas as pd
import numpy as np
import copy
from sklearn.impute import KNNImputer
from sklearn.preprocessing import LabelEncoder

# Məlumat yaratmaq
np.random.seed(0)

data = {
    'numeric1': np.random.randn(30),
    'numeric2': np.random.rand(30) * 100,
    'numeric3': np.random.randint(1, 100, size=30),
    'category1': np.random.choice(['A', 'B', 'C'], size=30),
    'category2': np.random.choice(['X', 'Y', 'Z'], size=30),
    'category3': np.random.choice(['K', 'L', 'M'], size=30)
}

data = pd.DataFrame(data)

# İtkin dəyərlər yaratmaq
for col in data.columns:
    data.loc[np.random.choice(data.index, size=5, replace=False), col] = np.nan

df = copy.deepcopy(data)
df

Unnamed: 0,numeric1,numeric2,numeric3,category1,category2,category3
0,,94.374808,,B,Z,K
1,0.400157,68.18203,37.0,,,K
2,0.978738,35.95079,35.0,,,L
3,2.240893,43.703195,49.0,A,X,M
4,,69.76312,,C,X,L
5,-0.977278,6.022547,4.0,C,Y,L
6,,,99.0,,Z,K
7,-0.151357,,43.0,C,X,
8,-0.103219,21.038256,78.0,A,X,L
9,0.410599,12.89263,,A,Y,M


In [8]:
# Kateqorik sütunları `LabelEncoder` ilə çevirmək
label_encoders = {}
encoded_values = {}

for col in ['category1', 'category2', 'category3']:
    le = LabelEncoder()
    
# #     Boş dəyərləri 'missing' ilə doldururuq
#     df[col] = df[col].fillna('missing')
    
    # Dəyərləri çevirmək
    df[col] = le.fit_transform(df[col])
    
    # 'missing' dəyərlərini qeyd edirik ki, sonra geri qaytaraq
    label_encoders[col] = le
    # Orijinal dəyərləri və çevrilmiş dəyərləri saxlamaq
    encoded_values[col] = pd.DataFrame({
        'Original': le.classes_,
        'Encoded': np.arange(len(le.classes_))
    })

# Hər sütun üçün orijinal və çevrilmiş dəyərləri göstərmək
for col in encoded_values:
    print(f"\n{col} üçün orijinal və çevrilmiş dəyərlər:\n", encoded_values[col])



category1 üçün orijinal və çevrilmiş dəyərlər:
   Original  Encoded
0        A        0
1        B        1
2        C        2
3      NaN        3

category2 üçün orijinal və çevrilmiş dəyərlər:
   Original  Encoded
0        X        0
1        Y        1
2        Z        2
3      NaN        3

category3 üçün orijinal və çevrilmiş dəyərlər:
   Original  Encoded
0        K        0
1        L        1
2        M        2
3      NaN        3


In [9]:
encoded_values['category1'].dropna()["Encoded"].values

array([0, 1, 2])

In [10]:
for col in ['category1', 'category2', 'category3']:
    df[col] = df[col].apply(lambda x: x if x in encoded_values[col].dropna()["Encoded"].values else np.nan)

In [11]:
df

Unnamed: 0,numeric1,numeric2,numeric3,category1,category2,category3
0,,94.374808,,1.0,2.0,0.0
1,0.400157,68.18203,37.0,,,0.0
2,0.978738,35.95079,35.0,,,1.0
3,2.240893,43.703195,49.0,0.0,0.0,2.0
4,,69.76312,,2.0,0.0,1.0
5,-0.977278,6.022547,4.0,2.0,1.0,1.0
6,,,99.0,,2.0,0.0
7,-0.151357,,43.0,2.0,0.0,
8,-0.103219,21.038256,78.0,0.0,0.0,1.0
9,0.410599,12.89263,,0.0,1.0,2.0


In [14]:
# KNNImputer ilə boş dəyərləri doldurmaq
imputer = KNNImputer(n_neighbors=5)
filled_array = imputer.fit_transform(df)

# Doldurulmuş məlumatları DataFrame-ə çevirmək
filled_df = pd.DataFrame(filled_array, columns=df.columns)

# Kateqorik sütunları geri çevirmək
for col, le in label_encoders.items():
    filled_df[col] = filled_df[col].round(0).astype(int)  # Dəyərləri integer-ə çeviririk
    filled_df[col] = le.inverse_transform(filled_df[col])

print("\nOrijinal Data:\n", data)
print("\nKNN ilə doldurulmuş məlumatlar:\n", filled_df)


Orijinal Data:
     numeric1   numeric2  numeric3 category1 category2 category3
0        NaN  94.374808       NaN         B         Z         K
1   0.400157  68.182030      37.0       NaN       NaN         K
2   0.978738  35.950790      35.0       NaN       NaN         L
3   2.240893  43.703195      49.0         A         X         M
4        NaN  69.763120       NaN         C         X         L
5  -0.977278   6.022547       4.0         C         Y         L
6        NaN        NaN      99.0       NaN         Z         K
7  -0.151357        NaN      43.0         C         X       NaN
8  -0.103219  21.038256      78.0         A         X         L
9   0.410599  12.892630       NaN         A         Y         M
10  0.144044  31.542835      74.0         C         X         K
11  1.454274  36.371077       1.0         A         Z         M
12  0.761038  57.019677      11.0       NaN         Y         M
13  0.121675  43.860151      44.0         C         Y         L
14  0.443863  98.837384