In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder

In [2]:
users_df = pd.read_csv("../datasets/users.csv")
items_df = pd.read_csv("../datasets/items.csv")

In [None]:
users_df = users_df.drop(columns = ['شناسه کاربر'])
items_df = items_df.drop(columns=["شناسه کالا"])

Unnamed: 0,دسته‌بندی,رنگ,متریال,سبک طراحی,کاربرد,جنسیت
0,ورزشی,سبز,شیشه,مینیمال,ورزشی,بدون جنسیت
1,دکور,طلایی,شیشه,کلاسیک,آموزشی,مردانه
2,پوشاک,قرمز,شیشه,رنگارنگ,آموزشی,مردانه
3,ورزشی,سفید,شیشه,رنگارنگ,تزئینی,زنانه
4,پوشاک,مشکی,فلز,کلاسیک,دکوری,بدون جنسیت
...,...,...,...,...,...,...
1495,ورزشی,آبی,چرم,مدرن,دکوری,بدون جنسیت
1496,پوشاک,قرمز,چوب,کلاسیک,کاربردی,مردانه
1497,دکور,طلایی,پلاستیک,کلاسیک,آموزشی,زنانه
1498,کتاب,مشکی,شیشه,مینیمال,ورزشی,مردانه


In [9]:
label_enc = LabelEncoder()
for col in users_df.columns:
    if col == 'سن':
        continue
    else:
        users_df[col] = label_enc.fit_transform(users_df[col])

users_df.head()

Unnamed: 0,شناسه کاربر,سن,جنسیت,اولویت دسته‌بندی 1,اولویت دسته‌بندی 2,اولویت دسته‌بندی 3,ویژگی روان‌شناختی,علاقه به متریال,سبک کاری مورد علاقه,مناسبت هدیه,نوع ارتباط با فرد گیرنده هدیه
0,0,48,0,4,3,1,2,2,2,2,1
1,1,11,1,3,1,0,3,0,2,1,1
2,2,49,0,1,4,3,2,2,3,1,0
3,3,40,1,4,3,0,4,2,1,2,0
4,4,53,1,0,1,0,0,3,1,4,3


In [10]:
label_enc = LabelEncoder()
for col in items_df.columns:
    items_df[col] = label_enc.fit_transform(items_df[col])

items_df.head()

Unnamed: 0,شناسه کالا,دسته‌بندی,رنگ,متریال,سبک طراحی,کاربرد,جنسیت
0,0,2,1,0,2,3,0
1,1,1,3,0,3,0,2
2,2,3,4,0,0,0,2
3,3,2,2,0,0,1,1
4,4,3,5,1,3,2,0


In [12]:
def pca_algorithm_explained(X):
    pca = PCA()

    X_pca = pca.fit_transform(X)

    explained_variance = pca.explained_variance_ratio_
    print(f"Explained Variance Ratio: {explained_variance}")

    cumulative_variance = np.cumsum(explained_variance)
    print(f"Cumulative Explained Variancce: {cumulative_variance}")

    n_components_95 = np.argmax(cumulative_variance >= 0.95) + 1
    print(f"Number of Components for 95% Variance: {n_components_95}")

    pca = PCA(n_components=n_components_95)
    X_reduced = pca.fit_transform(X)
    print(f"shape of reduced dataset: {X_reduced.shape}")
    return X_reduced

In [14]:
reduced_users_df = pca_algorithm_explained(users_df)


Explained Variance Ratio: [9.85404356e-01 1.38585420e-02 1.14088491e-04 1.05901591e-04
 9.96179117e-05 9.33764561e-05 8.93871834e-05 8.49084175e-05
 8.01770426e-05 5.79951730e-05 1.16501632e-05]
Cumulative Explained Variancce: [0.98540436 0.9992629  0.99937699 0.99948289 0.99958251 0.99967588
 0.99976527 0.99985018 0.99993035 0.99998835 1.        ]
Number of Components for 95% Variance: 1
shape of reduced dataset: (500, 1)


In [15]:
reduced_items_df = pca_algorithm_explained(items_df)

Explained Variance Ratio: [9.99941481e-01 1.60279286e-05 1.11590842e-05 1.05682695e-05
 1.04473020e-05 6.86409732e-06 3.45204198e-06]
Cumulative Explained Variancce: [0.99994148 0.99995751 0.99996867 0.99997924 0.99998968 0.99999655
 1.        ]
Number of Components for 95% Variance: 1
shape of reduced dataset: (1500, 1)


In [17]:
reduced_users_df

array([[-249.55957874],
       [-248.43324389],
       [-247.56149489],
       [-246.5334242 ],
       [-245.57431046],
       [-244.40491075],
       [-243.427365  ],
       [-242.55364795],
       [-241.50211286],
       [-240.5195129 ],
       [-239.43338401],
       [-238.50082969],
       [-237.58914877],
       [-236.46257964],
       [-235.42378122],
       [-234.58937873],
       [-233.46686895],
       [-232.54156607],
       [-231.45457976],
       [-230.44193885],
       [-229.48101513],
       [-228.5221521 ],
       [-227.57359074],
       [-226.45899672],
       [-225.45868741],
       [-224.51045681],
       [-223.4759512 ],
       [-222.58922508],
       [-221.52774665],
       [-220.55460545],
       [-219.57408058],
       [-218.51524265],
       [-217.47555908],
       [-216.56822381],
       [-215.44104077],
       [-214.45490898],
       [-213.45702518],
       [-212.51941656],
       [-211.45286524],
       [-210.43699291],
       [-209.59534125],
       [-208.495

In [18]:
reduced_items_df

array([[-749.50014606],
       [-748.49995328],
       [-747.49987379],
       ...,
       [ 747.50006479],
       [ 748.50004098],
       [ 749.500097  ]])