## Лабораторна робота 3  
Дана лабораторна робота присвячена прогнозуванню показника "життєва цінність клієнта (LTV)" для користувачів цифрових гаманців на різних платіжних платформах.  
**Життєва цінність клієнта (LTV, Lifetime Value)** — це показник, що оцінює загальний дохід, який бізнес може отримати від одного клієнта протягом усього періоду його взаємодії з компанією або використання її послуг.    
Цей набір даних (**наведено в файлі "clients_LTV"**) містить інформацію про приблизно 7000 користувачів цифрових гаманців із 20 характеристиками, що охоплюють демографічні дані клієнтів, історію транзакцій, показники залученості, патерни використання додатку, взаємодії зі службою підтримки, а саме:    
- Customer_ID: Унікальний ідентифікатор для кожного клієнта.  
- Age: Вік клієнта, у діапазоні від 18 до 70 років.  
- Location: Географічне розташування клієнта, категоризоване як міське, приміське або сільське.  
- Income_Level: Класифікація доходу клієнта як низький, середній або високий.  
- Total_Transactions: Загальна кількість транзакцій, здійснених клієнтом.  
- Avg_Transaction_Value: Середня вартість кожної транзакції в доларах.  
- Total_Spent: Загальна сума, витрачена клієнтом, в доларах.  
- Max_Transaction_Value: Найвища одинична транзакція, зафіксована в доларах.  
- Min_Transaction_Value: Найнижча одинична транзакція, зафіксована в доларах.  
- Active_Days: Кількість днів, протягом яких клієнт був активним на платформі.  
- Last_Transaction_Days_Ago: Кількість днів з моменту останньої транзакції клієнта.  
- Loyalty_Points_Earned: Загальна кількість балів лояльності, зароблених клієнтом.  
- Referral_Count: Кількість нових клієнтів, залучених користувачем.  
- Cashback_Received: Загальна сума кешбеку, отриманого клієнтом.  
- App_Usage_Frequency: Частота використання додатку, категоризована як щоденна, щотижнева або щомісячна.  
- Preferred_Payment_Method: Найбільш часто використовуваний спосіб оплати клієнтом.  
- Support_Tickets_Raised: Кількість звернень до служби підтримки від клієнта.  
- Issue_Resolution_Time: Середній час вирішення проблем клієнта, в годинах.  
- Customer_Satisfaction_Score: Оцінка (1-10), що відображає задоволеність клієнта.  
- LTV: Цільова змінна, що представляє розраховану життєву цінність клієнта.  


**В ЛР 3 необхідно виконати наступні завдання:**  
1. Ознайомлення з набором даних:  
Завантажити набір даних.  
Оцінити кількість спостережень та кількість змінних, визначити типи даних у кожній колонці. 
У висновках необхідно зазначити: загальну кількість спостережень та змінних у наборі даних; типи даних кожної змінної (наприклад, числовий, текстовий, булевий); короткий опис виявлених особливостей набору даних (наприклад, наявність відсутніх значень, неочікувані типи даних у певних колонках).  

2. Препроцесинг даних:  
Видалити зайві стовпчики, які не потрібні для аналізу та прогнозування LTV.
Заповнити пропуски в даних, використовуючи відповідні методи (середнє, медіану або моду).  
В трьох стовпчиках, де дані збережені у текстовому форматі, але повинні бути числовими (наприклад, через наявність символів або некоректне форматування), виправити тип даних на числовий.  

3. Реалізація алгоритмів регресії та оцінка якості реалізованих алгоритмів:    
Реалізувати кілька різних алгоритмів регресії (лінійна регресія, дерево рішень, метод найближчих сусідів тощо). Навчити моделі на наявних даних, використовуючи LTV як цільову змінну.  
Оцінити якість кожної моделі за допомогою метрики R2. Порівняти результати та вибрати найкращу модель за метрикою R2.  
У висновках необхідно надати загальну оцінку якості побудованих моделей та зробити заключення щодо їх придатності для подальшого використання: чи можна ці моделі застосовувати для прогнозування LTV на нових даних, чи є необхідність у подальшому вдосконаленні.  

4. Прогнозування LTV для нових клієнтів:  
На основі найкращої моделі, зробити прогноз LTV для вибраних клієнтів (дані для цих клієнтів наведено в файлі **"clients_to_estimate"**).

In [1]:
# імпортуємо потрібні біблотеки
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

In [2]:
#1 Ознайомлення з набором даних:
#Завантажити набір даних.
#Оцінити кількість спостережень та кількість змінних, визначити типи даних у кожній колонці. У висновках необхідно зазначити: загальну кількість спостережень та змінних у наборі даних; типи даних кожної змінної (наприклад, числовий, текстовий, булевий); короткий опис виявлених особливостей набору даних (наприклад, наявність відсутніх значень, неочікувані типи даних у певних колонках).

In [3]:
#відкриємо файл з даними та зчитаємо вміст файлу в датафрейм
df = pd.read_csv('clients_LTV.csv')
# Отримуємо базову інформацію про набір даних: кількість спостережень, змінних та типи даних кожної колонки
df.head()

Unnamed: 0.1,Unnamed: 0,Customer_ID,Age,Location,Income_Level,Total_Transactions,Avg_Transaction_Value,Max_Transaction_Value,Min_Transaction_Value,Total_Spent,...,Last_Transaction_Days_Ago,Loyalty_Points_Earned,Referral_Count,Cashback_Received,App_Usage_Frequency,Preferred_Payment_Method,Support_Tickets_Raised,Issue_Resolution_Time,Customer_Satisfaction_Score,LTV
0,0,cust_0000,54,Urban,Low,192,16736.38402319893$,60216.83450988285$,6525.814860765247$,3213386.0,...,209,2114.0,25,2224.01214,Monthly,Debit Card,3,61.56859,1,327954.6
1,1,cust_0001,67,Suburban,High,979,14536.734682848608$,48350.10027249861$,2186.742245256916$,14231460.0,...,240,2960.0,20,4026.823518,Monthly,UPI,17,60.392889,8,1437053.0
2,2,cust_0002,44,Urban,High,329,7061.372800216672$,32521.157187328816$,2743.4068078554915$,,...,21,3170.0,0,1441.011395,,Debit Card,11,45.305579,4,241938.7
3,3,cust_0003,30,Rural,High,71,16426.876453277957$,17827.896720459485$,4360.78499399125$,,...,285,,35,4365.85558,,Wallet Balance,6,22.030191,1,128459.9
4,4,cust_0004,58,Urban,Middle,878,10800.09265965521$,17497.634533762135$,4532.872520080136$,9482481.0,...,329,1992.0,18,4161.523827,Daily,UPI,18,20.634723,5,956951.4


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 21 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Unnamed: 0                   7000 non-null   int64  
 1   Customer_ID                  7000 non-null   object 
 2   Age                          7000 non-null   int64  
 3   Location                     6650 non-null   object 
 4   Income_Level                 6510 non-null   object 
 5   Total_Transactions           7000 non-null   int64  
 6   Avg_Transaction_Value        7000 non-null   object 
 7   Max_Transaction_Value        7000 non-null   object 
 8   Min_Transaction_Value        7000 non-null   object 
 9   Total_Spent                  5950 non-null   float64
 10  Active_Days                  7000 non-null   int64  
 11  Last_Transaction_Days_Ago    7000 non-null   int64  
 12  Loyalty_Points_Earned        6370 non-null   float64
 13  Referral_Count    

In [5]:
#Висновки
#Загальна кількість спостережень та змінних:

#Набір даних містить 7,000 спостережень (рядків).
#Кількість змінних  21.
#Типи даних змінних:

#int64 (цілі числа)
#Змінні: Unnamed: 0, Age, Total_Transactions, Active_Days, Last_Transaction_Days_Ago, Referral_Count, Support_Tickets_Raised, Customer_Satisfaction_Score
#float64 (десяткові числа)
#Змінні: Total_Spent, Loyalty_Points_Earned, Cashback_Received, Issue_Resolution_Time, LTV
#object (текстові дані)
#Змінні: Customer_ID, Location, Income_Level, Avg_Transaction_Value, Max_Transaction_Value, Min_Transaction_Value, App_Usage_Frequency, Preferred_Payment_Method

In [6]:
# Перевіряємо наявність відсутніх значень у наборі даних
df.isnull().sum()

Unnamed: 0                        0
Customer_ID                       0
Age                               0
Location                        350
Income_Level                    490
Total_Transactions                0
Avg_Transaction_Value             0
Max_Transaction_Value             0
Min_Transaction_Value             0
Total_Spent                    1050
Active_Days                       0
Last_Transaction_Days_Ago         0
Loyalty_Points_Earned           630
Referral_Count                    0
Cashback_Received                 0
App_Usage_Frequency            1540
Preferred_Payment_Method          0
Support_Tickets_Raised            0
Issue_Resolution_Time             0
Customer_Satisfaction_Score       0
LTV                               0
dtype: int64

In [7]:
#Location: 350 відсутніх значень
#Income_Level: 490 відсутніх значень
#Total_Spent: 1,050 відсутніх значень
#Loyalty_Points_Earned: 630 відсутніх значень
#App_Usage_Frequency: 1,540 відсутніх значень

In [8]:
df.describe ()

Unnamed: 0.1,Unnamed: 0,Age,Total_Transactions,Total_Spent,Active_Days,Last_Transaction_Days_Ago,Loyalty_Points_Earned,Referral_Count,Cashback_Received,Support_Tickets_Raised,Issue_Resolution_Time,Customer_Satisfaction_Score,LTV
count,7000.0,7000.0,7000.0,5950.0,7000.0,7000.0,6370.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0
mean,3499.5,42.633714,501.221429,5043738.0,181.934857,183.847714,2499.51821,24.837,2496.525032,10.017571,36.528007,5.479,511919.7
std,2020.870275,15.516036,286.277311,4404883.0,105.102598,105.063709,1444.91823,14.560352,1440.651412,6.037067,20.389399,2.860197,439055.1
min,0.0,16.0,1.0,1623.084,1.0,1.0,0.0,0.0,0.234349,0.0,1.019853,1.0,3770.495
25%,1749.75,29.0,252.0,1384267.0,90.0,93.0,1256.25,12.0,1269.423703,5.0,19.127302,3.0,148205.8
50%,3499.5,43.0,506.0,3864984.0,182.0,184.0,2464.0,25.0,2478.94335,10.0,36.257396,5.0,387818.0
75%,5249.25,56.0,744.0,7713299.0,273.0,275.0,3782.0,37.0,3749.375251,15.0,54.068594,8.0,774857.8
max,6999.0,69.0,1000.0,19467730.0,365.0,365.0,5000.0,50.0,4999.69848,20.0,71.978946,10.0,1956988.0


In [9]:
df['Avg_Transaction_Value'][df['Avg_Transaction_Value'].str.contains(r'[^\d\.]', na=False)]

0        16736.38402319893$
1       14536.734682848608$
2        7061.372800216672$
3       16426.876453277957$
4        10800.09265965521$
               ...         
6995    162.70350256920446$
6996    1575.7078765992385$
6997     14429.35517756313$
6998    8005.0271841612175$
6999       15697.668867092$
Name: Avg_Transaction_Value, Length: 7000, dtype: object

In [10]:
df['Max_Transaction_Value'][df['Max_Transaction_Value'].str.contains(r'[^\d\.]', na=False)]

0        60216.83450988285$
1        48350.10027249861$
2       32521.157187328816$
3       17827.896720459485$
4       17497.634533762135$
               ...         
6995     605.9974948210429$
6996     4702.522747095733$
6997    17207.737631060354$
6998     33203.79571648326$
6999     50584.16343037768$
Name: Max_Transaction_Value, Length: 7000, dtype: object

In [11]:
df['Min_Transaction_Value'][df['Min_Transaction_Value'].str.contains(r'[^\d\.]', na=False)]

0        6525.814860765247$
1        2186.742245256916$
2       2743.4068078554915$
3         4360.78499399125$
4        4532.872520080136$
               ...         
6995     80.35266634214777$
6996    359.51133234175296$
6997    1510.5983293698946$
6998    1976.3261242214244$
6999     7833.230956449822$
Name: Min_Transaction_Value, Length: 7000, dtype: object

In [12]:
#Неочікувані типи даних:
#Avg_Transaction_Value, Max_Transaction_Value, Min_Transaction_Value, мають тип object, оскільки містять символ $.
#Ці дані потребують обробки та перетворення у числовий формат для коректного аналізу.

In [13]:
#2. Препроцесинг даних:  
#Видалити зайві стовпчики, які не потрібні для аналізу та прогнозування LTV.
#Заповнити пропуски в даних, використовуючи відповідні методи (середнє, медіану або моду).  
#В трьох стовпчиках, де дані збережені у текстовому форматі, але повинні бути числовими (наприклад, через наявність символів або некоректне форматування), виправити тип даних на числовий.  

In [14]:
#Зайві стовпці для видалення:
#Unnamed: 0: Зазвичай це індекс або маркер, який не несе інформації.
#Customer_ID: Унікальний ідентифікатор, який не впливає на прогнозування LTV, тому його можна видалити.
#App_Usage_Frequency: 
#Preferred_Payment_Method:

In [15]:
# Видалення зайвих стовпців
columns_to_drop = ['Unnamed: 0', 'Customer_ID','Preferred_Payment_Method', 'App_Usage_Frequency'] 
df.drop(columns=columns_to_drop, inplace=True)

In [16]:
# Видаляємо символ '$' та перетворюємо значення у числовий формат для кожного з цих стовпців
df['Avg_Transaction_Value'] = df['Avg_Transaction_Value'].replace('[\$,]', '', regex=True).astype(float)
df['Max_Transaction_Value'] = df['Max_Transaction_Value'].replace('[\$,]', '', regex=True).astype(float)
df['Min_Transaction_Value'] = df['Min_Transaction_Value'].replace('[\$,]', '', regex=True).astype(float)

In [17]:
#Результат
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 17 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Age                          7000 non-null   int64  
 1   Location                     6650 non-null   object 
 2   Income_Level                 6510 non-null   object 
 3   Total_Transactions           7000 non-null   int64  
 4   Avg_Transaction_Value        7000 non-null   float64
 5   Max_Transaction_Value        7000 non-null   float64
 6   Min_Transaction_Value        7000 non-null   float64
 7   Total_Spent                  5950 non-null   float64
 8   Active_Days                  7000 non-null   int64  
 9   Last_Transaction_Days_Ago    7000 non-null   int64  
 10  Loyalty_Points_Earned        6370 non-null   float64
 11  Referral_Count               7000 non-null   int64  
 12  Cashback_Received            7000 non-null   float64
 13  Support_Tickets_Ra

In [18]:
#Заповнимо відсутні значення для «Total_Spent» і «Loyalty_Points_Earned» їх середнім значенням
df['Total_Spent'].fillna(df['Total_Spent'].mean(), inplace=True)
df['Loyalty_Points_Earned'].fillna(df['Loyalty_Points_Earned'].mean(), inplace=True)

In [19]:
#Видалимо інші рядки ,де є пропуски.
df.dropna(inplace=True)

In [20]:
#Результат
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6188 entries, 0 to 6997
Data columns (total 17 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Age                          6188 non-null   int64  
 1   Location                     6188 non-null   object 
 2   Income_Level                 6188 non-null   object 
 3   Total_Transactions           6188 non-null   int64  
 4   Avg_Transaction_Value        6188 non-null   float64
 5   Max_Transaction_Value        6188 non-null   float64
 6   Min_Transaction_Value        6188 non-null   float64
 7   Total_Spent                  6188 non-null   float64
 8   Active_Days                  6188 non-null   int64  
 9   Last_Transaction_Days_Ago    6188 non-null   int64  
 10  Loyalty_Points_Earned        6188 non-null   float64
 11  Referral_Count               6188 non-null   int64  
 12  Cashback_Received            6188 non-null   float64
 13  Support_Tickets_Raised 

In [21]:
df.head()

Unnamed: 0,Age,Location,Income_Level,Total_Transactions,Avg_Transaction_Value,Max_Transaction_Value,Min_Transaction_Value,Total_Spent,Active_Days,Last_Transaction_Days_Ago,Loyalty_Points_Earned,Referral_Count,Cashback_Received,Support_Tickets_Raised,Issue_Resolution_Time,Customer_Satisfaction_Score,LTV
0,54,Urban,Low,192,16736.384023,60216.83451,6525.814861,3213386.0,140,209,2114.0,25,2224.01214,3,61.56859,1,327954.6
1,67,Suburban,High,979,14536.734683,48350.100272,2186.742245,14231460.0,229,240,2960.0,20,4026.823518,17,60.392889,8,1437053.0
2,44,Urban,High,329,7061.3728,32521.157187,2743.406808,5043738.0,73,21,3170.0,0,1441.011395,11,45.305579,4,241938.7
3,30,Rural,High,71,16426.876453,17827.89672,4360.784994,5043738.0,299,285,2499.51821,35,4365.85558,6,22.030191,1,128459.9
4,58,Urban,Middle,878,10800.09266,17497.634534,4532.87252,9482481.0,236,329,1992.0,18,4161.523827,18,20.634723,5,956951.4


In [22]:
# Видалимо викиди
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns


In [23]:
import pandas as pd

for column in numeric_columns:
    # Обчислюємо квантилі 1% та 99%
    lower_bound = df[column].quantile(0.01)
    upper_bound = df[column].quantile(0.99)

    # Фільтруємо дані з урахуванням пропусків (NaN)
    initial_shape = df.shape[0]  # Кількість рядків перед очищенням
    df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    
    # Виводимо кількість видалених рядків
    removed_rows = initial_shape - df.shape[0]
    print(f'Кількість видалених рядків для стовпця {column}: {removed_rows}')

# Огляд фінального очищеного DataFrame
print("\nФінальний очищений DataFrame:")
df.info()

Кількість видалених рядків для стовпця Age: 0
Кількість видалених рядків для стовпця Total_Transactions: 124
Кількість видалених рядків для стовпця Avg_Transaction_Value: 122
Кількість видалених рядків для стовпця Max_Transaction_Value: 120
Кількість видалених рядків для стовпця Min_Transaction_Value: 118
Кількість видалених рядків для стовпця Total_Spent: 116
Кількість видалених рядків для стовпця Active_Days: 107
Кількість видалених рядків для стовпця Last_Transaction_Days_Ago: 100
Кількість видалених рядків для стовпця Loyalty_Points_Earned: 107
Кількість видалених рядків для стовпця Referral_Count: 0
Кількість видалених рядків для стовпця Cashback_Received: 106
Кількість видалених рядків для стовпця Support_Tickets_Raised: 0
Кількість видалених рядків для стовпця Issue_Resolution_Time: 104
Кількість видалених рядків для стовпця Customer_Satisfaction_Score: 0
Кількість видалених рядків для стовпця LTV: 102

Фінальний очищений DataFrame:
<class 'pandas.core.frame.DataFrame'>
Index: 4

In [24]:
# Визначаємо незалежні змінні - всі в датафреймі df, крім LTV
X = df.drop(['LTV'], axis=1)

# LTV - цільова (прогнозована) змінна
y = df['LTV']

In [25]:
# Вибираємо категоріальні стовпці в матриці незалежних змінних
categorical_columns = X.select_dtypes(include=['object']).columns

# Вибираємо кількісні ознаки (числові стовпці) в матриці незалежних змінних
numeric_columns = X.select_dtypes(include=[float, int]).columns


In [26]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
# Імпортуємо клас StandardScaler з sklearn, який використовується для стандартизації даних
scaler = StandardScaler()

# Стандартизуємо кількісні ознаки
standardized_columns = scaler.fit_transform(X[numeric_columns])

# Перетворюємо стандартизовані дані в DataFrame з відповідними назвами стовпців
standardized_X = pd.DataFrame(standardized_columns, columns=numeric_columns, index=X.index)

# Видаляємо початкові кількісні ознаки
X = X.drop(columns=numeric_columns)

# Додаємо стандартизовані ознаки назад до DataFrame
X = pd.concat([X, standardized_X], axis=1)

# Перевіряємо результат
print(X.head())

   Location Income_Level       Age  Total_Transactions  Avg_Transaction_Value  \
0     Urban          Low  0.712773           -1.150794               1.265091   
1  Suburban         High  1.551560            1.759687               0.852673   
2     Urban         High  0.067552           -0.644141              -0.548902   
3     Rural         High -0.835757           -1.598275               1.207061   
4     Urban       Middle  0.970861            1.386169               0.152080   

   Max_Transaction_Value  Min_Transaction_Value  Total_Spent  Active_Days  \
0               1.473377               1.741372    -0.483424    -0.414088   
1               0.892336              -0.391794     2.591303     0.452296   
2               0.117290              -0.118128     0.027358    -1.066309   
3              -0.602148               0.677004     0.027358     1.133722   
4              -0.618319               0.761606     1.266042     0.520439   

   Last_Transaction_Days_Ago  Loyalty_Points_Earne

In [27]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
# Імпортуємо клас OneHotEncoder з бібліотеки sklearn
encoder = OneHotEncoder(sparse_output=False, drop='first')

# Застосовуємо OneHotEncoder до категоріальних стовпців
encoded_columns = encoder.fit_transform(X[categorical_columns])

# Створюємо новий DataFrame з перекодованими змінними і назвами колонок
encoded_X = pd.DataFrame(encoded_columns, columns=encoder.get_feature_names_out(categorical_columns), index=X.index)

# Об'єднуємо початковий DataFrame з новими перекодованими стовпцями
X = X.drop(columns=categorical_columns)  # Видаляємо оригінальні категоріальні стовпці
X = pd.concat([X, encoded_X], axis=1)

# Перевіряємо результати
print(X.head())

        Age  Total_Transactions  Avg_Transaction_Value  Max_Transaction_Value  \
0  0.712773           -1.150794               1.265091               1.473377   
1  1.551560            1.759687               0.852673               0.892336   
2  0.067552           -0.644141              -0.548902               0.117290   
3 -0.835757           -1.598275               1.207061              -0.602148   
4  0.970861            1.386169               0.152080              -0.618319   

   Min_Transaction_Value  Total_Spent  Active_Days  Last_Transaction_Days_Ago  \
0               1.741372    -0.483424    -0.414088                   0.246065   
1              -0.391794     2.591303     0.452296                   0.546935   
2              -0.118128     0.027358    -1.066309                  -1.578561   
3               0.677004     0.027358     1.133722                   0.983680   
4               0.761606     1.266042     0.520439                   1.410721   

   Loyalty_Points_Earned  

In [28]:
# Стандартизуємо цільову змінну, попередньо перетворивши її в масив NumPy
y_array = y.to_numpy().reshape(-1, 1)

# Стандартизуємо за допомогою StandardScaler
target_scaler = StandardScaler()
y_scaled = target_scaler.fit_transform(y_array)

In [29]:
# Розбиваємо дані на навчальну і тестову вибірки
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y_scaled, test_size=0.1, random_state=42)

In [30]:
# імпортуємо необхідні для навчання та тестування моделі класи з бібліотеки sklearn
from sklearn.linear_model import LinearRegression
#from sklearn import metrics
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor

from sklearn.metrics import r2_score

In [31]:
# Створюємо список моделей регресії, які будемо навчати
regression_models = [
    LinearRegression(),
    DecisionTreeRegressor(random_state=42),
    RandomForestRegressor(n_estimators=100, random_state=42),
    KNeighborsRegressor()
]

# Створюємо списки, в яких зберігатимемо показники якості (R²) кожної моделі на навчальній та тестовій вибірках
training_scores = []
testing_scores = []

# Навчаємо моделі та перевіряємо їх якість за допомогою R²
# Процес навчання та тестування моделей можна зібрати у власну функцію model_prediction
def model_prediction(model, x_train, y_train, x_test, y_test):
    model.fit(x_train, y_train)  # Навчаємо модель на тренувальній вибірці
    x_train_pred = model.predict(x_train)  # Прогноз цільової змінної на тренувальній вибірці
    x_test_pred = model.predict(x_test)    # Прогноз цільової змінної на тестовій вибірці
    
    # Розраховуємо R² на тренувальній та тестовій вибірках
    a = r2_score(y_train, x_train_pred) * 100
    b = r2_score(y_test, x_test_pred) * 100
    
    training_scores.append(a)
    testing_scores.append(b)
    
    print(f"R² для {type(model).__name__} моделі на навчальному наборі даних: {a:.2f}")
    print(f"R² для {type(model).__name__} моделі на тестовому наборі даних: {b:.2f}")

# Оцінювання моделей
for model in regression_models:
    print(f"Оцінювання {type(model).__name__} моделі:")
    model_prediction(model, X_train, y_train, X_test, y_test)
    print("\n")

# Обираємо найкращу модель - модель із найвищим значенням R² на тестовому наборі даних
best_model_index = testing_scores.index(max(testing_scores))
best_model = regression_models[best_model_index]
best_test_score = testing_scores[best_model_index]

print(f"Найкращою є модель {type(best_model).__name__} з R² {best_test_score:.2f} на тестовому наборі даних.")

Оцінювання LinearRegression моделі:
R² для LinearRegression моделі на навчальному наборі даних: 92.86
R² для LinearRegression моделі на тестовому наборі даних: 93.10


Оцінювання DecisionTreeRegressor моделі:
R² для DecisionTreeRegressor моделі на навчальному наборі даних: 100.00
R² для DecisionTreeRegressor моделі на тестовому наборі даних: 99.77


Оцінювання RandomForestRegressor моделі:
R² для RandomForestRegressor моделі на навчальному наборі даних: 99.99
R² для RandomForestRegressor моделі на тестовому наборі даних: 99.92


Оцінювання KNeighborsRegressor моделі:
R² для KNeighborsRegressor моделі на навчальному наборі даних: 92.66
R² для KNeighborsRegressor моделі на тестовому наборі даних: 89.87


Найкращою є модель RandomForestRegressor з R² 99.92 на тестовому наборі даних.


In [32]:
#LinearRegression: Модель показала непогані результати, але є можливість для покращення. Вона не зовсім досягає високої точності.

#DecisionTreeRegressor: Ця модель демонструє дуже високу точність, але може бути перенавчена. Це означає, що вона дуже добре підходить до навчальних даних, але може погано працювати на нових.

#RandomForestRegressor (Random Forest): Виявилася найкращою моделлю! Вона показала високу точність як на навчальному, так і на тестовому наборі, що свідчить про її здатність добре працювати з новими даними.

#KNeighborsRegressor (KNN): Ця модель показала нижчі результати в порівнянні з іншими. Вона не так добре адаптується до змін у даних.

In [33]:
#Найкращою моделлю для прогнозування LTV є Random Forest, яка показала найвищу точність.


In [34]:
# 1. Завантажуємо дані нових клієнтів
new_clients = pd.read_csv("clients_to_estimate.csv")

In [35]:
new_clients

Unnamed: 0,Customer_ID,Age,Location,Income_Level,Total_Transactions,Avg_Transaction_Value,Max_Transaction_Value,Min_Transaction_Value,Total_Spent,Active_Days,Last_Transaction_Days_Ago,Loyalty_Points_Earned,Referral_Count,Cashback_Received,App_Usage_Frequency,Preferred_Payment_Method,Support_Tickets_Raised,Issue_Resolution_Time,Customer_Satisfaction_Score
0,cust_0860,50,Suburban,High,543,596.0589994879316$,1714.784777545023$,268.7142321224972$,323660.0,250,361,2635,41,2019.948149,Daily,Debit Card,18,61.008314,6
1,cust_1604,66,Rural,Low,456,8800.17546689406$,38807.641761083454$,3153.691081237037$,4012880.0,349,211,1873,0,3163.905402,Daily,Debit Card,15,32.988608,8
2,cust_2245,46,Rural,Middle,754,1121.5742185939405$,3098.426240656642$,471.99152959088167$,845667.0,43,274,4109,22,1515.538464,Weekly,Wallet Balance,4,16.183854,7
3,cust_6912,19,Urban,Middle,5,808.7034199851265$,3662.9134062873377$,204.50832004409645$,4043.517,338,154,2939,25,3082.99746,Daily,UPI,20,51.023975,9
4,cust_0413,57,Rural,Middle,689,8577.766769212436$,31928.151472187823$,1996.522068052728$,5910081.0,330,15,557,21,189.162256,Daily,Wallet Balance,13,41.551875,9
5,cust_0990,37,Suburban,Middle,399,18415.055340139646$,51252.16703555148$,4358.063875888431$,7347607.0,125,195,2552,40,4726.767819,Monthly,Wallet Balance,5,42.621119,8
6,cust_6027,47,Suburban,Low,738,16760.691554436326$,27190.09175277492$,2697.615708688761$,12369390.0,216,23,3886,40,2406.273706,Weekly,UPI,0,52.170459,5
7,cust_4638,69,Urban,Low,298,668.376603618616$,2766.2008278355825$,85.82966910547842$,199176.2,321,288,606,4,3137.74209,Weekly,Credit Card,14,58.955143,7
8,cust_6483,69,Urban,High,865,5468.755124437255$,15668.988066874252$,2129.4574730686413$,4730473.0,78,96,4093,31,1479.396327,Daily,UPI,2,5.896963,1
9,cust_5867,42,Suburban,Low,905,19854.09623418734$,39027.32039310596$,3823.960999957312$,17967960.0,114,234,4600,0,1784.265262,Monthly,UPI,10,12.65016,4


In [36]:
new_clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 19 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Customer_ID                  50 non-null     object 
 1   Age                          50 non-null     int64  
 2   Location                     50 non-null     object 
 3   Income_Level                 50 non-null     object 
 4   Total_Transactions           50 non-null     int64  
 5   Avg_Transaction_Value        50 non-null     object 
 6   Max_Transaction_Value        50 non-null     object 
 7   Min_Transaction_Value        50 non-null     object 
 8   Total_Spent                  50 non-null     float64
 9   Active_Days                  50 non-null     int64  
 10  Last_Transaction_Days_Ago    50 non-null     int64  
 11  Loyalty_Points_Earned        50 non-null     int64  
 12  Referral_Count               50 non-null     int64  
 13  Cashback_Received     

In [37]:
# Видалення зайвих стовпців
columns_to_drop1 = [ 'Customer_ID','Preferred_Payment_Method', 'App_Usage_Frequency'] 
new_clients.drop(columns=columns_to_drop1, inplace=True)

In [38]:
# Видаляємо символ '$' та перетворюємо значення у числовий формат для кожного з цих стовпців
new_clients['Avg_Transaction_Value'] = new_clients['Avg_Transaction_Value'].replace('[\$,]', '', regex=True).astype(float)
new_clients['Max_Transaction_Value'] = new_clients['Max_Transaction_Value'].replace('[\$,]', '', regex=True).astype(float)
new_clients['Min_Transaction_Value'] = new_clients['Min_Transaction_Value'].replace('[\$,]', '', regex=True).astype(float)

In [39]:
new_clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Age                          50 non-null     int64  
 1   Location                     50 non-null     object 
 2   Income_Level                 50 non-null     object 
 3   Total_Transactions           50 non-null     int64  
 4   Avg_Transaction_Value        50 non-null     float64
 5   Max_Transaction_Value        50 non-null     float64
 6   Min_Transaction_Value        50 non-null     float64
 7   Total_Spent                  50 non-null     float64
 8   Active_Days                  50 non-null     int64  
 9   Last_Transaction_Days_Ago    50 non-null     int64  
 10  Loyalty_Points_Earned        50 non-null     int64  
 11  Referral_Count               50 non-null     int64  
 12  Cashback_Received            50 non-null     float64
 13  Support_Tickets_Raised

In [40]:
# Стандартизуємо кількісні ознаки, але використовуємо тільки transform
standardized_columns = scaler.transform(new_clients[numeric_columns])

# Перетворюємо стандартизовані дані в DataFrame з відповідними назвами стовпців
standardized_new_clients = pd.DataFrame(standardized_columns, columns=numeric_columns, index=new_clients.index)

# Видаляємо початкові кількісні ознаки
new_clients = new_clients.drop(columns=numeric_columns)

# Додаємо стандартизовані ознаки назад до DataFrame
new_clients = pd.concat([standardized_new_clients, new_clients], axis=1)

# Перевіряємо результат
print(new_clients.head())

        Age  Total_Transactions  Avg_Transaction_Value  Max_Transaction_Value  \
0  0.454684            0.147273              -1.761101              -1.391108   
1  1.487038           -0.174470              -0.222890               0.425100   
2  0.196596            0.927593              -1.662571              -1.323360   
3 -1.545501           -1.842356              -1.721232              -1.295720   
4  0.906339            0.687210              -0.264590               0.088254   

   Min_Transaction_Value  Total_Spent  Active_Days  Last_Transaction_Days_Ago  \
0              -1.334731    -1.289837     0.656724                   1.721295   
1               0.083575    -0.260316     1.620455                   0.265476   
2              -1.234796    -1.144165    -1.358349                   0.876920   
3              -1.366295    -1.379030     1.513374                  -0.287735   
4              -0.485310     0.269121     1.435496                  -1.636794   

   Loyalty_Points_Earned  

In [41]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
# Імпортуємо клас OneHotEncoder з бібліотеки sklearn
encoder = OneHotEncoder(sparse_output=False, drop='first')

# Застосовуємо OneHotEncoder до категоріальних стовпців
encoded_columns = encoder.fit_transform(new_clients[categorical_columns])

# Створюємо новий DataFrame з перекодованими змінними і назвами колонок
encoded_new_clients = pd.DataFrame(encoded_columns, columns=encoder.get_feature_names_out(categorical_columns), index=new_clients.index)

# Об'єднуємо початковий DataFrame з новими перекодованими стовпцями
new_clients = new_clients.drop(columns=categorical_columns)  # Видаляємо оригінальні категоріальні стовпці
new_clients = pd.concat([new_clients, encoded_new_clients], axis=1)

# Перевіряємо результати
print(new_clients.head())

        Age  Total_Transactions  Avg_Transaction_Value  Max_Transaction_Value  \
0  0.454684            0.147273              -1.761101              -1.391108   
1  1.487038           -0.174470              -0.222890               0.425100   
2  0.196596            0.927593              -1.662571              -1.323360   
3 -1.545501           -1.842356              -1.721232              -1.295720   
4  0.906339            0.687210              -0.264590               0.088254   

   Min_Transaction_Value  Total_Spent  Active_Days  Last_Transaction_Days_Ago  \
0              -1.334731    -1.289837     0.656724                   1.721295   
1               0.083575    -0.260316     1.620455                   0.265476   
2              -1.234796    -1.144165    -1.358349                   0.876920   
3              -1.366295    -1.379030     1.513374                  -0.287735   
4              -0.485310     0.269121     1.435496                  -1.636794   

   Loyalty_Points_Earned  

In [42]:
X.columns == new_clients.columns

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True])

In [43]:
pred_scaled = best_model.predict(new_clients)
pred_scaled

array([-1.17371035, -0.22837484, -1.04561072, -1.21330484,  0.26969903,
        0.6388169 ,  1.93543089, -1.21548274, -0.04396674,  2.80043693,
       -0.17153916, -1.11306804, -0.54524326, -1.20244164, -1.21760596,
       -0.01449106, -1.13206969,  1.23111307, -0.90383875,  1.42426662,
        1.12062079, -0.15116709, -0.20438974, -1.1547328 ,  0.30713664,
       -0.70078282, -0.74041688, -0.12855912,  1.28935607,  1.50536992,
       -0.55835903, -1.12215442,  1.05954758,  2.10622952, -0.30726081,
       -0.82309352,  0.4429547 , -0.35120916, -1.21369918, -1.16621152,
       -0.50664564, -1.14064127, -0.62543506, -0.0660879 , -1.19229432,
       -0.64223229, -0.91843004,  1.78745925,  1.0349861 ,  1.41015456])

In [44]:
# Виконуємо обернене перетворення спрогнозованих значень LTV до реальних одиниць
pred_real_units = target_scaler.inverse_transform(pred_scaled.reshape(-1, 1))

In [45]:
pred_real_units

array([[  48165.05050842],
       [ 413419.63196884],
       [  97659.62163524],
       [  32866.70625046],
       [ 605863.22596736],
       [ 748481.36844411],
       [1249461.38905525],
       [  32025.2155385 ],
       [ 484670.42386312],
       [1583678.62333976],
       [ 435379.55449621],
       [  71595.7579373 ],
       [ 290989.40571867],
       [  37063.98043203],
       [  31204.85562127],
       [ 496059.10819074],
       [  64253.98359954],
       [ 977330.16383575],
       [ 152436.85155696],
       [1051959.9847997 ],
       [ 934638.63985036],
       [ 443250.82312786],
       [ 422686.89174035],
       [  55497.51157652],
       [ 620328.20834562],
       [ 230892.71315495],
       [ 215579.0771954 ],
       [ 451985.9908937 ],
       [ 999833.83773321],
       [1083296.31908437],
       [ 285921.79122867],
       [  68085.00385839],
       [ 911041.44318481],
       [1315453.81538712],
       [ 382940.018874  ],
       [ 183634.84257292],
       [ 672804.99259733],
 