# Лабароторная работа 1 | Машинное обучение

In [1]:
# Ссылка на гит-репозиторий: https://github.com/penolegrus/mlhomework
# импорт библиотек
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from datetime import datetime
import math

In [9]:
# фиксируем дату на которую считаются характеристики клиентов
imported_data = pd.read_csv('casc-resto.csv', sep=';', parse_dates = ['RKDate'], decimal=',')
fixed_date = datetime(2017, 7, 1)
fixed_date2 = datetime(2017, 12, 31)
imported_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 882222 entries, 0 to 882221
Data columns (total 9 columns):
CustomerID              882222 non-null int64
Restaurant              882222 non-null int64
RKDate                  882222 non-null datetime64[ns]
RegionName              882222 non-null object
BrandsNames             882222 non-null object
DishCategoryName        881608 non-null object
Quantity                882222 non-null int64
SummBasic               882222 non-null float64
SummAfterPointsUsage    882222 non-null float64
dtypes: datetime64[ns](1), float64(2), int64(3), object(3)
memory usage: 60.6+ MB


In [10]:
imda = imported_data.dropna()
# изменить некоторые названия блюд
imda.loc[:, 'DishCategoryName'] = imda['DishCategoryName'].replace(['АЛКОГОЛЬ', 'КОМБО'], ['ALCOHOL', 'COMBO'])
imda.loc[:, 'DishCategoryName'] = imda['DishCategoryName'].str.strip()

# изменить отрицательные значения
imda.loc[:, 'Quantity'] = imda['Quantity'].apply(lambda x: abs(x))
imda.loc[:, 'SummBasic'] = imda['SummBasic'].apply(lambda x: abs(x))
imda.loc[:, 'SummAfterPointsUsage'] = imda['SummAfterPointsUsage'].apply(lambda x: abs(x))
imda.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 881608 entries, 0 to 882221
Data columns (total 9 columns):
CustomerID              881608 non-null int64
Restaurant              881608 non-null int64
RKDate                  881608 non-null datetime64[ns]
RegionName              881608 non-null object
BrandsNames             881608 non-null object
DishCategoryName        881608 non-null object
Quantity                881608 non-null int64
SummBasic               881608 non-null float64
SummAfterPointsUsage    881608 non-null float64
dtypes: datetime64[ns](1), float64(2), int64(3), object(3)
memory usage: 67.3+ MB


In [14]:
# функция которая вычисляет параметры
def fun1(df):
    # Проверка визите в период между 2017-07-01 и 2017-12-31
    res = 0
    for date in df['RKDate']:
        if date >= fixed_date and date <= fixed_date2:
            res = 1
            break
    df['Target'] = res
    # Даты когда посещали клиенты до фикс. даты
    poseshenia = df[df['RKDate'] < fixed_date].RKDate
    if poseshenia.size == 0:
        df['Recency'] = 0
        df['Frequency'] = 0
        df['MonetaryValue'] = 0
        df['OrderSize'] = 0
    else:
        # кол-во дней до последнего визита клиента перед датой 2017-07-01
        df['Recency'] = (fixed_date - poseshenia.max()).days
        # среднее число походов в ресторан в 2017-07-01
        df['Frequency'] = poseshenia.size / math.ceil((fixed_date - poseshenia.min()).days / 30)
        # средний чек клиента  до 2017-07-01
        df['MonetaryValue'] = df['SummAfterPointsUsage'].sum() / poseshenia.unique().size
        # средний размер заказов клиента по всем покупкам до 2017-07-01
        df['OrderSize'] = df['Quantity'].sum() / poseshenia.unique().size
    return df

# Вычислить указанные в задаче параметры
done_data = imda.groupby('CustomerID').apply(fun1)
done_data = done_data.reset_index()

In [15]:
#перевести пол в число
def sex2number(sex_val):
    if sex_val == 'Male':
        return 1
    if sex_val == 'Female':
        return 0
    return 0.5

In [16]:
# прочитать данные из второго файла
another_stats = pd.read_csv('CASC_Constant.csv', usecols = ['CustomerId','Age','Sex'])
# заполнение пропусков в возрасте
age_mean = another_stats['Age'].mean()
another_stats['Age'] = another_stats['Age'].fillna(age_mean)
# перевод пола в число
another_stats['Sex'] = another_stats['Sex'].apply(sex2number)
another_stats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
CustomerId    10000 non-null int64
Age           10000 non-null float64
Sex           10000 non-null float64
dtypes: float64(2), int64(1)
memory usage: 234.5 KB


In [18]:
# совместить данные
mixed_info = pd.merge(done_data, another_stats, left_on=['CustomerID'], right_on=['CustomerId'])
mixed_info.info()
# подготовить данные к регрессии
X = mixed_info[['Recency', 'Frequency', 'MonetaryValue', 'OrderSize', 'Age', 'Sex']].to_numpy()
Y = mixed_info['Target'].to_numpy()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 881608 entries, 0 to 881607
Data columns (total 18 columns):
index                   881608 non-null int64
CustomerID              881608 non-null int64
Restaurant              881608 non-null int64
RKDate                  881608 non-null datetime64[ns]
RegionName              881608 non-null object
BrandsNames             881608 non-null object
DishCategoryName        881608 non-null object
Quantity                881608 non-null int64
SummBasic               881608 non-null float64
SummAfterPointsUsage    881608 non-null float64
Target                  881608 non-null int64
Recency                 881608 non-null int64
Frequency               881608 non-null float64
MonetaryValue           881608 non-null float64
OrderSize               881608 non-null float64
CustomerId              881608 non-null int64
Age                     881608 non-null float64
Sex                     881608 non-null float64
dtypes: datetime64[ns](1), float64(

In [19]:
# Создание и обучение логистической регрессии
# Разбиение данных на обучающее и тестовое подмножества
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state=42)
logistic_regression = LogisticRegression()
logistic_regression.fit(X_train, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [20]:
y_predicted = logistic_regression.predict(X_test)
print(confusion_matrix(y_test, y_predicted))
print(classification_report(y_test, y_predicted))

[[ 33306  25944]
 [  8338 108734]]
              precision    recall  f1-score   support

           0       0.80      0.56      0.66     59250
           1       0.81      0.93      0.86    117072

    accuracy                           0.81    176322
   macro avg       0.80      0.75      0.76    176322
weighted avg       0.80      0.81      0.80    176322

