ВВЕДЕНИЕ
В данном файле будет проведен разведочный анализ данных (EDA) датасета, взятого с сайта kaggle.com.

Исходные данные с kaggle.com: https://www.kaggle.com/datasets/imranalishahh/sales-and-customer-insights
Ссылка на датасет в Google Drive: https://drive.google.com/file/d/1j7ZAFLYStESJoCrkH0-bLctoxV75djUf/view?usp=sharing

Данный датасет представляет собой результаты опроса студентов по уровню депрессии, собранные в рамках исследования факторов психического здоровья студентов в виде таблицы по 15 признакам:

Customer_ID - уникальный идентификатор клиента;
Product_ID - уникальный идентификатор товара;
Transaction_ID - уникальный идентификатор покупки (транзакции);
Purchase_Frequency - количество покупок клиента за период;
Average_Order_Value - средний чек клиента;
Most_Frequent_Category - категория товаров, которую клиент покупает чаще всего;
Time_Between_Purchases - среднее количество дней между покупками;
Region - географический регион, в котором находится клиент;
Churn_Probability - вероятность того, что клиент уйдет (отток);
Lifetime_Value - прогнозируемая общая стоимость клиента за всё время сотрудничества;
Launch_Date - дата запуска продукта;
Peak_Sales_Date - дата пиковых продаж для этого клиента или продукта;
Season - сезон пика продаж;
Preferred_Purchase_Times - время суток, когда клиент чаще всего совершает покупки;
Retention_Strategy - стратегия удержания клиента.

ЦЕЛЬ АНАЛИЗА ДАННЫХ
Определить зависимость наличия (или отсутствия) депрессии у студентов от таких признаков, как Academic Pressure, CGPA, Study Satisfaction, Work/Study Hours, Sleep Duration в соответствии с нижеперечисленными требованиями:
оценка структуры;
оценка целостности и полноты;
оценка выбросов и аномалий;
метрики качества данных;
выводы по разделам.


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'notebook'


file_id = "1j7ZAFLYStESJoCrkH0-bLctoxV75djUf"
file_url = f"https://drive.google.com/uc?id={file_id}"
df = pd.read_csv(file_url)

Выведем первые и последние 10 строк датасета:

In [3]:
df.head(10)

Unnamed: 0,Customer_ID,Product_ID,Transaction_ID,Purchase_Frequency,Average_Order_Value,Most_Frequent_Category,Time_Between_Purchases,Region,Churn_Probability,Lifetime_Value,Launch_Date,Peak_Sales_Date,Season,Preferred_Purchase_Times,Retention_Strategy
0,CUST_9HOS83,PROD_IK97D1,TRANS_II1DZG,17,172.57,Electronics,45,South America,0.98,952.81,2020-03-14,2023-09-11,Winter,Afternoon,Loyalty Program
1,CUST_AJU17N,PROD_UNN7KP,TRANS_9HJF7I,10,64.89,Clothing,6,South America,0.66,5427.51,2022-10-15,2023-01-02,Spring,Afternoon,Discount
2,CUST_11XNYF,PROD_0XEW2W,TRANS_OT96OM,3,120.38,Sports,23,Asia,0.6,3994.8,2021-11-30,2023-04-06,Winter,Evening,Loyalty Program
3,CUST_IGH8G3,PROD_3IIAJN,TRANS_45V00G,12,70.34,Clothing,5,North America,0.78,4880.01,2022-03-20,2023-03-23,Spring,Evening,Discount
4,CUST_OK6PUM,PROD_VMIWD2,TRANS_ZAK760,18,42.39,Electronics,10,North America,0.52,8557.7,2022-11-09,2023-10-28,Spring,Morning,Discount
5,CUST_63F5GB,PROD_L0NAD5,TRANS_HI4MBV,12,132.9,Electronics,42,Europe,0.25,8215.33,2020-12-26,2023-12-09,Winter,Evening,Loyalty Program
6,CUST_P9K9F2,PROD_CVVCB0,TRANS_X0MXCI,16,128.43,Clothing,38,Europe,0.94,7031.07,2022-03-15,2023-09-06,Summer,Afternoon,Email Campaign
7,CUST_EMHZQV,PROD_PVOV5L,TRANS_9B8B46,10,67.52,Electronics,56,Asia,0.56,5167.16,2021-02-17,2023-06-12,Summer,Afternoon,Discount
8,CUST_8E2Q1K,PROD_MG36BV,TRANS_AZ1OW8,7,165.26,Electronics,73,Europe,0.17,9943.51,2021-03-28,2023-02-05,Winter,Evening,Loyalty Program
9,CUST_4VB1T5,PROD_DKK6UZ,TRANS_AC3353,6,52.86,Home,60,North America,0.59,9978.11,2021-08-16,2023-10-06,Winter,Evening,Loyalty Program


In [4]:
df.tail(10)

Unnamed: 0,Customer_ID,Product_ID,Transaction_ID,Purchase_Frequency,Average_Order_Value,Most_Frequent_Category,Time_Between_Purchases,Region,Churn_Probability,Lifetime_Value,Launch_Date,Peak_Sales_Date,Season,Preferred_Purchase_Times,Retention_Strategy
9990,CUST_YS62WF,PROD_XWOHK5,TRANS_OYHBTJ,3,160.03,Home,86,Asia,0.97,3836.21,2022-07-04,2023-02-24,Spring,Morning,Email Campaign
9991,CUST_0HGSIM,PROD_IRMPBR,TRANS_O6T8X2,8,116.37,Sports,73,South America,0.98,325.87,2022-07-09,2023-05-25,Winter,Afternoon,Loyalty Program
9992,CUST_LRGIIG,PROD_ZHK3A0,TRANS_0FGK18,6,131.72,Sports,6,Europe,0.22,8260.91,2021-07-01,2023-01-08,Spring,Evening,Discount
9993,CUST_EQM9Y4,PROD_K3Y4BL,TRANS_STZEZO,17,41.78,Electronics,68,South America,0.49,4006.52,2021-08-08,2023-02-17,Winter,Afternoon,Email Campaign
9994,CUST_929WCK,PROD_PQ6AF5,TRANS_L2CSF0,14,169.43,Electronics,68,South America,0.86,7160.7,2020-10-03,2023-10-08,Spring,Morning,Email Campaign
9995,CUST_BIH0QW,PROD_AAPCHD,TRANS_EP2EGL,15,162.51,Clothing,72,Europe,0.84,1154.61,2022-03-04,2023-02-10,Winter,Evening,Loyalty Program
9996,CUST_DWJAD2,PROD_XWJQE5,TRANS_X7OPB7,18,63.02,Clothing,68,Europe,0.03,593.22,2021-08-21,2023-02-06,Spring,Morning,Loyalty Program
9997,CUST_43HBYL,PROD_PL3BU5,TRANS_VSZM3Y,15,116.8,Home,72,Asia,0.61,4676.35,2020-09-13,2023-05-05,Spring,Evening,Discount
9998,CUST_0SX4MD,PROD_X5O49V,TRANS_B2YCHY,12,144.21,Electronics,38,North America,0.05,6850.85,2020-01-26,2023-08-03,Summer,Morning,Discount
9999,CUST_U1AP5I,PROD_CTS1GQ,TRANS_IBPVC5,3,91.32,Electronics,6,Europe,0.67,1549.0,2021-04-17,2023-01-25,Fall,Morning,Discount
