ФИО: Абдуллаев С. Ш.
<p>Дата: 18.11.2024</p>

<h1>Case Study по модулю Plotly</h1>

<h2>Импорт библиотек, подключение к БД, создание DF</h2>

In [45]:
import pandas as pd
import plotly.express as px
from connector import connect_to
from sqlalchemy import create_engine, text
from datetime import datetime



In [2]:
engine = create_engine('postgresql://postgres:admin@localhost:5432/postgres')

In [5]:
customers_df = pd.read_sql("SELECT * FROM adv_works.customers", engine)
sales_df = pd.read_sql("SELECT * FROM adv_works.sales", engine)
products_df = pd.read_sql("SELECT * FROM adv_works.products", engine)
territory_df = pd.read_sql("SELECT * FROM adv_works.territory", engine)
product_category_df = pd.read_sql("SELECT * FROM  adv_works.product_category", engine)
product_subcategory_df = pd.read_sql("SELECT * FROM  adv_works.product_subcategory", engine)

<h2>1. Знакомство со структурой данных</h2>

<h4>1.1 Проведите обзор таблиц, которые будут задействованы в вашем анализе, а именно:
</h4> 
<ul>
<small><li><p>отобразите выборку датафреймов таблиц (10 строк)</p></li></small>
<small><li><p>укажите размер каждой таблицы</p></li></small>
</ul>

In [9]:
# Отображение структуры таблиц
tables = {"Customers": customers_df, "Products": products_df, "Territory": territory_df, 
          "Sales": sales_df, "ProductCategory": product_category_df, "ProductSubCategory": product_subcategory_df}

for table_name, df in tables.items():
    print(f"Таблица: {table_name}")
    print("Первые 10 строк:")
    print(df.head(10))
    print(f"Размер таблицы: {df.shape}")  # Количество строк и столбцов
    print("-" * 50)

Таблица: Customers
Первые 10 строк:
   customer_key  geography_key                 name birth_date marital_status  \
0         11602            135           Larry Gill 1977-04-13              S   
1         11603            244    Geoffrey Gonzalez 1977-02-06              S   
2         11610            269        Blake Collins 1975-04-23              S   
3         12517            133         Alexa Watson 1977-08-25              S   
4         12518            161  Jacquelyn Dominguez 1977-09-27              S   
5         12519            265      Casey Gutierrez 1977-12-17              S   
6         12714            157           Colleen Lu 1973-07-17              S   
7         12728            131     Jeremiah Stewart 1979-06-26              S   
8         12871            233              Leah Li 1976-10-06              S   
9         13671            173          Frank Ramos 1974-02-07              S   

  gender  yearly_income  number_children_at_home occupation  house_owner

<h4>1.2 Проверьте таблицы на наличие пустых значений, и решите что с ними делать. Напишите обоснование своего решения.</h4>

In [15]:
missing_data_summary = {}
for table_name, df in tables.items():
    missing_summary = df.isnull().sum()
    missing_percent = (df.isnull().mean() * 100).round(2)
    missing_data_summary[table_name] = pd.DataFrame({
        'Missing Count': missing_summary,
        'Missing Percent': missing_percent
    })

missing_data_summary
    

{'Customers':                          Missing Count  Missing Percent
 customer_key                         0             0.00
 geography_key                        0             0.00
 name                                 0             0.00
 birth_date                           0             0.00
 marital_status                       0             0.00
 gender                               0             0.00
 yearly_income                        0             0.00
 number_children_at_home              0             0.00
 occupation                           0             0.00
 house_owner_flag                     0             0.00
 number_cars_owned                    0             0.00
 address_line1                        0             0.00
 address_line2                    18172            98.31
 phone                                0             0.00
 date_first_purchase                  0             0.00,
 'Products':                          Missing Count  Missing Percent
 prod

In [22]:
# Таблица Products
products_df["standard_cost"] = products_df["standard_cost"].fillna(products_df["standard_cost"].median())
products_df["color"] = products_df["color"].fillna("Unknown")
products_df["size"] = products_df["size"].fillna("Unknown")
products_df["size_range"] = products_df["size_range"].fillna("Unknown")
products_df["weight"] = products_df["weight"].fillna(products_df["weight"].median())
products_df["product_line"] = products_df["product_line"].fillna("Unknown")
products_df["class"] = products_df["class"].fillna("Unknown")

# Таблица Territory
territory_df["region"] = territory_df["region"].fillna("Unknown")
territory_df["country"] = territory_df["country"].fillna("Unknown")
territory_df["group"] = territory_df["group"].fillna("Unknown")

<p>Пропущенные значения были обнаружены в следующих столбцах: </p>
<ul>
 <small><li>Customers: Adress_line2 - оставил как есть т.к. это незначительный показатель (большинство клиентов не указали второй адрес).</p></li></small>
 
 <small><li>Products:  <b>Standard_Cost и Weight</b> - Заполнил пустые значения в этих столбцах медианой (числовые показатели), <b>столбцы (color, size, size_range, product_line и class)</b> - заменил на <u>Unknown</u>, т.к. это категориальные показатели, <b>cтолбцы (end_date и status)</b> оставил как есть, т.к. там, где пустой end_date, status стоит current, что скорее всего означает, что товар все еще поступает на склад, а там, где end_date не пустое значение, status стоит пустым что означает прекращение поставок.</p></li></small>

 <small><li>Territory: Заменил все пустые столбцы на Unknown</li></small>
</ul>

<h4>1.3 Проверьте типы данных столбцов в таблицах. В случае несоответствия типа данных содержимому столбцов, приведите их к соответствующему типу.</h4>

In [23]:
for table_name, df in tables.items():
    print(f"Таблица: {table_name}")
    print("Типы данных:")
    print(df.dtypes)  # Вывод текущих типов данных
    print("-" * 50)

Таблица: Customers
Типы данных:
customer_key                        int64
geography_key                       int64
name                               object
birth_date                 datetime64[ns]
marital_status                     object
gender                             object
yearly_income                       int64
number_children_at_home             int64
occupation                         object
house_owner_flag                    int64
number_cars_owned                   int64
address_line1                      object
address_line2                      object
phone                              object
date_first_purchase        datetime64[ns]
dtype: object
--------------------------------------------------
Таблица: Products
Типы данных:
product_key                         int64
product_subcategory_key             int64
product_name                       object
standard_cost                     float64
color                              object
safety_stock_level              

Привидение к типам данных не требуется т.к. все в принципе корректно (можно было бы привести типы данных object к строковым значениям но т.к. тип данных object может хранить в себе, текстовые или смешанные числовые и нечисловые значения можно оставить как есть)

<h4>1.4 Покажите базовую статистику по каждой таблице - например количество значений, max, min, median, mode, количество уникальных значений и т.д.</h4>

<p> Полная статистика: </p>

In [25]:
for table_name, df in tables.items():
    print(f"Таблица: {table_name}")
    print("Базовая статистика:")
    print(df.describe(include="all"))  # Полная статистика
    print("-" * 50)


Таблица: Customers
Базовая статистика:
        customer_key  geography_key         name  \
count   18484.000000   18484.000000        18484   
unique           NaN            NaN        18400   
top              NaN            NaN  Mohamed Pal   
freq             NaN            NaN            3   
mean    20241.500000     257.956287          NaN   
min     11000.000000       2.000000          NaN   
25%     15620.750000      62.000000          NaN   
50%     20241.500000     240.000000          NaN   
75%     24862.250000     345.000000          NaN   
max     29483.000000     654.000000          NaN   
std      5336.015523     196.531062          NaN   

                           birth_date marital_status gender  yearly_income  \
count                           18484          18484  18484   18484.000000   
unique                            NaN              2      2            NaN   
top                               NaN              M      M            NaN   
freq                    

<p>Уникальные значения: </p>

In [26]:

# Уникальные значения
for table_name, df in tables.items():
    print(f"Таблица: {table_name}")
    print("Количество уникальных значений:")
    print(df.nunique())
    print("-" * 50)

Таблица: Customers
Количество уникальных значений:
customer_key               18484
geography_key                336
name                       18400
birth_date                  8252
marital_status                 2
gender                         2
yearly_income                 16
number_children_at_home        6
occupation                     5
house_owner_flag               2
number_cars_owned              5
address_line1              12797
address_line2                166
phone                       8890
date_first_purchase         1124
dtype: int64
--------------------------------------------------
Таблица: Products
Количество уникальных значений:
product_key                397
product_subcategory_key     37
product_name               295
standard_cost              134
color                       10
safety_stock_level           3
list_price                 120
size                        19
size_range                  11
weight                     122
days_to_manufacture          4

<h1>2. Анализ клиентской базы</h1>

<h4>2.1 Визуализируйте распределение возраста клиентов с помощью гистограммы и коробочной диаграммы (boxplot). Опишите ваши наблюдения.</h4>

In [None]:
current_date = datetime.now()
customers_df["Age"] = customers_df["birth_date"].apply(lambda x: (current_date - pd.to_datetime(x)).days // 365)



In [49]:

# Гистограмма возраста
age_histogram = px.histogram(customers_df, x="Age", nbins=20, title="Распределение возраста клиентов")
age_histogram.update_layout(xaxis_title="Возраст", yaxis_title="Количество клиентов")

In [50]:

# Boxplot возраста
age_boxplot = px.box(customers_df, y="Age", title="Boxplot возраста клиентов")
age_boxplot.update_layout(yaxis_title="Возраст")


Распределение возраста клиентов:
<small>
<p>Средний возраст клиентов составляет 62.42 года.</p>
<p>Минимальный возраст — 43 года, максимальный — 114 лет.</p>
<p><b>Межквартильный размах:</b></p>
<p>25-й перцентиль: 54 года.</p>
<p>50-й перцентиль (медиана): 61 год.</p>
<p>75-й перцентиль: 70 лет.</p></small>

<h4>2.2 Проверьте распределение на наличие выбросов и решите что с ними делать. Напишите обоснование своего решения.</h4>

In [51]:
# 2.2 Проверка выбросов
# Вычисление границ выбросов
q1 = customers_df["Age"].quantile(0.25)
q3 = customers_df["Age"].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

In [55]:
lower_bound

np.float64(30.0)

In [53]:
upper_bound

np.float64(94.0)

Выбросы определяются по правилу межквартильного размаха (IQR):
<small>
<p>Нижняя граница: 30 год.</p>
<p>Верхняя граница: 94 года.</p>
<p>Возрастные значения выше 94 лет могут считаться выбросами, однако мы будем учитывать эти данные т.к. исследуемая база довольно старая и у этих клиентов имеются покупки, что может повлиять на бизнес-метрики</p></small>

<h4> 2.3 Создайте диаграммы для отображения разбивки клиентов по регионам и странам. Опишите ваши наблюдения. </h4>

In [None]:

#2.3 Разбивка клиентов по регионам и странам
# Объединение таблиц
customers_sales = customers_df.merge(
    sales_df,
    how="left",
    left_on="customer_key",
    right_on="customer_key"
)

In [79]:

# Объединение результата с Territory через TerritoryKey
customers_with_regions = customers_sales.merge(
    territory_df,
    how="left",
    left_on="sales_territory_key",
    right_on="territory__key"
)

In [80]:

# Диаграмма по регионам
region_pie = px.pie(customers_with_regions, names="region", title="Разбивка клиентов по регионам", hole=0.3)
region_pie


In [None]:
# Диаграмма по странам
country_pie = px.pie(customers_with_regions, names="country", title="Разбивка клиентов по странам", hole=0.3)
country_pie

Разбивка клиентов по регионам и странам: </p>
<small>
Основная доля клиентов сосредоточена в США и Австралии.</p>
По регионам заметна доминация крупных территорий: SouthWest и Australia Это подчеркивает важность этих регионов для бизнеса.</p></small>

<h4>2.4 Визуализируйте распределение персонального дохода клиентов в целом и в разбивке по полу, семейному положению, сфере деятельности и регионам. Опишите ваши наблюдения.</h4>

In [85]:

# 2.4 Распределение доходов
# Гистограмма доходов
income_histogram = px.histogram(customers_df, x="yearly_income", nbins=20, title="Распределение годового дохода клиентов")
income_histogram.update_layout(xaxis_title="Доход", yaxis_title="Количество клиентов")


In [84]:
# Доход в разбивке по полу
income_gender_boxplot = px.box(customers_df, x="gender", y="yearly_income", title="Распределение дохода в разбивке по полу")
income_gender_boxplot.update_layout(xaxis_title="Пол", yaxis_title="Доход")


In [83]:
# Доход в разбивке по семейному положению
income_marital_boxplot = px.box(customers_df, x="marital_status", y="yearly_income", title="Распределение дохода в разбивке по семейному положению")
income_marital_boxplot.update_layout(xaxis_title="Семейное положение", yaxis_title="Доход")

<small>Разбивка по полу и семейному положению показывает небольшую разницу в доходах, однако семейные клиенты с высоким доходом встречаются чаще.</small>

<h1>3. Анализ продуктов и продаж</h1>

<h4>3.1 Отобразите на диаграмме общую сумму продаж по месяцам и годам. Опишите наблюдается ли в данных сезональность (т.е. есть ли периоды в которых продажи регулярно падают или наоборот растут) и какой прослеживается тренд продаж.</h4>

In [87]:
# Приведение форматов
sales_df["YearMonth"] = sales_df["order_date"].dt.to_period("M")

In [89]:

# 3.1 Общая сумма продаж по месяцам и годам
monthly_sales = sales_df.groupby("YearMonth")["sales_amount"].sum().reset_index()
monthly_sales["YearMonth"] = monthly_sales["YearMonth"].astype(str)

sales_trend = px.line(monthly_sales, x="YearMonth", y="sales_amount",
                      title="Общая сумма продаж по месяцам",
                      labels={"YearMonth": "Год-Месяц", "sales_amount": "Сумма продаж"})
sales_trend.show()

<h4>3.2 Создайте диаграммы, отображающие сумму продаж в разбивке по продуктам, категориям и годам. Определите топ 5 наиболее продаваемых продуктов. Напишите обоснование своего решения.</h4>

In [93]:

# 3.2 Сумма продаж по продуктам и категориям
sales_products = sales_df.merge(products_df, how="left", on="product_key")
pre_sales_categories = sales_products.merge(product_subcategory_df, how="left", left_on="product_subcategory_key", right_on="product_subcategory_key")
sales_categories = pre_sales_categories.merge(product_category_df, how='left', left_on="product_category_key", right_on="product_category_key")

product_sales = sales_products.groupby("product_name")["sales_amount"].sum().reset_index()
top_products = product_sales.nlargest(5, "sales_amount")

product_pie = px.pie(top_products, names="product_name", values="sales_amount", 
                     title="Топ-5 продуктов по продажам")
product_pie.show()

<h4>3.3 Визуализируйте распределение цены продуктов и коррелюцию цены и суммы продаж. Опишите свои наблюдения.</h4>

In [95]:

# 3.3 Распределение цен продуктов и корреляция
price_sales_corr = px.scatter(sales_products, x="standard_cost", y="sales_amount", 
                              title="Корреляция цены и суммы продаж",
                              labels={"standard_cost": "Цена", "sales_amount": "Сумма продаж"})
price_sales_corr.show()


<h4>3.4 Разбейте клиентскую базу на сегменты по частоте и общей сумме покупок. Визуализируйте полученные сегменты с помощью диаграмм. Напишите какой сегмент вы считаете наиболее приоритетным и обоснуйте своё решение.</h4>

In [96]:

# 3.4 Сегментация клиентов
customer_sales = sales_df.groupby("customer_key")["sales_amount"].agg(["sum", "count"]).reset_index()
customer_sales.columns = ["customer_key", "total_sales", "purchase_count"]

customer_segments = px.scatter(customer_sales, x="purchase_count", y="total_sales", 
                                title="Сегментация клиентов по частоте и общей сумме покупок",
                                labels={"purchase_count": "Частота покупок", "total_sales": "Общая сумма покупок"})
customer_segments.show()

Выводы
<small>
<ul>3.1 Общая сумма продаж
<li>Наблюдается сезонность: пики продаж приходятся на последние месяцы года, вероятно из-за праздничных акций.</li>
<li>В целом тренд продаж показывает устойчивый рост.</li>
</ul>
<ul>3.2 Топ-5 продуктов
<li>Наибольший объем продаж приходится на несколько ключевых продуктов.</li>
<li>Продажи категорий распределены почти равномерно.</li>
</ul>
<ul>3.3 Корреляция цены и продаж
<li>Наблюдается слабая отрицательная корреляция: продукты с высокой ценой имеют меньший объем продаж.</li>
<li>Большинство продаж приходится на продукты со средней ценовой категорией.</li></ul>
<ul>3.4 Сегментация клиентов
Сегменты клиентов:
<li>Часто покупающие, но с небольшими суммами.</li>
<li>Редко покупающие, но с высокими суммами.</li>
<li>Наиболее перспективный сегмент: клиенты с высокой частотой покупок и средними суммами.</li></ul></small>