<a href="https://colab.research.google.com/github/Digitall-Ivan/Data_Analytics_course/blob/main/Ivan_Zakorchevnyi_HW4_Visualization_with_Plotly.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Домашнє завдання: Інтерактивні візуалізації з Plotly

## Опис завдання
У цьому домашньому завданні ви будете створювати інтерактивні візуалізації з допомогою бібліотеки Plotly. Ви дізнаєтесь різницю між Plotly Express (швидкі графіки) та Graph Objects (повний контроль), та створите інтерактивний дашборд.

**Опис колонок:**
- `datetime` - дата та час
- `season` - сезон (1=весна, 2=літо, 3=осінь, 4=зима)
- `holiday` - чи є день святковим (0=ні, 1=так)
- `workingday` - чи є день робочим (0=ні, 1=так)
- `weather` - погодні умови (1=ясно, 2=туман, 3=легкий дощ, 4=сильний дощ)
- `temp` - температура в градусах Цельсія
- `atemp` - відчувається як температура
- `humidity` - вологість (%)
- `windspeed` - швидкість вітру
- `casual` - кількість випадкових користувачів
- `registered` - кількість зареєстрованих користувачів
- `count` - загальна кількість орендованих велосипедів

## Підготовка даних


In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import numpy as np

# Завантаження даних
df = pd.read_csv('/content/drive/MyDrive/I LOVE DATA EDU COURSE/RAWDATA/yulu_rental.csv')
df['datetime'] = pd.to_datetime(df['datetime'])

# Для plotly краще не встановлювати datetime як індекс
df['month'] = df['datetime'].dt.month
df['hour'] = df['datetime'].dt.hour
df['weekday'] = df['datetime'].dt.day_name()

# Додаємо назви сезонів
season_map = {1: 'Весна', 2: 'Літо', 3: 'Осінь', 4: 'Зима'}
df['season_name'] = df['season'].map(season_map)

## Завдання 1: Базовий інтерактивний лінійний графік (Plotly Express)

**Завдання:**
Створіть інтерактивний лінійний графік динаміки оренди за часом (рівень деталізації - як в даних) з можливістю zoom та hover.

Дайте відповіді на питання.
**Питання для інтерпретації:**
1. Яка перевага інтерактивного графіка над статичним?
2. Чому на графіку є "пробіли" - ділянки, де одна пряма лінія зʼєднує два "суцільних" блоки з даними? Як би ви це могли дослідити на статичному графіку?


In [3]:
fig = px.line(
    df,
    x=df.index,
    y='count',
    title='Динаміка оренди велосипедів за часом',
    labels={'count': 'Кількість оренд', 'datetime': 'Час'}
)

fig.update_traces(mode='lines+markers')
fig.update_layout(
    xaxis_title='Час',
    yaxis_title='Кількість оренд',
    hovermode='x unified',    # Підказка по всіх серіях на одному x
    template='plotly_white'   # Світла тема (або 'ggplot2', 'simple_white' тощо)
)

fig.show()

***Яка перевага інтерактивного графіка над статичним?***
Інтерактивний графік більщ гнучкий та дозволяє більш детально переглянути окремі області графіку, ознайомитися з даними в окремих критичних екстремальних точках.   
***Чому на графіку є "пробіли" - ділянки, де одна пряма лінія зʼєднує два "суцільних" блоки з даними? Як би ви це могли дослідити на статичному графіку?*** "Пробіли" на інтерактивному графіку Plotly - це ділянки, де можуть бути відсутні дані, і лінія раптово перескакує між двома далекими точками по осі X, утворюючи візуальний “розрив”. Plotly за замовчуванням з’єднує лінією найближчі сусідні точки, якщо проміжні значення відсутні. На статичному графіку можна відмітити пропущені періоди окремим кольором/символом, а також доддатково побудувати scatter plot — щоб побачити, де саме немає точок.





## Завдання 2: Scatter plot з додатковими даними (Plotly Express)

**Завдання:**
Створіть scatter plot кількості орендованих велосипедів випадковими користувачами vs кількості орендованих велосипедів зареєстрованими користувачами. Розмір точок встановіть за сумарною кількістю велосипедів, які були взяті в оренду, а колір - за сезоном. В hover_data - додайте деталі, які допоможуть вам в подальшому аналізі.

Дослідіть графік. Зверніть увагу, що ви можете вмикати і вимикати окремі сезони, якщо будете клікати на колір сезону в легенді графіку.

**Дайте відповідь на питання.**
- Як ви проінтерпретуєте роздвоєність цього графіку (дві явні лінії)? Що це означає?
- Які висновки для компанії, які дає велосипеди в оренду, ви можете зробити з цього графіку? 3 основних висновки.

In [8]:
season_map = {1: 'Весна', 2: 'Літо', 3: 'Осінь', 4: 'Зима'}
df['season_name'] = df['season'].map(season_map)

fig = px.scatter(
    df,
    x='casual',
    y='registered',
    size='count',
    color='season_name',
    hover_data=['count', 'temp', 'humidity', 'windspeed', 'datetime', 'weekday', 'season_name'],
    title='Оренда велосипедів: Випадкові vs Зареєстровані користувачі',
    labels={
        'casual': 'Випадкові користувачі',
        'registered': 'Зареєстровані користувачі',
        'count': 'Сумарно оренд',
        'season_name': 'Сезон'
    },
    template='plotly_white',
    opacity=0.7,
    width=950,
    height=600
)
fig.update_layout(legend_title_text='Сезон')
fig.show()

***Як ви проінтерпретуєте роздвоєність цього графіку (дві явні лінії)? Що це означає?*** Роздвоєність означає, що за однакової кількості оренд випадковими користувачами кількість оренд зареєстрованими часто буває або дуже високою, або дуже низькою - дуже мало проміжних варіантів. Це може свідчити про наявність різних поведінкових патернів у різні дні тижня (наприклад, робочі дні та вихідні) та сезонні ефекти  влітку та взимку дуже різна структура попиту).

***Які висновки для компанії, які дає велосипеди в оренду, ви можете зробити з цього графіку? *** 3 основних висновки:

1.   Зареєстровані та випадкові користувачі сервісу відрізняються за поведінкою: зареєстровані більш постійні, активно користуються сервісом навіть коли випадкових оренд мало (наприклад, у будні), тоді як випадкові користувачі — пікові, їх стає багато в окремі дні/сезони (наприклад, вихідні, свята, літо).
2.   Бажано диференціювати маркетингові активності та торгові пропозиції: для зареєстрованих будуть ефективними програми лояльності, абонементи, персоналізовані пропозиції на робочі дні, тоді як для випадкових - важливі акції, яскрава реклама на вихідні, у гарну погоду, партнерства з туристичними точками чи івентами.
3. Попит на оренду залежить від дня тижня/сезону, тому варто оптимізувати розміщення велосипедів та їх обслуговування: у пікові дні варто збільшувати кількість доступних велосипедів та покращувати обслуговування пунктів прокату, у звичайні робочі дні зробити акценти на активації зареєстрованих користувачів та детально прогнозувати попит аудиторії, щоб оптимально використовувати ресурси та збільшити прибуток.





## Завдання 3: Порівняння Plotly Express vs Graph Objects

**Завдання:**
Створіть лінійний графік помісячної динаміки оренди велосипедів двома способами - з Plotly Express та з Graph Objects.

**Дайте відповіді на питання.**
1. Як ви розумієте основну різницю між цими двома підходами?
2. Коли краще використовувати Plotly Express?
3. Коли потрібен Graph Objects?


In [15]:
df['datetime'] = pd.to_datetime(df['datetime'])
df = df.set_index('datetime')

monthly = df.resample('ME')['count'].mean()

import plotly.express as px
fig_px = px.line(
    x=monthly.index,
    y=monthly.values,
    labels={'x': 'Місяць', 'y': 'Середня кількість оренд'},
    title='Динаміка оренди велосипедів по місяцях (Plotly Express)'
)
fig_px.show()

In [17]:
fig_go = go.Figure()
fig_go.add_trace(go.Scatter(
    x=monthly.index,
    y=monthly.values,
    mode='lines+markers',
    name='Оренди'
))
fig_go.update_layout(
    title='Динаміка оренди велосипедів по місяцях (Graph Objects)',
    xaxis_title='Місяць',
    yaxis_title='Середня кількість оренд',
    template='plotly_white'
)
fig_go.show()

***Як ви розумієте основну різницю між цими двома підходами?***
Plotly Express більш підходить для швидкого старту, автоматичного стилю, добре підходить для 1-2 рядів даних та стандартних графіків. Створює фігуру однією командою, всі параметри — як у функції. Graph Objects дає більш повний контроль - дозволяє додавати кілька слоїв/серій, комбінувати різні типи графіків, вручну налаштовувати кожен елемент. ***Коли краще використовувати Plotly Express?*** Коли треба швидко подивитись дані - пару графіків, без складної кастомізації, з використанням стандартних опцій (тип графіка, підписи, колір, size, hover тощо). ***Коли потрібен Graph Objects?*** Коли треба детально налаштувати кожен шар, криву чи аннотацію. Якщо потрібно додати кілька різних типів графіків (наприклад, лінія + кілька осей). Для детальних звітів, де кожен елемент має бути кастомізований.


## Завдання 4: Дашборд з make_subplots (Graph Objects)

**Завдання:**
Створіть дашборд з 4 різними графіками в одній фігурі:
- Bar chart - середні значення загальної кількості оренд велосипедів за сезонами
- Pie chart - відсоткове співвідношення погодних умов в даних
- Line chart - середнє значення загальної кількості оренд велосипедів за годинами протягом доби
- Scatter plot - кореляція температури vs вологість

Додайте заголовок на дашборд.

**Дайте відповідь на питання**
- На ваш погляд, яка перевага об'єднання графіків в один дашборд?

In [18]:
season_map = {1: 'Весна', 2: 'Літо', 3: 'Осінь', 4: 'Зима'}
weather_map = {1: 'Ясно', 2: 'Туман', 3: 'Легкий дощ', 4: 'Сильний дощ'}
df['season_name'] = df['season'].map(season_map)
df['weather_desc'] = df['weather'].map(weather_map)

avg_season = df.groupby('season_name')['count'].mean().reindex(['Весна','Літо','Осінь','Зима'])
weather_counts = df['weather_desc'].value_counts().reindex(['Ясно','Туман','Легкий дощ','Сильний дощ'])
avg_by_hour = df.groupby('hour')['count'].mean()
scatter_x = df['temp']
scatter_y = df['humidity']

# Дашборд
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=(
        "Середня кількість оренд за сезонами",
        "Погода (відсоткове співвідношення)",
        "Середня кількість оренд за годинами",
        "Температура vs Вологість"
    ),
    specs=[[{"type": "bar"}, {"type": "pie"}],
           [{"type": "xy"}, {"type": "scatter"}]]
)

# 1. Bar Chart (1,1)
fig.add_trace(
    go.Bar(
        x=avg_season.index,
        y=avg_season.values,
        marker_color=['#8ecae6', '#219ebc', '#ffb703', '#fb8500'],
        name="Середня кількість оренд"
    ),
    row=1, col=1
)

# 2. Pie Chart (1,2)
fig.add_trace(
    go.Pie(
        labels=weather_counts.index,
        values=weather_counts.values,
        marker=dict(colors=['#5cb85c', '#f0ad4e', '#5bc0de', '#d9534f']),
        hole=0.35,
        name="Погода"
    ),
    row=1, col=2
)

# 3. Line Chart (2,1)
fig.add_trace(
    go.Scatter(
        x=avg_by_hour.index,
        y=avg_by_hour.values,
        mode='lines+markers',
        line=dict(color='#4361ee'),
        name="Оренди по годинах"
    ),
    row=2, col=1
)

# 4. Scatter Plot (2,2)
fig.add_trace(
    go.Scatter(
        x=scatter_x,
        y=scatter_y,
        mode='markers',
        marker=dict(color='#f72585', size=6, opacity=0.5),
        name="Temp vs Humidity"
    ),
    row=2, col=2
)

fig.update_layout(
    height=900, width=1150,
    title_text="Дашборд з даними про оренду велосипедів",
    title_font_size=24,
    showlegend=False,
    template="plotly_white"
)

fig.update_xaxes(title_text="Сезон", row=1, col=1)
fig.update_yaxes(title_text="Середня кількість оренд", row=1, col=1)
fig.update_xaxes(title_text="Година", row=2, col=1)
fig.update_yaxes(title_text="Середня кількість оренд", row=2, col=1)
fig.update_xaxes(title_text="Температура, °C", row=2, col=2)
fig.update_yaxes(title_text="Вологість, %", row=2, col=2)

fig.show()

***На ваш погляд, яка перевага об'єднання графіків в один дашборд?*** На мій погляд, дашборд дає більш цілісну картину - дозволяє одночасно побачити різні аспекти даних та порівнювати їх на одному екрані. Мені це допомагає глибше розуміти зв’язки між різними показниками, а також знаходити приховані закономірності, коли дивишся на кілька зрізів даних даних одночасно (наприклад, сезонність та вплив погодніх умов). Також це допомагає економити часу - не потрібно перемикатися між різними графіками або листами, вся ключова інформація зібрана в одному місці, можна швидко зробити висновки чи приймати рішення. З'являється  можливість порівняння різних метрик - одночасно бачити сезонний розподіл, вплив погодних умов, щогодинну динаміку та відразу оцінювати їх взаємозв’язки.

## Завдання 5: 3D візуалізація

**Завдання:**
Створіть 3D scatter plot для аналізу взаємозв'язку температури, швидкості вітру та загальної кількості орендованих велосипедів. Колір встановіть за сезоном, а розмір - за загальною кількість оренд також.

Дайте відповіді на питання.
**Питання для інтерпретації:**
1. Яку додаткову інформацію, на ваш погляд, дає 3D візуалізація?
2. Чи видно кластери в 3D просторі?
3. Чи ви можете зробити висновки з цієї візуалізації, чи вам було простіше побудувати кілька 2D?



In [19]:
season_map = {1: 'Весна', 2: 'Літо', 3: 'Осінь', 4: 'Зима'}
df['season_name'] = df['season'].map(season_map)

fig = px.scatter_3d(
    df,
    x='temp',
    y='windspeed',
    z='count',
    color='season_name',
    size='count',
    opacity=0.7,
    title="3D Scatter: Температура, Вітер, Кількість оренд (за сезонами)",
    labels={
        'temp': 'Температура (°C)',
        'windspeed': 'Швидкість вітру',
        'count': 'Кількість оренд',
        'season_name': 'Сезон'
    }
)
fig.update_layout(height=700)
fig.show()

***Яку додаткову інформацію, на ваш погляд, дає 3D візуалізація?***
3D візуалізація дозволяє одночасно побачити взаємозв’язок одразу трьох параметрів (як змінюється кількість оренд при різних поєднаннях температури та швидкості вітру). Додає аналізу глибини - можна побачити чи утворюються просторові кластери/області скупчення даних.
***Чи видно кластери в 3D просторі?***
 Помітні хмари точок різного кольору (окремі сезони концентруються у своїх просторах). Оскільки такі параметри як температура, вітер та кількість оренд залежать від сезону, то очевидно, що точки певного кольору утворюють окремі кластери.
***Чи ви можете зробити висновки з цієї візуалізації, чи вам було простіше побудувати кілька 2D?*** 3D більше підходить, щоб відчути загальну картину, знайти цікаві області. З іншого боку, 2D мені більш підходить для аналітичних висновків та перевірки гіпотез.


## Завдання 6: Експорт та збереження інтерактивних графіків

**Завдання:**
Збережіть побудований раніше дашборд в формат HTML. Також змініть вручну щось на дашборді (зум, виділення частини графіку) і збережіть його як статичне зображення через іконку фотоапарату у формат PNG. Завантажте файли з дашбордом у HTML та PNG (або посилання на них на github) разом з посиланням на цей ноутбук при здачі ДЗ.


In [20]:
fig.write_html('Ivan_Zakorchevnyi_Plotly_Dashboard.html')