<a href="https://colab.research.google.com/github/jakubtwalczak/dsbootcampudemy/blob/main/10_Wizualizacja_Plotly.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wprowadzenie.

Plotly, w stosunku do swojego modułu Plotly Express, jest biblioteką niższego poziomu oraz pozwala na tworzenie znacznie większej liczby wykresów różnego rodzaju. Posiada ona bardzo rozbudowaną dokumentację, opisującą imponującą liczbę obiektów możliwych do utworzenia w oparciu o nią. Znajomość tej biblioteki umożliwia tworzenie wykresów od najniższego poziomu i zapewnia podwaliny pod naukę tworzenia aplikacji webowych, dashboardów etc.

In [1]:
import plotly
import plotly.graph_objects as go
import pandas as pd
import numpy as np

## Wykres słupkowy.

Stworzenie wykresu jest bardziej złożone niż w Plotly Express. Tworzymy obiekt typu **Figure**, któremu przekazujemy parametr data - może to być konkretny wykres (w tym przypadku **Bar** - słupkowy). Samemu wykresowi możemy przekazać całe mnóstwo parametrów. My przekażemy mu jako parametr y listę wartości, które mają obrazować słupki wykresu. Podobnie jak dla innych obiektów wizualnych, do wyświetlenia służy metoda **show**.

In [2]:
fig = go.Figure(
    data=go.Bar(y=[2, 3, 1])
    )
fig.show()

Parametr layout określa to, jak wykres ma wyglądać. Przekazać możemy mu klasę **Layout**, która również przyjmuje ogromną liczbę parametrów, pozwalających na dostosowanie nawet najmniejszych detali wykresu. My podamy jedynie tytuł wykresu w formie słownika.

In [3]:
fig = go.Figure(
    data=go.Bar(y=[2, 3, 1]),
    layout=go.Layout(
        title={'text': 'Bar plot'}
    )
    )
fig.show()

Możemy alternatywnie użyć parametru title_text i przekazać bezpośrednio tekst, który ma się wyświetlać w tytule. Różnica jest taka, że do parametru title możemy przekazać więcej parametru dot. samego napisu tytułowego.

In [4]:
fig = go.Figure(
    data=go.Bar(y=[2, 3, 1]),
    layout=go.Layout(
        title_text='Bar plot'
    )
    )
fig.show()

Funkcja **write_html** pozwala zapisać obiekt jako plik *.html, który możemy następnie potraktować np. jako konkretny raport.

In [5]:
fig = go.Figure(
    data=go.Bar(y=[2, 3, 1]),
    layout=go.Layout(
        title_text='Bar plot'
    )
    )
#fig.write_html('bar_plot.html')
fig.show()

## Wykres kołowy i pierścieniowy.

Z biblioteki Seaborn wczytamy teraz dane dot. parametrów diamentów.

In [6]:
from seaborn import load_dataset
df = load_dataset('diamonds')
df

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53935,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(3), float64(6), int64(1)
memory usage: 3.0 MB


Przed przejściem do utworzenia wykresów przygotujemy dane. Chcemy stworzyć wykres dot. rozkładu zmiennej **cut**, więc użyjemy metody **value_counts**, żeby zliczyć wystąpienia poszczególnych wartości tej zmiennej, a wynik przypiszemy do zmiennej. Resetujemy indeks, aby wartości zmiennej cut nie były traktowane jako indeksy ramki danych.

In [8]:
df_cut = df['cut'].value_counts()
df_cut = df_cut.reset_index()
df_cut

Unnamed: 0,cut,count
0,Ideal,21551
1,Premium,13791
2,Very Good,12082
3,Good,4906
4,Fair,1610


Za wygenerowanie wykresu kołowego odpowiedzialna jest metoda **Pie**, którą podajemy jako parametr data funkcji **Figure**. Samej funkcji Pie przekazujemy jako parametry odpowiednio etykiety (zmienna cut) i wartości (zmienna count).

In [9]:
fig = go.Figure(
    data=go.Pie(
        labels=df_cut['cut'],
        values=df_cut['count']
    )
)
fig.show()

Utworzyliśmy podstawowy, interaktywny wykres kołowy, który udziela nam najechaniu kursorem informacji nt. elementów i pozwala elementy wyłączać, przybliżać, oddalać, wycinać etc.

Dodaliśmy do wykresu tytuł, a także trochę go zwęziliśmy parametrem width metody Layout.

In [10]:
fig = go.Figure(
    data=go.Pie(
        labels=df_cut['cut'],
        values=df_cut['count']
    ),
    layout=go.Layout(title_text='Rozkład zmiennej cut', width=600)
)
fig.show()

Z wykresu kołowego możemy łatwo zrobić pierścieniowy - wystarczy przekazać do metody Pie przekazać parametr hole, określający stosunek pola środka do sumy pól środka i pierścienia (domyślnie 0, max 1).

In [11]:
fig = go.Figure(
    data=go.Pie(
        labels=df_cut['cut'],
        values=df_cut['count'],
        hole=0.6
    ),
    layout=go.Layout(title_text='Rozkład zmiennej cut', width=600)
)
fig.show()

# Diagram Sankeya.

Wyobraźmy sobie sytuację, w której prowadzimy spółkę, która ma swoich klientów i chcemy sprawdzić ich przepływ rok do roku - którzy klienci nawiązali współpracę, którzy rozwiązali, którzy nawiązali na nowo etc. Po lewej stronie diagramu mamy dane najwcześniejsze, im bardziej na prawo, tym świeższe dane.

Innym możliwym zastosowaniem jest tworzenie modeli klasyfikacyjnych pokazujących, czy np. klient od nas odejdzie lub ponownie nawiąże z nami współpracę, generalnie będących predykcją jego zachowania w przyszłości.

Takie przepływy czytelnie, a zarazem atrakcyjnie wizualnie, pokazuje diagram Sankeya.

Jak tworzyć taki wykres? Na początku możemy w osobnej zmiennej zdefiniować dane - generacji diagramu służy metoda **Sankey**. Parametr node (węzeł) łączy stany, które łączone są przez parametr link (połączenie/powiązanie), któremu z kolei podajemy parametry source (źródło - indeks odpowiadający etykiecie), target (cel, do którego zmierzamy) i value (wartość, którą chcemy przepuścić od źródło do celu).

W skrócie wygląda to następująco: kolejno wypisujemy etykiety, które uczestniczą w przepływach rok do roku, następnie ich pozycję na diagramie, potem cel, do którego zmierzają przepływy, a na końcu wielkość przepływu.

Jak wskazuje wykres, 65 klientów współpracujących z firmą w 2018 r. pozostało w 2019 r., 12 odeszło, 18 nawiązało współpracę, a 5 nadal nie współpracuje.

In [12]:
data = [go.Sankey(node=dict(label=['Nonchurn_2018', 'Churn_2018', 'Nonchurn_2019', 'Churn_2019']),
                 link=dict(source=[0, 0, 1, 1], # indeks odpowiadający etykiecie (labels)
                          target=[2, 3, 2, 3],
                          value=[65, 12, 18, 5]))]

fig = go.Figure(data=data, layout=go.Layout(width=800, height=400))
fig.show()

Oczywiście za pomocą tej wizualizacji można wyświetlić trzy stany - np. 2018, 2019 i 2020 rok. Odpowiednio musimy zwiększyć liczbę parametrów.

In [13]:
data = [go.Sankey(node=dict(label=['Nonchurn_2018', 'Churn_2018', 'Nonchurn_2019',
                                   'Churn_2019', 'Nonchurn_2020', 'Churn_2020']),
                 link=dict(source=[0, 0, 1, 1, 2, 3],
                          target=[2, 3, 2, 3, 4, 5],
                          value=[65, 10, 5, 20, 70, 30]))]

fig = go.Figure(data=data, layout=go.Layout(width=800, height=400))
fig.show()

W tym wypadku nie nanieśliśmy w istocie żadnych zmian między 2019 a 2020 rokiem. Aby je nanieść, musimy dodać większą liczbę źródeł, celów i wartości, z zachowaniem odpowiedniej kolejności.

In [14]:
data = [go.Sankey(node=dict(label=['Nonchurn_2018', 'Churn_2018', 'Nonchurn_2019',
                                   'Churn_2019', 'Nonchurn_2020', 'Churn_2020']),
                 link=dict(source=[0, 0, 1, 1, 2, 2, 3, 3],
                          target=[2, 3, 2, 3, 4, 5, 4, 5],
                          value=[65, 10, 5, 20, 62, 8, 11, 26]))]

fig = go.Figure(data=data, layout=go.Layout(width=800, height=400))
fig.show()

# Wykres świecowy.

Jest to bardzo popularny wykres w notowaniach giełdowych, dlatego też będziemy go tworzyć w celu wizualizacji danych pobranych przy użyciu znanej nam już funkcji **fetch_financial_data**.

In [15]:
def fetch_financial_data(company='AMZN'):
    """
    This function fetches stock market quotations.
    """
    import pandas_datareader.data as web
    return web.DataReader(name=company, data_source='stooq')

Stworzymy ramkę danych dot. spółki Amazon. Od razu zresetujemy indeks i ograniczymy objętość danych do notowań od początku bieżącego roku.

In [16]:
df = fetch_financial_data()
df.reset_index(inplace=True)
df = df[df['Date'] > '2024-01-01']
df

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2024-08-23,177.34,178.9699,175.2400,177.04,29150091
1,2024-08-22,181.38,181.4700,175.6800,176.13,32047482
2,2024-08-21,179.92,182.3850,178.8937,180.11,35599120
3,2024-08-20,177.92,179.0100,177.4308,178.88,26255204
4,2024-08-19,177.64,178.3000,176.1600,178.22,31129807
...,...,...,...,...,...,...
158,2024-01-08,146.74,149.4000,146.1500,149.10,46757053
159,2024-01-05,144.69,146.5900,144.5300,145.24,45153147
160,2024-01-04,145.59,147.3800,144.0500,144.57,56039807
161,2024-01-03,149.20,151.0500,148.3300,148.47,49425495


Za kreację odpowiada funkcja **Candlestick**. Jak widać, nazwy parametrów metody są dostosowane do nazw zmiennych dot. notowań giełdowych.

In [17]:
fig = go.Figure(data=go.Candlestick(
    x=df['Date'],
    open=df['Open'],
    high=df['High'],
    low=df['Low'],
    close=df['Close']
))
fig.show()


The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



Wykres interpetujemy tak, że jeśli mamy sesję wzrostową, to jest ona wyświetlana za pomocą zielonej "świeczki", jeżeli spadkową - na czerwono. Mamy też luki - w weekend nie odbywają się sesje, więc brak zmian notowań też jest pokazywany.