In [0]:
print("Hello!")

workshop  = {
  'title': 'Wizualizacja danych', 
  'author': 'Dariusz Tanajewski',
  'club' : 'OLSZTYN @ DATAWORKSHOP',
 }

# 1. Wprowadzenie do Matplotlib

* Najpopularniejsza biblioteka do tworzenia wizualizacji dla  języka Python
* Stworzona na podobieństwo interfejsu znanego ze środowiska Matlab
* Daje pełną kontrolę nad każdym aspektem wizualizacji
* Pozwala na eksport wizualizacji do wszystkich popularnych formatów grafiki wektorowej i rastrowej
* Świetnie współpracuje z bilbiotekami Pandas i Numpy
* Podstawa wielu dodatkowych pakietów do wizualizacji danych (Seaborn, Plotly, Bokeh, Altair itp.)

Oficjalna strona: 
http://www.matplotlib.org

In [0]:
import matplotlib.pyplot as plt 
import pandas as pd

In [0]:
%matplotlib inline 

In [0]:
# Przygotowanie danych

# Dane z projektu Wirus na mapie PL
# https://github.com/dtandev/coronavirus/tree/master/data

data_url = "https://raw.githubusercontent.com/dtandev/coronavirus/master/data/CoronavirusPL%20-%20General.csv"
df = pd.read_csv(data_url)
df['Day_of_pandemic'] = [i for i in range(1,len(df)+1)]

# Słownik łączący Timestamp z Day_of_pandemic
dopDict = {}
for i in df['Day_of_pandemic']:
  dopDict[df['Timestamp'][i-1]]=i

zip(df['Day_of_pandemic'], df['Timestamp'])
print('Kolumny w ramce danych:')
print(list(df.columns))

day = df['Day_of_pandemic']
d = df['Deaths']
c = df['Confirmed']
r = df['Recovered']

### Metoda funkcyjna vs. Metoda obiektowa

### Metoda funkcyjna

In [0]:
# Tworzenie wykresów 

plt.plot(day, d)
plt.show()

In [0]:
# Zadanie 1. Stwórz wykres pokazujący przyrost liczby potwierdzonych przypadków zakażenia

In [0]:
# Ustawienia stylu
plt.plot(day, d, 'g-')

linestyles = ['-', '--', '-.', ':']
pointstyles = ['.', ',', 'o', 'x', '3', 'D']
colors = ['r', 'b', 'g', 'c']

# Więcej:
# https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.plot.html


In [0]:
# Zadanie 2. Wykres z zadania 1 wyświetl w postaci czerwonych krzyży.



In [0]:
# Opis wykresu

plt.plot(day, d)
plt.xlabel('Day of pandemic')
plt.ylabel('Deaths')
plt.title('Increase in deaths during COVID pandemic')

In [0]:
# Zadanie 3. Dodaj opisy do wykresu z zadania 2. 



In [0]:
# Subplot

plt.subplot(1,3,1)
plt.plot(day, d, 'r-')
plt.subplot(1,3,3)
plt.plot(day, r, 'g-')


In [0]:
# Zadanie 4. Uzupełnij powyższy subplot wykresem danych o zakażeniach.



### Metoda obiektowa

In [0]:
# Tworzymy obiekt Figure, czyli naszą "czystką kartkę"
fig = plt.figure()

# Dodatnie osi do wykresu
axes = fig.add_axes([0.1 ,0.1 ,0.8, 0.8]) 

# Wartości w nawiasach definiują 'obszar roboczy' dla utworzonego wczesniej obiektu Figure (tj. z czystej kartki wydzielamy
# obszar, na którym będą tworzone wizualizacje danych)
# Pierwsze dwie wartości to odległości od lewej i dolnej krawędzi. Kolejne dwie, to szerokość i wysokość. 
# Ich wartości powinny zawierać się w przedziale <0,1> i należy je interpretować jako ułamki wielkości obiektu Figure. 

# Dodanie danych do wykresu
axes.plot(day, d, 'b--')

# Przypisanie nazw osi i tytułu
axes.set_xlabel('Day of pandemic')
axes.set_ylabel('Deaths')
axes.set_title('Increase in deaths during COVID pandemic')

In [0]:
# Zadanie 5. Utwórz obiekt Figure, a następnie przypisz mu dwa zestawy osi roboczych: 
# axes1 ([0.1 ,0.1 ,0.9, 0.9]) i axes2 ([0.2 ,0.5 ,0.35, 0.45])


fig = plt.figure()
axes1 = fig.add_axes([0.1, 0.1, 0.9, 0.9])
axes2 = fig.add_axes([0.2, 0.5, 0.35, 0.45])


In [0]:
# Dodajmy dane oraz opisy do obu osi 

axes1.plot(day, c)
axes2.plot(day, d)

axes1.set_ylabel('Zakażenia')
axes1.set_xlabel('Dzień pandemii')

axes2.set_ylabel('Zgony')
axes2.set_xlabel('Dzień pandemii')

axes1.set_title('Zakażenia i zgony podczas COVID-19')

fig

#### Subplots

In [0]:
# Subplots pozwala zarządzać obiektem Figure w zakresie układu poszczególnych wykresów,
# które składają się na ten obiekt

plt.subplots() # domyślnie > sublotps(1,1)


In [0]:
plt.subplots(1,3)

In [0]:
fig, axes = plt.subplots(2,3)

In [0]:
axes[1,1].plot(day, d)
fig

In [0]:
# Dopasowanie odstępów pomiędzy wykresami w taki sposób, aby ich elementy
# nie nakładały się na siebie

fig.tight_layout()


In [0]:
#### Rozmiar i DPI

In [0]:
fig = plt.figure(figsize = (8,2), dpi = 100)
ax = fig.add_axes([0,0,1,1])
ax.plot(day, d)

In [0]:
fig, axes = plt.subplots(2,1, figsize = (8,2), dpi = 100)
axes[0].plot(day, d)
axes[1].plot(day, c)
fig.tight_layout()

In [0]:
# Zadanie 6. Dodaj do wykresów fig opisy osi oraz tytuły




#### Dwa wykresy na jednej osi

In [0]:
# Wyświetlanie

fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
ax.plot(day, d)
ax.plot(day, r)

In [0]:
# Dodanie legendy

ax.legend()

# Nie można stworzyć legendy, bo elementy wykresu nie mają przyporządkowanych \
# etykiet definujących (labels)

In [0]:
fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
ax.plot(day, d, label = 'Deaths')
ax.plot(day, r, label = 'Recovered')
ax.legend()

In [0]:
# Zmiana położenia legendy

# argument loc, jego wartości i konsekwencje stosowania
# https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.legend.html

ax.legend(loc=1)
# ax.legend(loc = (0.1,0.1))
fig

#### Ustawienia wykresu

In [0]:
# Kolory

fig = plt.figure()
ax =fig.add_axes([0,0,1,1])

ax.plot(day, r, color = 'green')
#ax.plot(day, r, color = '#CCC') #RGB Hex Code

In [0]:
# Grubość

ax.plot(day, d, color='black', linewidth=5)
fig

In [0]:
# Przezroczystość

fig = plt.figure()
ax =fig.add_axes([0,0,1,1])
ax.plot(day, d, color='red', lw=5, alpha = 0.1)

In [0]:
# Styl linii

fig = plt.figure(figsize = (5,3), dpi = 200)
ax =fig.add_axes([0,0,1,1])
ax.plot(day, d, color='red', lw=2, linestyle = ':') # linestyle > ls

In [0]:
# Styl markerów

fig = plt.figure(figsize = (5,3), dpi = 200)
ax =fig.add_axes([0,0,1,1])
ax.plot(day, d, color='red', lw=1, ls = '-', marker = '.')

In [0]:
fig = plt.figure(figsize = (5,3), dpi = 200)
ax =fig.add_axes([0,0,1,1])
ax.plot(day, d, 
        color='red', 
        lw=1, 
        ls = '-', 
        marker = '.', 
        markersize = 10)

In [0]:
fig = plt.figure(figsize = (5,3), dpi = 200)
ax =fig.add_axes([0,0,1,1])
ax.plot(day, d, 
        color='red', 
        lw=1, 
        ls = '-', 
        marker = '.', 
        markersize = 10,
        markerfacecolor = 'blue')

In [0]:
fig = plt.figure(figsize = (5,3), dpi = 200)
ax =fig.add_axes([0,0,1,1])
ax.plot(day, d, 
        color='red', 
        lw=1, 
        ls = '-', 
        marker = '.', 
        markersize = 10,
        markerfacecolor = 'blue',
        markeredgecolor = 'green')

#### Limity wartości na osiach

In [0]:
fig = plt.figure(figsize = (5,3), dpi = 200)
ax =fig.add_axes([0,0,1,1])
ax.set_xlim([30,100])
ax.set_ylim([0,1000])
ax.plot(day,d)

#### Inne typy wykresów

In [0]:
# Wykres punktowy
plt.scatter(day, d)

In [0]:
# Histogram

# Przygotowanie danych
from random import sample
data = sample(range(1,1000),1)

# Histogram
plt.hist(data)

In [0]:
# Barplot
fig, axes = plt.subplots()
inQuarantine = axes.bar(day, df['In_the_hospital'], 0.5, label= 'in hospitals')


### Zapisywanie wykresu do pliku

In [0]:
fig.savefig('moj_pierwszy_wykres.png', dpi = 300)

# 2. Wprowadzenie do Seaborn

* Biblioteka do wizualizacji danych statystycznych
* Piękny styl domyślnu
* Współpracuje z obiektami typu DataFrame (Pandas)

Dokumentacja: https://seaborn.pydata.org/

**Seaborn Cheat Sheet from DataCamp**

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf

In [0]:
import seaborn as sns
import pandas as pd

In [0]:
# Przygotowanie danych

# Import danych dot. zakażeń  
df = pd.read_csv('https://raw.githubusercontent.com/dtandev/coronavirus/master/data/CoronavirusPL%20-%20Timeseries.csv')

# Wyselekcjonowanie przypadków śmiertelnych
deathsDf = df[df['Infection/Death/Recovery']=='D']

# Przypisanie poszczególnym datom ich numeracji od pierwszego dnia pandemii w PL
deathsDf['Day_of_pandemic']=  deathsDf['Timestamp'].map(dopDict)

# Wybór poszczególnych kolumn
deathsDf = deathsDf[['Province', 'City', 'Sex', 'Age', 'Day_of_pandemic']]


deathsDf

### Wizualizacje danych numerycznych

#### Histogramy i wykresy gęstości

In [0]:
# Histogram - wykres słupkowy przedstawiający graficzną interpretację częstotliwości występowania wartości . 


plt.hist(deathsDf['Age'], bins = 15)

#deathsDf['Age'].plot.hist(bins=15)

In [0]:
# Wykres gęstości - wykres przedstawiajacy szacunek ciągłego rozkładu prawdopodobieństwa. 
# KDE (Kernel density estimate) - Metoda, która tworzy wykres gęstości

deathsDf['Age'].plot.kde()

In [0]:
# Metoda distplot pakietu seaborn ułatwia tworzenie histogramów i wykresów gęstości. Pozwala też generować oba wykresy na jednym rysunku.

sns.distplot(deathsDf['Age'], bins=20)

# sns.distplot(deathsDf['Age'], kde = False)
# sns.distplot(deathsDf['Age'], hist = False)

In [0]:
# Zadanie 1. Wygeneruj wykres częstości zmiennej dla zmiennej "Day_of_pandemic".Parametr bins ustaw na wartość 12. 


#### Jointplot

In [0]:
# Jointplot - Wyświetla zależność pomiędzy dwiema zmiennymi 

sns.jointplot(x='Age', y='Day_of_pandemic', data=deathsDf)


In [0]:
sns.jointplot(x='Age', y='Day_of_pandemic', data=deathsDf, kind='hex')

#### Pairplot



In [0]:
# Pairplot generuje wykresy zależności pomiędzy parami wszystkich zmiennych numerycznych

sns.pairplot(deathsDf)

In [0]:
# Parametr hue pozwala na podział zmiennej wg dodatkowej kategorii (nienumerycznej)
sns.pairplot(deathsDf, hue = 'Sex', palette='coolwarm')

### Wizualizacje danych kategorycznych

#### Barplot

In [0]:
# Domyślnie Barplot tworzy wykres kolumnowy z wartościami średnimi y, z podziałem na kategorie x.

sns.barplot(x='Sex', y='Age', data=deathsDf)

In [0]:
# Zadanie 3. Na wykresie pokaż średni wiek zmarłych pacjentów, z podziałem na województwa.

In [0]:
# Wartość średnią można zastąpić dowolną inną funkcją statystyczną (lub własną funkcją)
# Aby to zrobić, zmieniamy parametr estimator

import numpy as np

sns.barplot(x='Sex', y='Age', data=deathsDf, estimator = np.min)

#### Countplot

In [0]:
# Countplot zlicza wystąpienia wszystkich obiektów z podziałem na kategorie

#sns.countplot(x='Province', data=deathsDf)

chart = sns.countplot(x='Province', data=deathsDf)
chart.set_xticklabels(chart.get_xticklabels(), rotation = 90)

In [0]:
# Zadanie. Dodając dodatkowy parametr 'hue', wygeneruj wykres zgonów w poszczególnych 
# województwach z podziałem na płeć. 

chart = sns.countplot(x='Province', data=deathsDf)
chart.set_xticklabels(chart.get_xticklabels(), rotation = 90)

#### Boxplot

In [0]:
# Wykres skrzynkowy, pudełkowy ramka-wąsy lub boxplot
# Wykres który pokazuje rozkład mierzonej zmiennej. 
# Szczegółowe informacje:
# https://pogotowiestatystyczne.pl/wykres-skrzynkowy-moc-informacji-jednym-rysunku/

sns.boxplot(x='Age', y='Province', data=deathsDf)

In [0]:
# Dodanie parametru hue

sns.boxplot(x='Age', y='Province', data=deathsDf, hue='Sex')

#### Violinplot

In [0]:
# Wykres skrzypcowy
# Pozwala wizualizować jednocześnie gęstość prawdopodobieństwa oraz rozkład 
# dla kilku grup jednocześnie

sns.violinplot(x='Sex', y='Age', data=deathsDf)

In [0]:
# Split - sposób na wyświetlenie rozkładu gęstości 
sns.violinplot(x='Age', y='Province', data=deathsDf, hue = 'Sex', split=True)

#### Stripplot

In [0]:
# Stripplot to wykres punktowy dla danych kategorycznych

# sns.stripplot(x='Province', y='Age', data = deathsDf, hue = 'Sex', split = True)

sns.stripplot(x='Province', y='Age', data = deathsDf, hue = 'Sex', split = True).set_xticklabels(chart.get_xticklabels(), rotation = 90)

#### Swarmplot

In [0]:
# Swarmplot jest kombinacją stripplot i violinplot

sns.swarmplot(x ='Sex', y='Age', data = deathsDf)

#### Factorplot

In [0]:
# Factorplot to zamiennik wszystkich wcześniej przedstawionych funkcji do generowania wykresów
# Elementem definiującym typ wykresu jest tutaj parametr 'kind

sns.factorplot(x='Province', y='Age', data=deathsDf, kind= 'strip')

### Wizualizacje macierzy danych

In [0]:
# Heatmapy przydają się, gdy chcemy pokazać relacje pomiędzy 3 zmiennymi.
# Przykładowo: Województwo, Dzień pandemii, ilość zgonów w danym dniu.

# Przygotowanie danych
deathsCount = (
    deathsDf
    [deathsDf['Day_of_pandemic']>65] # ostatnie dwa tygodnie
    .groupby(['Province', 'Day_of_pandemic'])
    .size()
    .to_frame('Count')
    .reset_index()
 ) 
# Dataframe > Pivot_table

dataMatrix = deathsCount.pivot_table(columns = 'Day_of_pandemic', index = 'Province', values='Count', fill_value = 0)

#### Heatmap

In [0]:
plt.figure(figsize=(9,6))
sns.heatmap(dataMatrix, cmap = 'coolwarm', linewidths = 1, linecolor = 'black')

#### Clustermap

In [0]:
# Clusstermap - tworzy klastry wierszy i kolumn wg ich podobieństwa

sns.clustermap(dataMatrix, cmap='coolwarm')

### Zmiana stylu i kolorów

In [0]:
sns.countplot(x='Sex', data=deathsDf)

#### Zmiana tła wykresu

In [0]:
sns.set_style('ticks') # Jeden z parametrów: darkgrid, whitegrid, dark, white, ticks
sns.countplot(x='Sex', data=deathsDf)


#### Usunięcie osi

In [0]:
sns.countplot(x='Sex', data=deathsDf)
sns.despine(left='True') # domyślnie top i right mają wartość True, a left i bottom False

#### Zmiana rozmiaru

In [0]:
# Zmiana rozmiaru wykresów tworzonych za pomocą biblioteki Seaborn odbywa się poprzez odwołanie do biblioteki Matplotlib

plt.figure(figsize=(3,2))
sns.countplot(x='Sex', data=deathsDf)

In [0]:
sns.set_context('paper', font_scale=3)
sns.countplot(x='Sex', data=deathsDf)

#### Zmiana kolorów


In [0]:
# Dokumentacja : https://matplotlib.org/3.2.1/tutorials/colors/colormaps.html

sns.set_context('paper')
chart = sns.countplot(x='Province', data=deathsDf, hue='Sex', palette = 'seismic')
chart.set_xticklabels(chart.get_xticklabels(), rotation = 90)
chart.set(xlabel='Płeć', ylabel='Ilość ofiar')

#### Zapis do pliku

In [0]:
chart.figure.savefig('seabornFig.png', bbox_inches = "tight")