In [1]:
import numpy as np
from plotly.offline import download_plotlyjs,init_notebook_mode,plot,iplot
init_notebook_mode(connected=True)

In [2]:
import cufflinks as cf
cf.go_offline()
import pandas as pd

In [3]:
df = pd.read_csv('../Files/OECDBLI2017.csv')
df.head()

Unnamed: 0,Country,Dwellings without basic facilities as pct,Housing expenditure as pct,Rooms per person as rat,Household net adjusted disposable income in usd,Household net financial wealth in usd,Labour market insecurity as pct,Employment rate as pct,Long-term unemployment rate as pct,Personal earnings in usd,...,Water quality as pct,Stakeholder engagement for developing regulations as avg score,Voter turnout as pct,Life expectancy in yrs,Self-reported health as pct,Life satisfaction as avg score,Feeling safe walking alone at night as pct,Homicide rate as rat,Employees working very long hours as pct,Time devoted to leisure and personal care in hrs
0,Australia,1.1,20,2.3,33417,57462,4.3,72,1.36,52063,...,92,2.7,91,82.5,85,7.3,63.6,1.0,13.2,14.35
1,Austria,1.0,21,1.6,32544,59574,2.7,72,1.94,48295,...,93,1.3,75,81.3,70,7.0,80.7,0.4,6.78,14.55
2,Belgium,2.3,21,2.2,29968,104084,4.8,62,3.98,49587,...,84,2.2,89,81.1,75,6.9,70.7,1.0,4.31,15.77
3,Canada,0.2,22,2.5,29850,85758,3.9,73,0.81,48403,...,91,3.0,68,81.5,88,7.3,80.9,1.4,3.73,14.41
4,Chile,9.4,18,1.9,16588,21409,8.1,62,2.02,28434,...,69,1.5,49,79.1,57,6.7,51.1,4.5,10.06,14.9


# Interaktywny wykres

In [4]:
df.set_index('Country')['Employment rate as pct'].sort_values(ascending=False).iplot(kind='bar')

In [5]:
df.iplot(kind='scatter',
x='Labour market insecurity as pct',
y='Employment rate as pct',
mode='markers',
         	xTitle='Labour market insecurity as pct',
yTitle='Employment rate as pct',
text='Country')

# Histogram

In [6]:
df['Water quality as pct'].iplot(kind='hist')

# Bubble plots

In [7]:
df.iplot(kind='bubble',
         x='Air pollution in ugm3',
         y='Water quality as pct',
         size='Household net financial wealth in usd',
        title='Zanieczyszczenie powietrza oraz jakość wody w porównaniu do zamożności gospodarstwa domowego',
        text='Country')

# Wykres trójwymiarowy

In [8]:
df2 = pd.DataFrame({'x':[1,2,3,4,5],'y':[10,20,30,20,10],'z':[5,4,3,2,1]})
df2.iplot(kind='surface',colorscale='rdylbu')

# Tworzenie wizualizacji w stylu Plotly

In [9]:
import plotly.offline as pyo
import plotly.graph_objs as go

In [10]:
trace0 = go.Scatter(x=df['Labour market insecurity as pct'],
                   y=df['Employment rate as pct'],
                   mode='markers',
                   marker=dict(
                           size=15,
                           color='rgb(10, 166, 106)'),
                  text=df['Country'])
data = [trace0]  # zamykamy listę 'trace0'

In [11]:
layout = go.Layout(title='Labour market insecurity vs Employment rate',
                  xaxis=dict(title='Labour market insecurity'),
                  yaxis=dict(title='Employment rate'),
                  hovermode='closest')

In [12]:
iplot(go.Figure(data= data,layout=layout))  # uruchamianie wykresu

In [13]:
# pyo.plot(go.Figure(data= data,layout=layout),filename='labour_scatter.html')  # Zapisanie wykresu do html

# Łączenie dwóch rodzajów wykresów na jednym płótnie

In [14]:
x = np.arange(1900,2021)
y = np.random.randint(1000,2000,len(x))
y2 = np.random.randint(500,1000,len(x))

In [15]:
fig = go.Figure()  # tworzymy obiekt Figure

In [16]:
# Wykrwywołujemy na nim metodę add_trace, co jest równoznaczne z dodaniem kolejnego trace0, trace1, trace2 do listy przypisanej do zmiennej dataes liniowy
# 
fig.add_trace(go.Scatter(x=x,y=y,name='y line'))

# Wykres punktowy
fig.add_trace(go.Scatter(x=x,y=y2,name='y2 markers',mode='markers'))

In [17]:
fig.update_layout(title='y vs y2')  # update tytułu wykresu
iplot(fig)

# Kolory

###### Wykres stopy zatrudnienia w kolejności malejącej

In [18]:
fig = go.Figure()

data = df.sort_values(by='Employment rate as pct',ascending=False)

fig.add_trace(go.Bar(x=data['Country'],y=data['Employment rate as pct']))

fig.update_layout(title='Employment rate as pct')

iplot(fig)

###### Chcemy wyróżnić średnią dla wszystkich krajów OECD

In [19]:
# Wszystkie słupki będą koloru ‘lightslategray’ oprócz tego, który odpowiada pozycji ‘OECD - Total’

In [20]:
fig = go.Figure()

colors = ['lightslategray',] * len(data)
colors[data['Country'].tolist().index('OECD - Total')] = 'crimson'

In [21]:
data = df.sort_values(by='Employment rate as pct',ascending=False)

fig.add_trace(go.Bar(x=data['Country'],y=data['Employment rate as pct'],marker_color=colors))

fig.update_layout(title='Employment rate as pct')

iplot(fig)

#### Stopa zatrudnienia oraz samoocena stanu zdrowia

In [22]:
fig = go.Figure()
data = df.sort_values(by='Employment rate as pct',ascending=False)
fig.add_trace(go.Bar(x=data['Country'],y=data['Employment rate as pct'],name='Employment rate'))
fig.add_trace(go.Bar(x=data['Country'],y=data['Self-reported health as pct'],name='Self-reported health'))

fig.update_layout(title='Employment rate vs Self-reported health')
iplot(fig)

###### Dzięki takiemu zestawieniu możemy zauważyć, że mieszkańcy państw z pierwszego kwartyla rozkładu stopy zatrudnienia wyżej oceniają swój stan zdrowia niż mieszkańcy państw, których stopa zatrudnienia mieści się w okolicy mediany rozkładu.

In [23]:
fig = go.Figure()
data = df.sort_values(by='Employment rate as pct',ascending=False)
fig.add_trace(go.Bar(x=data['Country'],y=data['Employment rate as pct'],name='Employment rate'))
fig.add_trace(go.Bar(x=data['Country'],y=data['Self-reported health as pct'],name='Self-reported health'))

fig.update_layout(title='Employment rate vs Self-reported health', barmode='stack')
iplot(fig)

# W tym miejscu wrócimy do tematu wykresu bąbelkowego. Tym razem bez korzystania z biblioteki cufflinks

###### Kraje OECD pod kątem zanieczyszczenia powietrza na osi x oraz jakości wody pitnej na osi y, a także zamożności gospodarstw domowych odwzorowanej przez rozmiar punktu

In [24]:
cn = pd.read_csv('../Files/countrynames.csv')
cn.head()

Unnamed: 0,name,alpha-2,alpha-3,country-code,iso_3166-2,region,sub-region,region-code,sub-region-code
0,Afghanistan,AF,AFG,4.0,ISO 3166-2:AF,Asia,Southern Asia,142.0,34.0
1,Åland Islands,AX,ALA,248.0,ISO 3166-2:AX,Europe,Northern Europe,150.0,154.0
2,Albania,AL,ALB,8.0,ISO 3166-2:AL,Europe,Southern Europe,150.0,39.0
3,Algeria,DZ,DZA,12.0,ISO 3166-2:DZ,Africa,Northern Africa,2.0,15.0
4,American Samoa,AS,ASM,16.0,ISO 3166-2:AS,Oceania,Polynesia,9.0,61.0


In [25]:
# kolumna region, na podstawie której będziemy mogli przypisać region do konkretnego państwa z bazy OECD

In [26]:
df['Region'] = df['Country'].map(cn.set_index('name')['region'])

###### Związanie regionów (kolejno: Oceania, Europa, Ameryka Północna i Południowa, Azja, Inny, Afryka) z konkretnym kolorem (kolejno: Green, Blue, Red, Yellow, Gray, Black), a następnie zmapowaniu tych kolorów, tak aby odpowiadały kolejnym państwom z bazy danych OECD.

In [27]:
colors = df['Region'].map(dict(zip(df['Region'].unique(),['Green','Blue','Red','Yellow','Gray','Black'])))

In [28]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=df['Air pollution in ugm3'],
                        y=df['Water quality as pct'],
                        text=df['Country'],
                        mode='markers',
                        marker=dict(size=df['Household net financial wealth in usd']/2000,
                                   color=colors)))

fig.update_layout(title='Zanieczyszczenie powietrza oraz jakość wody w porównaniu do zamożności gospodarstwa domowego',
                 xaxis=dict(title='Air pollution in ugm3'),
                 yaxis=dict(title='Water quality as pct'))

iplot(fig)