# Встраивание кода JavaScript D3 Library в Jupyter Notebook

Пара примеров, как использовать диаграммы из JS-библиотеки D3 в тетрадях Jupyter Notebook

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
url = "https://raw.githubusercontent.com/dwdii/IS608-VizAnalytics/master/FinalProject/Data/CO-EST2014-alldata.csv"
pop2014 = pd.read_csv(url, encoding='latin-1', dtype={'STATE': 'str', 'COUNTY': 'str'})

In [3]:
pop2014.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RINTERNATIONALMIG2013,RINTERNATIONALMIG2014,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785822,...,1.165832,1.157861,-0.020443,-0.168414,0.396416,0.420102,1.011941,1.001333,1.562247,1.577963
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54684,...,0.217533,0.199039,7.239062,-2.806268,-2.91857,2.334187,7.530079,-2.589008,-2.701037,2.533226
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183216,...,1.471487,1.430905,14.554892,17.834091,21.989409,19.107379,15.890352,19.260182,23.460897,20.538283
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27336,...,-0.036936,0.03713,-4.765309,-2.389969,-7.017933,-2.227792,-4.618684,-2.426738,-7.054869,-2.190662
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22879,...,0.132926,0.133304,-5.611697,-4.980826,-6.734902,-0.355477,-5.567855,-4.980826,-6.601976,-0.222173


Датафрейм `pop2014` содержит все демографические данные за годы с 2010 по 2014.

Столбец `SUMLEV` содержит географический уровень данных; например, 40 — штат, а 50 — данные, охватывающие один округ.

Большое количество столбцов и строк нас не интересуют, поэтому разумно исключить лишнюю информацию. Извлечем только строки с `SUMLEV`, равным 40.

In [4]:
pop2014_by_state = pop2014[pop2014.SUMLEV == 40]
pop2014_by_state

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RINTERNATIONALMIG2013,RINTERNATIONALMIG2014,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785822,...,1.165832,1.157861,-0.020443,-0.168414,0.396416,0.420102,1.011941,1.001333,1.562247,1.577963
68,40,4,9,2,0,Alaska,Alaska,710231,710249,713856,...,3.203618,2.86976,-1.175137,-1.949571,-3.789313,-13.754494,0.948185,1.835376,-0.585695,-10.884734
98,40,4,8,4,0,Arizona,Arizona,6392017,6392310,6411999,...,2.141877,2.129805,1.369514,5.131282,3.910476,6.280636,3.336628,7.155212,6.052353,8.410441
114,40,3,7,5,0,Arkansas,Arkansas,2915918,2915958,2922297,...,1.090035,1.091283,1.341472,-0.420875,-0.580562,-1.31305,2.317801,0.621971,0.509473,-0.221767
190,40,4,9,6,0,California,California,37253956,37254503,37336011,...,4.207353,4.177389,-1.162079,-1.173951,-1.341226,-0.830982,2.761377,2.77277,2.866127,3.346406
249,40,4,8,8,0,Colorado,Colorado,5029196,5029324,5048575,...,2.0742,2.010735,5.183397,5.553675,6.977583,7.587163,6.933159,7.660864,9.051783,9.597898
314,40,1,1,9,0,Connecticut,Connecticut,3574097,3574096,3579345,...,4.753602,4.73095,-3.384435,-5.611492,-4.731638,-7.286252,1.116894,-1.059166,0.021964,-2.555302
323,40,3,5,10,0,Delaware,Delaware,897934,897936,899731,...,2.608949,2.565489,2.866848,3.59838,3.397171,5.148174,5.303282,6.221263,6.00612,7.713663
327,40,3,5,11,0,District of Columbia,District of Columbia,601723,601767,605210,...,5.871584,5.749218,11.332882,10.005838,9.777666,1.793572,16.805955,15.59579,15.64925,7.54279
329,40,3,5,12,0,Florida,Florida,18801310,18804623,18852220,...,5.783717,5.6873,5.540393,5.12532,4.918783,7.016123,11.359606,10.722573,10.702501,12.703423


Датафрейм `pop2014_by_state` содержит все демографические данные по штатам.

In [5]:
states = pop2014_by_state[['STNAME','POPESTIMATE2011', 'POPESTIMATE2012', 'POPESTIMATE2013','POPESTIMATE2014']]

Пять самых густонаселенных штатов США

In [6]:
states.sort_values(['POPESTIMATE2014'], ascending=False)[:5]

Unnamed: 0,STNAME,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014
190,California,37701901,38062780,38431393,38802500
2566,Texas,25657477,26094422,26505637,26956958
329,Florida,19107900,19355257,19600311,19893297
1860,New York,19521745,19607140,19695680,19746227
608,Illinois,12858725,12873763,12890552,12880580


## JavaScript D3 Library

В Jupyter Notebook есть магическая функция %%javascript для интеграции кода JavaScript.

In [7]:
%%javascript
require.config({
    paths: {
        d3: '//cdnjs.cloudflare.com/ajax/libs/d3/3.5.5/d3.min'
    }
});

<IPython.core.display.Javascript object>

In [8]:
from IPython.core.display import display, Javascript, HTML

In [14]:
display(HTML("""
<style>
.bar {
   fill: steelblue;
}
.bar:hover{
   fill: brown;
}
.axis {
   font: 10px sans-serif;
}
.axis path,
.axis line {
fill: none;
   stroke: #000;
}
.x.axis path {
   display: none;
}
</style>
<div id="chart_d3" />
"""))

Теперь нужно написать код JavaScript, используя функции,предоставляемые библиотекой `D3`. Используя объект `Template` из библиотеки `Jinja2`, вы можете определить динамический код JavaScript, в котором вы можете заменять текст в зависимости от значений, содержащихся в датафрейме `pandas`.

In [10]:
import jinja2

In [11]:
myTemplate = jinja2.Template("""
require(["d3"], function(d3){
   var data = []
       {% for row in data %}
       data.push({ 'state': '{{ row[1] }}', 'population': {{ row[5] }}  });
       {% endfor %}
d3.select("#chart_d3 svg").remove()
    var margin = {top: 20, right: 20, bottom: 30, left: 40},
        width = 800 - margin.left - margin.right,
        height = 400 - margin.top - margin.bottom;
    var x = d3.scale.ordinal()
        .rangeRoundBands([0, width], .25);
    var y = d3.scale.linear()
        .range([height, 0]);
    var xAxis = d3.svg.axis()
        .scale(x)
        .orient("bottom");
    var yAxis = d3.svg.axis()
        .scale(y)
        .orient("left")
        .ticks(10)
        .tickFormat(d3.format('.1s'));
    var svg = d3.select("#chart_d3").append("svg")
        .attr("width", width + margin.left + margin.right)
        .attr("height", height + margin.top + margin.bottom)
        .append("g")
        .attr("transform", "translate(" + margin.left + "," + margin.top + ")");
x.domain(data.map(function(d) { return d.state; }));
y.domain([0, d3.max(data, function(d) { return d.population; })]);
    svg.append("g")
        .attr("class", "x axis")
        .attr("transform", "translate(0," + height + ")")
        .call(xAxis);
    svg.append("g")
        .attr("class", "y axis")
        .call(yAxis)
        .append("text")
        .attr("transform", "rotate(-90)")
        .attr("y", 6)
        .attr("dy", ".71em")
        .style("text-anchor", "end")
        .text("Population");
    svg.selectAll(".bar")
        .data(data)
        .enter().append("rect")
        .attr("class", "bar")
        .attr("x", function(d) { return x(d.state); })
        .attr("width", x.rangeBand())
        .attr("y", function(d) { return y(d.population); })
        .attr("height", function(d) { return height - y(d.population); });
});""")

In [15]:
display(Javascript(myTemplate.render(
    data=states.sort_values(['POPESTIMATE2012'], ascending=False)[:10].itertuples()
)))

<IPython.core.display.Javascript object>

## Clustered Bar Chart

In [25]:
myTemplate_cbc = jinja2.Template("""
require(["d3"], function(d3){
var data = []
   var data2 = []
   var data3 = []
   var data4 = []
   {% for row in data %}
   data.push ({ 'state': '{{ row[1] }}', 'population': {{ row[2] }}  });
   data2.push({ 'state': '{{ row[1] }}', 'population': {{ row[3] }}  });
   data3.push({ 'state': '{{ row[1] }}', 'population': {{ row[4] }}  });
   data4.push({ 'state': '{{ row[1] }}', 'population': {{ row[5] }}  });
   {% endfor %}
d3.select("#chart_d3_2 svg").remove()
    var margin = {top: 20, right: 20, bottom: 30, left: 40},
        width = 800 - margin.left - margin.right,
        height = 400 - margin.top - margin.bottom;
    var x = d3.scale.ordinal()
        .rangeRoundBands([0, width], .25);
    var y = d3.scale.linear()
        .range([height, 0]);
    var xAxis = d3.svg.axis()
        .scale(x)
        .orient("bottom");
    var yAxis = d3.svg.axis()
        .scale(y)
        .orient("left")
        .ticks(10)
        .tickFormat(d3.format('.1s'));
    var svg = d3.select("#chart_d3_2").append("svg")
        .attr("width", width + margin.left + margin.right)
        .attr("height", height + margin.top + margin.bottom)
        .append("g")
        .attr("transform", "translate(" + margin.left + "," +
         margin.top + ")");
         x.domain(data.map(function(d) { return d.state; }));
         y.domain([0, d3.max(data, function(d) { return d.population; })]);
    svg.append("g")
        .attr("class", "x axis")
        .attr("transform", "translate(0," + height + ")")
        .call(xAxis);
    svg.append("g")
        .attr("class", "y axis")
        .call(yAxis)
        .append("text")
        .attr("transform", "rotate(-90)")
        .attr("y", 6)
        .attr("dy", ".71em")
        .style("text-anchor", "end")
        .text("Population");
    svg.selectAll(".bar2011")
        .data(data)
        .enter().append("rect")
        .attr("class", "bar2011")
        .attr("x", function(d) { return x(d.state); })
        .attr("width", x.rangeBand()/4)
        .attr("y", function(d) { return y(d.population); })
        .attr("height", function(d) { return height - y(d.population); });
    svg.selectAll(".bar2012")
        .data(data2)
        .enter().append("rect")
        .attr("class", "bar2012")
        .attr("x", function(d) { return (x(d.state)+x.rangeBand()/4); })
        .attr("width", x.rangeBand()/4)
        .attr("y", function(d) { return y(d.population); })
        .attr("height", function(d) { return height - y(d.population); });
    svg.selectAll(".bar2013")
        .data(data3)
        .enter().append("rect")
        .attr("class", "bar2013")
        .attr("x", function(d) { return (x(d.state)+2*x.rangeBand()/4); })
        .attr("width", x.rangeBand()/4)
        .attr("y", function(d) { return y(d.population); })
        .attr("height", function(d) { return height - y(d.population); });
    svg.selectAll(".bar2014")
        .data(data4)
        .enter().append("rect")
        .attr("class", "bar2014")
        .attr("x", function(d) { return (x(d.state)+3*x.rangeBand()/4); })
        .attr("width", x.rangeBand()/4)
        .attr("y", function(d) { return y(d.population); })
        .attr("height", function(d) { return height - y(d.population); });
}); """);

In [20]:
display(HTML("""
<style>
.bar2011 {
   fill: steelblue;
}
.bar2012 {
   fill: red;
}
.bar2013 {
   fill: yellow;
}
.bar2014 {
   fill: green;
}
.axis {
   font: 10px sans-serif;
}
.axis path,
.axis line {
   fill: none;
   stroke: #000;
}
.x.axis path {
   display: none;
}
</style>
<div id="chart_d3_2" />
"""))

Сгруппированная столбчатая диаграмма, представляющая население пяти самых густонаселенных штатов с 2011 по 2014 год.