# Introduction

`plotnine`是一个数据可视化库，它实现了图形的**语法**。 图形语法是数据可视化API设计的一种方法，它与我们迄今为止看到的库所遵循的方式相差甚远。

数据可视化设计过程从创建图形（1）开始，调整该图形的几何形状（2），然后调整该图形的美学（3）。 正如我们在关于样式样式的部分中看到的那样，这使得事情变得比他们需要的更难（我什么时候可以使用参数？我何时需要一个方法？），并创建一个众所周知的用户痛点。

图形语法解决了这个棘手的问题。 在基于图形的库（如`plotnine`）的语法中，*每个*操作以相同的方式表达：使用函数。 在`plotnine`中，我们通过“累加”我们的元素来创建图形：

![](https://i.imgur.com/UoIbtqI.png)

** Data **元素是对`ggplot`的调用，它填充图中的数据。 **美学**由`aes`功能控制，它填充我们的视觉变量：颜色，形状等。 最后，**图层**是添加或修改图表本身的函数。

`plotnine`图由这三种类型的函数组成，这些函数与加号（`+`）运算符连接在一起。 结果是一种极具表现力的构建图表的方式！

让我们跳进`plotnine`，看看这个图形语法在起作用。

In [1]:
import pandas as pd
reviews = pd.read_csv("./input/winemag-data-130k-v2.csv", index_col=0)
reviews.head(3)

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm


In [2]:
from plotnine import *

top_wines = reviews[reviews['variety'].isin(reviews['variety'].value_counts().head(5).index)]

ModuleNotFoundError: No module named 'plotnine'

## The grammar of graphics (图形语法)

我们的出发点是一个简单的散点图：

In [None]:
df = top_wines.head(1000).dropna()

(ggplot(df)
 + aes('points', 'price')
 + geom_point())

注意情节如何顺利地分解为三个单独的操作。 首先，我们使用`ggplot`初始化绘图，将输入数据（`df`）作为参数传递（**数据**）。 然后我们在“aes”（**美学**）中添加感兴趣的变量。 最后我们指定了绘图类型（**层**）：`geom_point`。

要不断改变情节，只需继续添加内容即可。 您可以添加带有“stat_smooth”图层的回归线：

In [None]:
df = top_wines.head(1000).dropna()

(
    ggplot(df)
        + aes('points', 'price')
        + geom_point()
        + stat_smooth()
)

要添加颜色，请添加“颜色”的“aes”：

In [None]:
df = top_wines.head(1000).dropna()

(
    ggplot(df)
        + geom_point()
        + aes(color='points')
        + aes('points', 'price')
        + stat_smooth()
)

要应用分面，请使用`facet_wrap`。

In [None]:
df = top_wines.head(1000).dropna()

(ggplot(df)
     + aes('points', 'price')
     + aes(color='points')
     + geom_point()
     + stat_smooth()
     + facet_wrap('~variety')
)

注意情节的每个变异如何需要添加一个东西，以及每次如何将它们放到同一个地方（我们只是添加它）。通过对“plotnine”中有效函数的一些了解，我们需要做出的每一个改变都是*显而易见的*。而这种“显而易见”感就是图书馆的全部意义！

分面是一个非常好的例子。使用`plotnine`，一旦我们意识到我们需要刻面，我们就可以立即添加它＆mdash;只需将`facet_wrap`附加到最后。使用`seaborn`，我们将不得不改变我们的整个方法：我们需要计算一个正确参数化的`FacetGrid`，在*我们的绘图代码之前插入*，并且（可能）重写我们的绘图函数，使其“适合”内部`FacetGrid`。

Moverover，修改输出就像向链中添加一个方法一样简单。由于我们所做的每项修改都是独立的，因此我们可以在任

例如，在迄今为止的所有情节中，我们已经将图表美学（“aes”）看作一个单独的功能元素;但是，`aes`也可以显示为* layer *参数：

In [None]:
(ggplot(df)
 + geom_point(aes('points', 'price'))
)

或者作为整体*data*中的参数：

In [None]:
(ggplot(df, aes('points', 'price'))
 + geom_point()
)

注意这些图是如何完全等价的！

## More plotnine(更多情节)

`plotnine`实际上是一个忠实的Python端口，它是现在非常着名的图形语法概念的创始人，`ggplot2`库，由名人程序员Hadley Wickham发布的R包。 （对于Python，不寻常）使用`+`运算符模仿它在`ggplot2`中的用法。

几何图形是“plotnine”的核心，它具有各种复杂程度的几何形状。 例如，`poltnine`条形图是`geom_bar`：

In [None]:
(ggplot(top_wines)
     + aes('points')
     + geom_bar()
)

“plotnine”相当于一个二维直方图的hexplot，是“geom_bin2d”：

In [None]:
(ggplot(top_wines)
     + aes('points', 'variety')
     + geom_bin2d(bins=20)
)

可以混合使用非几何函数调用来更改绘图的结构。 我们已经看过`facet_wrap`; `coord_fixed`和`ggtitle`是另外两个。

In [None]:
(ggplot(top_wines)
         + aes('points', 'variety')
         + geom_bin2d(bins=20)
         + coord_fixed(ratio=1)
         + ggtitle("Top Five Most Common Wine Variety Points Awarded")
)

等等。

有关`plotnine`提供的函数列表，请参阅库中存货丰富的[API参考](https://plotnine.readthedocs.io/en/stable/api.html)。

# Exercises

对于以下练习，请尝试分叉并运行此笔记本，然后再现下面的图表。

In [4]:
pokemon = pd.read_csv("./input/Pokemon1.csv", index_col=0)\
                        .rename(columns=lambda x: x.replace(" ", "_"))
pokemon.head(3)

Unnamed: 0_level_0,Name,Type_1,Type_2,Total,HP,Attack,Defense,Sp._Atk,Sp._Def,Speed,Generation,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False


In [None]:
(
    ggplot(pokemon, aes('Attack', 'Defense'))
        + geom_point()
)

In [None]:
(
    ggplot(pokemon, aes('Attack', 'Defense', color='Legendary'))
        + geom_point()
        + ggtitle("Pokemon Attack and Defense by Legendary Status")
)

In [None]:
(
    ggplot(pokemon, aes('Attack'))
        + geom_histogram(bins=20)
) + facet_wrap('~Generation')

# Conclusion

`plotnine`是一个数据可视化库，它实现了图形语法，这是一种值得理解的数据可视化设计的巧妙方法。 希望本节让您熟悉这个想法！