# 可视化基本运行


In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

large = 22; med = 16; small = 12
params = {
          'figure.figsize': (16, 10),
          'figure.titlesize': large,
          'axes.titlesize': large,
          'axes.labelsize': med,
          'axes.titlesize': med,
          'xtick.labelsize': med,
          'ytick.labelsize': med,
          'legend.fontsize': med}
plt.rcParams.update(params)
plt.style.use('seaborn-whitegrid')
sns.set_style("white")
%matplotlib inline

## rcparams
1	plt.rcParams[’axes.unicode_minus’] = False	字符显示    正负的显示
2	plt.rcParams[’font.sans-serif’] = ‘SimHei’	设置字体
线条样式：lines	
3	plt.rcParams[’lines.linestyle’] = ‘-.’	线条样式
4	plt.rcParams[’lines.linewidth’] = 3	线条宽度
5	plt.rcParams[’lines.color’] = ‘blue’	线条颜色
6	plt.rcParams[’lines.marker’] = None	默认标记
7	plt.rcParams[’lines.markersize’] = 6	标记大小
8	plt.rcParams[’lines.markeredgewidth’] = 0.5	标记附近的线宽
横、纵轴：xtick、ytick	
9	plt.rcParams[’xtick.labelsize’]	横轴字体大小
10	plt.rcParams[’ytick.labelsize’]	纵轴字体大小
11	plt.rcParams[’xtick.major.size’]	x轴最大刻度
12	plt.rcParams[’ytick.major.size’]	y轴最大刻度
figure中的子图：axes	
13	plt.rcParams[’axes.titlesize’]	子图的标题大小
14	plt.rcParams[’axes.labelsize’]	子图的标签大小
图像、图片：figure、savefig	
15	plt.rcParams[’figure.dpi’]	图像分辨率
16	plt.rcParams[’figure.figsize’]	图像显示大小
17	plt.rcParams[’savefig.dpi’]	图片像素


# 关联
关联图表用于可视化2个或更多变量之间的关系。 也就是说，一个变量如何相对于另一个变化。
## 两变量
### 散点图scatter
散点图是用于研究两个变量之间关系的经典的和基本的图表。 如果数据中有多个组，则可能需要以不同颜色可视化每个组。 在 matplotlib 中，您可以使用 plt.scatterplot（） 方便地执行此操作。

In [4]:
# Import dataset
midwest = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/midwest_filter.csv")

# Prepare Data
# Create as many colors as there are unique midwest['category']
categories = np.unique(midwest['category'])
colors = [plt.cm.tab10(i/float(len(categories)-1)) for i in range(len(categories))]

# Draw Plot for Each Category
plt.figure(figsize=(16, 10), dpi= 80, facecolor='w', edgecolor='k')

for i, category in enumerate(categories):
    plt.scatter('area', 'poptotal',
                data=midwest.loc[midwest.category==category, :],
                s=20, cmap=colors[i], label=str(category))
    # "c=" 修改为 "cmap="，Python数据之道 备注

# Decorations
plt.gca().set(xlim=(0.0, 0.1), ylim=(0, 90000),
              xlabel='Area', ylabel='Population')

plt.xticks(fontsize=12); plt.yticks(fontsize=12)
plt.title("Scatterplot of Midwest Area vs Population", fontsize=22)
plt.legend(fontsize=12)    
plt.show()


URLError: <urlopen error [Errno 11004] getaddrinfo failed>

### lmplot回归图


In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
df_select = df.loc[df.cyl.isin([4,8]), :]

# Plot
sns.set_style("white")
gridobj = sns.lmplot(x="displ", y="hwy", hue="cyl", data=df_select, 
                     height=7, aspect=1.6, robust=True, palette='tab10', 
                     scatter_kws=dict(s=60, linewidths=.7, edgecolors='black'))

# Decorations
gridobj.set(xlim=(0.5, 7.5), ylim=(0, 50))
plt.title("Scatterplot with line of best fit grouped by number of cylinders", fontsize=20)
plt.show()