使用seaborn进行数据可视化

作者：谢文伟

邮件：xiewenwei@sina.com

主页：https://github.com/jimxie2012/ai-cv

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from warnings import filterwarnings
plt.style.use({'figure.figsize':(12, 6)})#设置画布大小
sns.set(font_scale=1.5) #设置坐标轴和标题字体大小
pd.set_option('display.float_format', lambda x: '%.3f' % x)#关闭pandas科学计数法
plt.rcParams['font.sans-serif']=['SimHei'] #使用中文字体

# 读取原始样本

# 转换为演示数据格式

# 观察变量的变化趋势

In [None]:
df = pd.read_csv('./dataset/stock/foc-price.csv') #读取样本
plt.ticklabel_format(style='plain')   #关闭坐标轴的科学计数法
sns.lineplot(x=df.index, y="volume",data=df)
plt.title("趋势图：日平均交易额")
plt.show()

In [None]:
df3 = df.head(90) 
plt.ticklabel_format(style='plain')
sns.lineplot(x=df3.index, y="volume",hue='week',data=df3)
plt.title("趋势图：周天平均交易额 (%s-%s)"%(df3['date'].min(),df3['date'].max()))

# 观察变量出现次数

In [None]:
df = pd.read_csv('./dataset/stock/foc-price.csv') #读取样本
sns.countplot(x="week", data=df)
plt.title("频次图：周天样本数据")

# 观察变量的分布

In [None]:
df = pd.read_csv('./dataset/stock/foc-price.csv') #读取样本
plt.ticklabel_format(style='plain') #关闭科学计数法
sns.scatterplot(x="open", y='volume',hue='companies',data=df)
plt.title("散点分布图：周天样本数据")

# 观察不同区间的变量分布

In [None]:
df = pd.read_csv('./dataset/stock/foc-price.csv') #读取样本
plt.ticklabel_format(style='plain')#关闭科学计数法
sns.distplot(df['volume'],bins=10,kde = False)

# 观察不同类别的变量变化趋势

In [None]:
df = pd.read_csv('./dataset/stock/foc-price.csv') #读取样本
plt.ticklabel_format(style='plain')#关闭科学计数法
pt = df.pivot_table(index='range_open', columns='week', values=['volume'],aggfunc=np.mean)
pt

In [None]:
#plt.style.use({'figure.figsize':(12, 6)})
plt.ticklabel_format(style='plain',axis='both')
cmap = sns.cubehelix_palette(start = 1, rot = 3, gamma=0.8, as_cmap = True)
pt = df.corr()
sns.heatmap(pt, cmap = cmap, linewidths = 0.05,annot=True, fmt="0.4f")

In [None]:
df = pd.read_csv("./dataset/bmi/500_Person_Gender_Height_Weight_Index.csv")
df = df.rename(columns={'Gender':'性别','Height':'身高','Weight':'体重','Index':'等级'})
sns.boxplot(y=df["体重"],x=df['等级'])