# 《数据可视化》 　—— 　基于Python的应用

## 第1章  数据分析软件简介

## 第2章  数据的收集与整理

## 第3章  Python编程基础

## 第4章  数据的探索分析

## 第5章  数据的直观分析

## 第6章  数据的统计分析

# 第7章 数据的模型分析及可视化

<img src="./Fig/Mind7.png" width="1100">

## 7.1 线性相关分析模型

### 　7.1.1  线性相关的概念和模拟

In [1]:
import numpy as np
x=np.linspace(-4,4,20)            #构建[-4,4]上 x 的数据向量 
x

array([-4.        , -3.57894737, -3.15789474, -2.73684211, -2.31578947,
       -1.89473684, -1.47368421, -1.05263158, -0.63157895, -0.21052632,
        0.21052632,  0.63157895,  1.05263158,  1.47368421,  1.89473684,
        2.31578947,  2.73684211,  3.15789474,  3.57894737,  4.        ])

In [None]:
np.random.seed(1)                 #设置随机种子数以便重复结果
e=np.random.randn(20)             #随机误差数据向量 e~N(0,1)
e

In [None]:
import matplotlib.pyplot as plt 
y1=x; plt.plot(x,y1,'o');         #完全正相关 y=x

In [None]:
y2=-x; plt.plot(x,y2,'o');        #完全负相关 y=-x

In [None]:
y3=x+e; plt.plot(x,y3,'o');       #正相关 y=x+e

In [None]:
y4=-x+e; plt.plot(x,y4,'o');      #负相关 y=-x+e

### 　7.1.2 相关系数的计算

In [None]:
fig,ax=plt.subplots(2,2,figsize=(10,8)) #将上述四个图放到一页上
ax[0,0].plot(x,y1,'o'); ax[0,1].plot(x,y2,'o')     
ax[1,0].plot(x,y3,'o'); ax[1,1].plot(x,y4,'o');   

In [None]:
plt.plot(x,y1,'o');
np.corrcoef([x,y1])

In [None]:
plt.plot(x,y2,'o');
np.corrcoef([x,y2])

In [None]:
plt.plot(x,y3,'o');
np.corrcoef([x,y3])[0,1]

In [None]:
plt.plot(x,y4,'o');
np.corrcoef(x,y4)[0,1]

In [None]:
np.corrcoef([x,y1,y2,y3,y4])  

In [None]:
import pandas as pd   #构建模拟数据的数据框
xy=pd.DataFrame({'x':x,'y1':y1,'y2':y2,'y3':y3,'y4':y4});xy

In [None]:
xy.corrwith(xy.x)

In [None]:
xy.corr()   #根据数据框计算相关系数矩阵

In [None]:
pd.plotting.scatter_matrix(xy,figsize=(9,8)); #矩阵散点图

In [None]:
import pandas as pd           #读取BSdata分析用数据
BS=pd.read_excel('DaPy_data.xlsx','BSdata')[['性别','身高','体重','支出']];BS 

In [None]:
plt.plot(BS['身高'],BS['体重'],'o');
BS['身高'].corr(BS['体重'])   #BS.身高.corr(BS.体重)

In [None]:
BS[['身高','体重']].corr()

In [None]:
BS.corr()

In [None]:
plt.rcParams['font.sans-serif']=['SimSun'];  #设置中文字体为'宋体'
pd.plotting.scatter_matrix(BS,figsize=(9,8)); #矩阵散点图

In [None]:
import scipy.stats as st #加载统计分析方法包 
st.pearsonr(x,y1)        #pearson相关及检验 

In [None]:
st.pearsonr(x,y2) 

In [None]:
st.pearsonr(x,y3) 

In [None]:
st.pearsonr(x,y4) 

In [None]:
plt.plot(BS['身高'],BS['体重'],'o');
st.pearsonr(BS.身高,BS.体重)

In [None]:
plt.plot(BS['身高'],BS.支出,'o');
st.pearsonr(BS.身高,BS.支出)

## 7.2 简单线性回归分析模型

### 　7.2.1  直线回归模型的建立

In [None]:
# 定义模拟直线回归函数
import statsmodels.api as sm                  #加载统计模型包
def reglinedemo(n=20):                        #模拟样本例数
    x=np.arange(n)+1                          #自变量取值
    e=np.random.normal(0,1,n)                 #误差项
    y=2+0.5*x+e                               #因变量值
    x1=sm.add_constant(x);x1                  #加常数项
    fm=sm.OLS(y,x1).fit();fm                  #模型拟合，见下
    plt.plot(x,y,'.',x,fm.fittedvalues,'r-'); #添加回归线，红色
    for i in range(len(x)):                   #画垂直线
        plt.vlines(x,y,fm.fittedvalues,linestyles='dotted',colors='b');

In [None]:
np.random.seed(12)
reglinedemo(20)

In [None]:
np.random.seed(12)
reglinedemo(40)

In [None]:
y=BS.体重; x=BS.身高 
plt.plot(x,y,'o');

In [None]:
import statsmodels.api as sm            #加载线性回归模型库
fm1=sm.OLS(y,sm.add_constant(x)).fit()  #最小二乘估计，加常数项
fm1.params                              #模型参数的估计值

In [None]:
yfit=fm1.fittedvalues #拟合估计值

In [None]:
plt.plot(x, y,'.',x,yfit, 'r-'); 

### 　7.2.2  直线回归模型的检验

In [None]:
fm1.tvalues      #模型系数t值

In [None]:
fm1.pvalues      #系数检验p值

In [None]:
 pd.DataFrame({'b':fm1.params,'t':fm1.tvalues,'p':fm1.pvalues})  #格式输出

In [None]:
import pandas as pd           #读取BSdata分析用数据
BS=pd.read_excel('DaPy_data.xlsx','BSdata')[['性别','身高','体重','支出']];BS 

In [None]:
import statsmodels.formula.api as smf  #加载公式模型建立包
fm2=smf.ols('体重~身高',data=BS).fit()   
fm2.summary().tables[1]    #回归系数检验表，来自summary的第2张表   

In [None]:
fm2.summary().tables[0]

In [None]:
fm2.summary().tables[2]

In [None]:
fm3=smf.ols('体重~身高+支出',data=BS).fit()
fm3.summary().tables[1]    #回归系数检验表，来自summary的第2张表

In [None]:
fm3.summary()

In [None]:
%run init.py

### 　7.2.3  直线回归模型的预测

In [None]:
fm2.predict(pd.DataFrame({'身高':[170]}))         #估计

In [None]:
fm2.predict(pd.DataFrame({'身高':[190]}))          #预测

In [None]:
fm2.predict(pd.DataFrame({'身高': [170,180,190]}))  #估计与预测

## 7.3 分组可视化模型分析

In [None]:
BS_M=BS[BS.性别=='男'][['身高','体重']];BS_M 

In [None]:
BS_F=BS[BS.性别=='女'][['身高','体重']];BS_F 

### 　7.3.1 可视化分组线性相关分析

In [None]:
import scipy.stats as st 
M_r=st.pearsonr(BS_M.身高,BS_M.体重);M_r 

In [None]:
plt.rcParams['font.sans-serif']=['SimSun'];  #设置中文字体为'宋体'
import seaborn as sns 
sns.jointplot('身高','体重',data=BS_M);  #直方图+散点图

In [None]:
#plt.plot(BS_F.身高,BS_F.体重,'o');
#plt.title(M_r);
st.pearsonr(BS_F.身高,BS_F.体重)

In [None]:
sns.jointplot('身高','体重',data=BS_F);

### 　7.3.2 可视化分组线性回归模型

In [None]:
smf.ols('体重~身高',data=BS_M).fit().summary().tables[1]

In [None]:
sns.regplot(y="体重",x="身高",data=BS_M,ci=0);

In [None]:
sns.jointplot('身高','体重',data=BS_M,kind='reg');

In [None]:
smf.ols('体重~身高',data=BS_F).fit().summary().tables[1] 

In [None]:
sns.regplot(y='体重',x='身高',data=BS_F,ci=0);

In [None]:
sns.jointplot('身高','体重',data=BS_F,kind='reg',ci=0); 

In [None]:
from plotnine import *    
theme_set(theme_bw(base_family='SimSun'));

In [None]:
(ggplot(BS,aes('身高','体重')) + geom_point() + facet_wrap('性别',nrow=1)
        + stat_smooth(method='lm',se=True))   #无可信区间的回归线 

In [None]:
(ggplot(BS,aes('身高','体重')) + geom_point() + facet_wrap('性别',nrow=2) 
        + stat_smooth(method='lm',se=False))           #有可信区间的回归线 