In [1]:
import mytools
import pandas as pd
import numpy as np
from scipy import stats


# 数据清理与转换

## 数据清理
1. 空白值
2. 异常值
3. 重复值
4. 类型设定
5. 逻辑不一致的值

## 数据转换
1. 值的替换
1. 变量改名
2. 变量生成

# 明确数据分析目标

1. 了解本地区居民的媒介素养
2. 居民受教育程度与媒介素养的相关性
3. 居民受教育程度与媒介素养与生活满意度的相关性
4. 多变量交互分类表与多元回归分析

In [2]:
# 读取数据表
数据表 = mytools.读取SPSS数据文件(R'data\demo.sav')

In [3]:
数据表.columns

Index(['序号', '@1、您的性别：', '@2、您的年龄：', '@3、您的婚姻状况：', '@4、您的受教育程度是：',
       '@5、您的政治面貌：', '@7、您的信仰是：', '@8、您的职业是：', '@9、您的月收入大约是多少？', '@10、1您家里有',
       '@10、2口人，是', '@10、3代人，家里有', '@10、4位老人，家里有', '@10、5个小孩，外出打工的人有___人。',
       '@11、您平常是否通过电脑上网？', '@12、您平常是否通过手机上网？', '@13、您平时一周有几天通过电脑上网？',
       '@14、您平时一周有几天通过手机上网？', '@15、1您每天通过手机上网的时间大概为', '@15、2分钟，您每天通过电脑上网的时间为',
       '@15、3分钟，您每个月的手机话费为', '@15、4元，您家的宽带费为___元。',
       '@16、互联网使用行为（问卷17题至26题）—17、您', '@16、18、您认为您在上网时使用搜索引擎（百度',
       '@16、19、您经常会通过互联网（辣椒直播、下厨', '@16、20、您认为您玩手机网络游戏（斗地主、斗',
       '@16、21、您经常会通过互联网观看小说么？', '@16、22、您经常会通过互联网观看视频（快手、',
       '@16、23、您认为您通过即时通讯（微信、QQ）与他', '@16、24、您经常会通过社交网络（微博、陌陌、',
       '@16、25、您认为您在互联网（淘宝、拼多多、京', '@16、26、您经常使用移动支付（支付宝、微信支', 'Q17_1',
       'Q17_2', 'Q17_3', 'Q17_4', 'Q17_5', '@18、请表述您最近一周的情感状况—6.爱', '@18、7.愉悦',
       '@18、8.自豪', '@18、9.愤怒', '@18、10.忧虑', '@18、11.悲哀',
       '@19、第三部分—1.我能够获得足够有用的媒介信', '@19、2.我能够不断更新自己的信息获取技能。',
       '@19、3.我具有较强的信息获取意识。', '@19、4.我能够熟练使用软件工具进行信息

In [4]:
#对"数据表"的Pandas DataFrame进行重命名列名
数据表.rename(columns={
    '@2、您的年龄：': '年龄',
    '@3、您的婚姻状况：': '婚姻状况',
    '@4、您的受教育程度是：': '受教育程度',
    '@9、您的月收入大约是多少？': '月收入',
    '@10、1您家里有': '家庭规模',
    '@10、2口人，是': '代际',
    '@5、您的政治面貌：': '政治面貌',
    '@8、您的职业是：':'职业'
}, inplace=True)

In [5]:
# 数据表['家庭规模'].mean() 计算该列平均值
数据表['年龄'].mean()

43.67741935483871

In [6]:
#将数据表中名为'代际'的列中的'(空)'值替换为None，并统计该列中各个值的出现次数
数据表['代际'].replace({'(空)':None}, inplace=True)
数据表['代际'].value_counts()

代际
3    59
2    18
4     8
1     2
5     1
Name: count, dtype: int64

In [7]:
#将数据表中的缺失值（NaN）替换为指定的默认值
数据表['年龄'].fillna(43, inplace=True)
数据表['婚姻状况'].fillna('已婚', inplace=True)
数据表['月收入'].fillna('三千元以下', inplace=True)
数据表['家庭规模'].fillna(6, inplace=True)
数据表['代际'].fillna(3, inplace=True)

In [8]:
# 计算均值和标准差
mean = 数据表['年龄'].mean()
std = 数据表['年龄'].std()
condition1 = (数据表['年龄'] < mean - 3 * std) | (数据表['年龄'] > mean + 3 * std)
# 识别异常值
outliers1 = 数据表[condition1]
print('使用标准差判断的异常值为：',outliers1)

使用标准差判断的异常值为： Empty DataFrame
Columns: [序号, @1、您的性别：, 年龄, 婚姻状况, 受教育程度, 政治面貌, @7、您的信仰是：, 职业, 月收入, 家庭规模, 代际, @10、3代人，家里有, @10、4位老人，家里有, @10、5个小孩，外出打工的人有___人。, @11、您平常是否通过电脑上网？, @12、您平常是否通过手机上网？, @13、您平时一周有几天通过电脑上网？, @14、您平时一周有几天通过手机上网？, @15、1您每天通过手机上网的时间大概为, @15、2分钟，您每天通过电脑上网的时间为, @15、3分钟，您每个月的手机话费为, @15、4元，您家的宽带费为___元。, @16、互联网使用行为（问卷17题至26题）—17、您, @16、18、您认为您在上网时使用搜索引擎（百度, @16、19、您经常会通过互联网（辣椒直播、下厨, @16、20、您认为您玩手机网络游戏（斗地主、斗, @16、21、您经常会通过互联网观看小说么？, @16、22、您经常会通过互联网观看视频（快手、, @16、23、您认为您通过即时通讯（微信、QQ）与他, @16、24、您经常会通过社交网络（微博、陌陌、, @16、25、您认为您在互联网（淘宝、拼多多、京, @16、26、您经常使用移动支付（支付宝、微信支, Q17_1, Q17_2, Q17_3, Q17_4, Q17_5, @18、请表述您最近一周的情感状况—6.爱, @18、7.愉悦, @18、8.自豪, @18、9.愤怒, @18、10.忧虑, @18、11.悲哀, @19、第三部分—1.我能够获得足够有用的媒介信, @19、2.我能够不断更新自己的信息获取技能。, @19、3.我具有较强的信息获取意识。, @19、4.我能够熟练使用软件工具进行信息检索。, @19、5.我能够通过寻找佐证资料判断信息的可信, @19、6.能够通过标题、内容等判断信息的可信度, @19、7.我能够判断当前信息是在陈述事实还是表, @19、8.我能够评估媒介信息内容对他人或社会可, @19、9.我能够通过信息发布机构的权威性判断信, @19、10.我通过网络微信微博QQ等分享社会时事新, @19、11.我通过网络微信微博QQ等参与投票、网络, @19、12.我通过网络参与社会公共事件讨论

In [9]:
mytools.使用标准差判断数值变量异常值(数据表,'年龄')

使用标准差判断的异常值为： Empty DataFrame
Columns: [序号, @1、您的性别：, 年龄, 婚姻状况, 受教育程度, 政治面貌, @7、您的信仰是：, 职业, 月收入, 家庭规模, 代际, @10、3代人，家里有, @10、4位老人，家里有, @10、5个小孩，外出打工的人有___人。, @11、您平常是否通过电脑上网？, @12、您平常是否通过手机上网？, @13、您平时一周有几天通过电脑上网？, @14、您平时一周有几天通过手机上网？, @15、1您每天通过手机上网的时间大概为, @15、2分钟，您每天通过电脑上网的时间为, @15、3分钟，您每个月的手机话费为, @15、4元，您家的宽带费为___元。, @16、互联网使用行为（问卷17题至26题）—17、您, @16、18、您认为您在上网时使用搜索引擎（百度, @16、19、您经常会通过互联网（辣椒直播、下厨, @16、20、您认为您玩手机网络游戏（斗地主、斗, @16、21、您经常会通过互联网观看小说么？, @16、22、您经常会通过互联网观看视频（快手、, @16、23、您认为您通过即时通讯（微信、QQ）与他, @16、24、您经常会通过社交网络（微博、陌陌、, @16、25、您认为您在互联网（淘宝、拼多多、京, @16、26、您经常使用移动支付（支付宝、微信支, Q17_1, Q17_2, Q17_3, Q17_4, Q17_5, @18、请表述您最近一周的情感状况—6.爱, @18、7.愉悦, @18、8.自豪, @18、9.愤怒, @18、10.忧虑, @18、11.悲哀, @19、第三部分—1.我能够获得足够有用的媒介信, @19、2.我能够不断更新自己的信息获取技能。, @19、3.我具有较强的信息获取意识。, @19、4.我能够熟练使用软件工具进行信息检索。, @19、5.我能够通过寻找佐证资料判断信息的可信, @19、6.能够通过标题、内容等判断信息的可信度, @19、7.我能够判断当前信息是在陈述事实还是表, @19、8.我能够评估媒介信息内容对他人或社会可, @19、9.我能够通过信息发布机构的权威性判断信, @19、10.我通过网络微信微博QQ等分享社会时事新, @19、11.我通过网络微信微博QQ等参与投票、网络, @19、12.我通过网络参与社会公共事件讨论

In [10]:
#查看数据表中'代际'列的数据类型。
数据表['代际'].dtypes

dtype('O')

In [11]:
#将数据表中'代际'列的数据类型转换为整数型。
数据表.astype({"代际": "int"}).dtypes

序号           float64
@1、您的性别：     float64
年龄           float64
婚姻状况        category
受教育程度       category
              ...   
Q21_3_T      float64
Q21_5_T      float64
Q21_9_T      float64
Q21_10_T     float64
自尊           float64
Length: 93, dtype: object

In [12]:
#将数据表中'代际'列中的值进行映射，将1映射为1，2映射为2，3映射为3，4映射为4，5映射为5。
数据表['代际'].map({1:1,2:2,3:3,4:4,5:5})

0     3.0
1     3.0
2     3.0
3     3.0
4     NaN
     ... 
89    NaN
90    NaN
91    NaN
92    NaN
93    NaN
Name: 代际, Length: 94, dtype: float64

In [13]:
# 变量类型设置
数据表['年龄'].dtypes
数据表.astype({'年龄':"int"}).dtypes

序号           float64
@1、您的性别：     float64
年龄             int32
婚姻状况        category
受教育程度       category
              ...   
Q21_3_T      float64
Q21_5_T      float64
Q21_9_T      float64
Q21_10_T     float64
自尊           float64
Length: 93, dtype: object

In [14]:
# 生成新的变量
数据表['信息判断能力'] = 数据表['@19、5.我能够通过寻找佐证资料判断信息的可信']+数据表['@19、6.能够通过标题、内容等判断信息的可信度']+数据表['@19、7.我能够判断当前信息是在陈述事实还是表']+数据表['@19、8.我能够评估媒介信息内容对他人或社会可']+数据表['@19、9.我能够通过信息发布机构的权威性判断信']

In [15]:
# 单变量数据分析

mytools.使用plotly绘制类别变量柱状图(数据表,'受教育程度')

In [16]:
# 双变量相关性分析
mytools.类别变量与数值变量统计分析(数据表, '受教育程度','信息判断能力')

相关比率：0.18696229735507508
高度相关


In [17]:
mytools.两个数值变量的统计分析(数据表,'信息判断能力','生活满意度')

决定系数r平方：0.0084
微弱相关或不相关
p值： 0.3796
接受虚无假设


In [18]:
cross_tab = pd.crosstab(index=[数据表['生活满意度'], 数据表['信息判断能力']], 
                        columns=数据表['受教育程度'], 
                        margins=True, normalize=True)  

cross_tab


Unnamed: 0_level_0,受教育程度,未上过学,小学,初中,高中,大学,All
生活满意度,信息判断能力,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10.0,10.0,0.021277,0.000000,0.000000,0.000000,0.000000,0.021277
14.0,13.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
16.0,15.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
16.0,20.0,0.000000,0.000000,0.000000,0.010638,0.000000,0.010638
17.0,14.0,0.000000,0.000000,0.010638,0.000000,0.000000,0.010638
...,...,...,...,...,...,...,...
31.0,17.0,0.000000,0.021277,0.000000,0.000000,0.000000,0.021277
32.0,8.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
32.0,14.0,0.000000,0.000000,0.010638,0.000000,0.000000,0.010638
33.0,10.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638


In [19]:
specific_grade = '三千到六千元'

# 筛选出特定年级的数据
需要分析的数据 =数据表[数据表['月收入'] == specific_grade]

# 创建政治面貌和会打多少分的交互表
cross_tab_specific_grade = pd.crosstab(需要分析的数据['受教育程度'], 需要分析的数据['生活满意度'],margins=True,normalize=True)

# 进行卡方检验
chi2_grade, p_grade, dof_grade, expected_grade = stats.chi2_contingency(cross_tab_specific_grade)

print(chi2_grade,p_grade)
cross_tab_specific_grade

0.8934444444444446 1.0


生活满意度,20.0,21.0,23.0,24.0,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,All
受教育程度,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
未上过学,0.0,0.022222,0.044444,0.0,0.044444,0.044444,0.066667,0.044444,0.022222,0.022222,0.022222,0.0,0.333333
小学,0.022222,0.0,0.0,0.066667,0.0,0.066667,0.022222,0.177778,0.066667,0.111111,0.022222,0.0,0.555556
初中,0.0,0.0,0.0,0.0,0.0,0.0,0.022222,0.0,0.0,0.044444,0.0,0.022222,0.088889
大学,0.0,0.0,0.0,0.0,0.0,0.022222,0.0,0.0,0.0,0.0,0.0,0.0,0.022222
All,0.022222,0.022222,0.044444,0.066667,0.044444,0.133333,0.111111,0.222222,0.088889,0.177778,0.044444,0.022222,1.0


In [20]:
mytools.两个无序类别变量的统计分析(需要分析的数据,'受教育程度','生活满意度')

tau_y系数: 0.0845 极弱相关或无相关
--------  -  -  -  -  -  -  -  -  -  -  -  -
未上过学  0  1  2  0  2  2  3  2  1  1  1  0
小学      1  0  0  3  0  3  1  8  3  5  1  0
初中      0  0  0  0  0  0  1  0  0  2  0  1
大学      0  0  0  0  0  1  0  0  0  0  0  0
--------  -  -  -  -  -  -  -  -  -  -  -  -
卡方值： 40.20, p值： 0.1813,自由度:33。
接受虚无假设


生活满意度在不同受教育程度的人群中呈现的趋势是：未上过学 > 小学 > 初中 > 大学及以上。在不同教育水平中，未上过学的人群的生活满意度平均最高，大学及以上的人群的生活满意度平均最低。在各个受教育程度中，生活满意度的取值分布较为均匀，没有明显的集中趋势，这也支持了生活满意度与受教育程度之间无显著关系的结论。

In [21]:
数据表.head()

Unnamed: 0,序号,@1、您的性别：,年龄,婚姻状况,受教育程度,政治面貌,@7、您的信仰是：,职业,月收入,家庭规模,...,生活满意度,生活满意度区间,工作满意度,工作满意度区间,Q21_3_T,Q21_5_T,Q21_9_T,Q21_10_T,自尊,信息判断能力
0,94.0,1.0,58.0,已婚,未上过学,群众,佛教,牧民,三千元以下,6.0,...,24.0,基本满意,25.0,基本满意,3.0,3.0,3.0,3.0,30.0,13.0
1,30.0,1.0,45.0,已婚,未上过学,群众,佛教,牧民,三千元以下,6.0,...,26.0,满意,26.0,满意,3.0,3.0,3.0,3.0,30.0,15.0
2,31.0,1.0,48.0,已婚,未上过学,群众,佛教,牧民,三千元以下,6.0,...,29.0,满意,27.0,满意,3.0,3.0,3.0,3.0,30.0,13.0
3,93.0,1.0,74.0,已婚,小学,中共党员,佛教,村干部,三千元以下,6.0,...,33.0,非常满意,32.0,非常满意,4.0,3.0,4.0,4.0,35.0,10.0
4,76.0,1.0,31.0,已婚,小学,群众,佛教,牧民,三千元以下,7.0,...,25.0,基本满意,25.0,基本满意,3.0,3.0,3.0,3.0,29.0,14.0


In [22]:
np.asarray(数据表)

array([[94.0, 1.0, 58.0, ..., 3.0, 30.0, 13.0],
       [30.0, 1.0, 45.0, ..., 3.0, 30.0, 15.0],
       [31.0, 1.0, 48.0, ..., 3.0, 30.0, 13.0],
       ...,
       [53.0, 1.0, 49.0, ..., 4.0, 32.0, 12.0],
       [55.0, 1.0, 19.0, ..., 3.0, 29.0, 20.0],
       [58.0, 1.0, 50.0, ..., 4.0, 37.0, 21.0]], dtype=object)

In [23]:
import statsmodels.api as sm
# 使用指定的五个变量作为自变量进行多元线性回归分析
specified_variables = ['家庭规模', '自尊', '信息判断能力', '工作满意度', '生活满意度']
X_specified = 数据表[specified_variables]
y = 数据表['年龄']  # 因变量

# 多元线性回归
X_specified_with_constant = sm.add_constant(X_specified)  # 添加常数项
model_specified = sm.OLS(y, X_specified_with_constant).fit()

# 显示回归结果
model_specified_summary = model_specified.summary()
model_specified_summary

0,1,2,3
Dep. Variable:,年龄,R-squared:,0.3
Model:,OLS,Adj. R-squared:,0.26
Method:,Least Squares,F-statistic:,7.536
Date:,"Wed, 03 Jan 2024",Prob (F-statistic):,6.28e-06
Time:,22:24:31,Log-Likelihood:,-376.62
No. Observations:,94,AIC:,765.2
Df Residuals:,88,BIC:,780.5
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,38.9678,20.272,1.922,0.058,-1.318,79.254
家庭规模,-0.0490,0.733,-0.067,0.947,-1.506,1.408
自尊,0.1519,0.801,0.190,0.850,-1.440,1.743
信息判断能力,-1.7979,0.430,-4.184,0.000,-2.652,-0.944
工作满意度,0.6791,0.181,3.745,0.000,0.319,1.039
生活满意度,0.3521,0.386,0.913,0.364,-0.414,1.118

0,1,2,3
Omnibus:,0.275,Durbin-Watson:,1.508
Prob(Omnibus):,0.872,Jarque-Bera (JB):,0.06
Skew:,0.051,Prob(JB):,0.97
Kurtosis:,3.071,Cond. No.,699.0
