# 明确数据分析目标

1. 了解本地区居民的媒介素养
2. 居民受教育程度与居民媒介素养的相关性
3. 居民受教育程度与居民媒介素养与工作满意度的相关性
4. 多变量交互分类表分析

# 数据清理与转换

## 数据清理
1. 空白值
2. 异常值
3. 重复值
4. 类型设定
5. 逻辑不一致的值

## 数据转换
1. 值的替换
1. 变量改名
2. 变量生成

In [1]:
import mytools
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
# 读取数据表
数据表 = mytools.读取SPSS数据文件(R'data\demo.sav')

In [3]:
数据表.columns

Index(['序号', '@1、您的性别：', '@2、您的年龄：', '@3、您的婚姻状况：', '@4、您的受教育程度是：',
       '@5、您的政治面貌：', '@7、您的信仰是：', '@8、您的职业是：', '@9、您的月收入大约是多少？', '@10、1您家里有',
       '@10、2口人，是', '@10、3代人，家里有', '@10、4位老人，家里有', '@10、5个小孩，外出打工的人有___人。',
       '@11、您平常是否通过电脑上网？', '@12、您平常是否通过手机上网？', '@13、您平时一周有几天通过电脑上网？',
       '@14、您平时一周有几天通过手机上网？', '@15、1您每天通过手机上网的时间大概为', '@15、2分钟，您每天通过电脑上网的时间为',
       '@15、3分钟，您每个月的手机话费为', '@15、4元，您家的宽带费为___元。',
       '@16、互联网使用行为（问卷17题至26题）—17、您', '@16、18、您认为您在上网时使用搜索引擎（百度',
       '@16、19、您经常会通过互联网（辣椒直播、下厨', '@16、20、您认为您玩手机网络游戏（斗地主、斗',
       '@16、21、您经常会通过互联网观看小说么？', '@16、22、您经常会通过互联网观看视频（快手、',
       '@16、23、您认为您通过即时通讯（微信、QQ）与他', '@16、24、您经常会通过社交网络（微博、陌陌、',
       '@16、25、您认为您在互联网（淘宝、拼多多、京', '@16、26、您经常使用移动支付（支付宝、微信支',
       'Q17_1_我目前的生活接近我理想的状态', 'Q17_2_我的生活条件在各方面都很不错。', 'Q17_3_对我目前的生活，我很满意。',
       'Q17_4_到目前为止，我已经得到了我想要的东西', 'Q17_5_如果我能再活一次我没有什么要改变',
       '@18、请表述您最近一周的情感状况—6.爱', '@18、7.愉悦', '@18、8.自豪', '@18、9.愤怒',
       '@18、10.忧虑', '@18、11.悲哀', '@19、第三部分—1.我能够获得足够

In [4]:
#对"数据表"的Pandas DataFrame进行重命名列名
数据表.rename(columns={
    '@2、您的年龄：': '年龄',
    '@4、您的受教育程度是：': '受教育程度',
    '@3、您的婚姻状况：': '婚姻状况',
    '@9、您的月收入大约是多少？': '月收入',
    '@10、1您家里有': '家庭规模',
    '@10、2口人，是': '代际',
    '@5、您的政治面貌：': '政治面貌',
    '@8、您的职业是：':'职业'
}, inplace=True)

In [5]:
# 数据表['家庭规模'].mean() 
# 计算该列平均值
数据表['年龄'].mean()

43.67741935483871

In [6]:
# 将数据表中为'代际'的列中的'(空)'值替换为None，并统计该列中各个值的出现次数
数据表['代际'].replace({'(空)':None}, inplace=True)
数据表['代际'].value_counts()

代际
3    59
2    18
4     8
1     2
5     1
Name: count, dtype: int64

In [7]:
# 将数据表中的缺失值（NaN）替换为指定的默认值
数据表['年龄'].fillna(43, inplace=True)
数据表['婚姻状况'].fillna('已婚', inplace=True)
数据表['月收入'].fillna('三千元以下', inplace=True)
数据表['家庭规模'].fillna(6, inplace=True)
数据表['代际'].fillna(3, inplace=True)

In [8]:
# 计算均值和标准差
mean = 数据表['年龄'].mean()
std = 数据表['年龄'].std()
condition1 = (数据表['年龄'] < mean - 3 * std) | (数据表['年龄'] > mean + 3 * std)
# 识别异常值
outliers1 = 数据表[condition1]
print('使用标准差判断的异常值为：',outliers1)

使用标准差判断的异常值为： Empty DataFrame
Columns: [序号, @1、您的性别：, 年龄, 婚姻状况, 受教育程度, 政治面貌, @7、您的信仰是：, 职业, 月收入, 家庭规模, 代际, @10、3代人，家里有, @10、4位老人，家里有, @10、5个小孩，外出打工的人有___人。, @11、您平常是否通过电脑上网？, @12、您平常是否通过手机上网？, @13、您平时一周有几天通过电脑上网？, @14、您平时一周有几天通过手机上网？, @15、1您每天通过手机上网的时间大概为, @15、2分钟，您每天通过电脑上网的时间为, @15、3分钟，您每个月的手机话费为, @15、4元，您家的宽带费为___元。, @16、互联网使用行为（问卷17题至26题）—17、您, @16、18、您认为您在上网时使用搜索引擎（百度, @16、19、您经常会通过互联网（辣椒直播、下厨, @16、20、您认为您玩手机网络游戏（斗地主、斗, @16、21、您经常会通过互联网观看小说么？, @16、22、您经常会通过互联网观看视频（快手、, @16、23、您认为您通过即时通讯（微信、QQ）与他, @16、24、您经常会通过社交网络（微博、陌陌、, @16、25、您认为您在互联网（淘宝、拼多多、京, @16、26、您经常使用移动支付（支付宝、微信支, Q17_1_我目前的生活接近我理想的状态, Q17_2_我的生活条件在各方面都很不错。, Q17_3_对我目前的生活，我很满意。, Q17_4_到目前为止，我已经得到了我想要的东西, Q17_5_如果我能再活一次我没有什么要改变, @18、请表述您最近一周的情感状况—6.爱, @18、7.愉悦, @18、8.自豪, @18、9.愤怒, @18、10.忧虑, @18、11.悲哀, @19、第三部分—1.我能够获得足够有用的媒介信, @19、2.我能够不断更新自己的信息获取技能。, @19、3.我具有较强的信息获取意识。, @19、4.我能够熟练使用软件工具进行信息检索。, @19、5.我能够通过寻找佐证资料判断信息的可信, @19、6.能够通过标题、内容等判断信息的可信度, @19、7.我能够判断当前信息是在陈述事实还是表, @19、8.我能够评估媒介信息内容对他人或社会可, @19、9.我能够通过信息发布机构的权威性判断

In [9]:
mytools.使用标准差判断数值变量异常值(数据表,'年龄')

使用标准差判断的异常值为： Empty DataFrame
Columns: [序号, @1、您的性别：, 年龄, 婚姻状况, 受教育程度, 政治面貌, @7、您的信仰是：, 职业, 月收入, 家庭规模, 代际, @10、3代人，家里有, @10、4位老人，家里有, @10、5个小孩，外出打工的人有___人。, @11、您平常是否通过电脑上网？, @12、您平常是否通过手机上网？, @13、您平时一周有几天通过电脑上网？, @14、您平时一周有几天通过手机上网？, @15、1您每天通过手机上网的时间大概为, @15、2分钟，您每天通过电脑上网的时间为, @15、3分钟，您每个月的手机话费为, @15、4元，您家的宽带费为___元。, @16、互联网使用行为（问卷17题至26题）—17、您, @16、18、您认为您在上网时使用搜索引擎（百度, @16、19、您经常会通过互联网（辣椒直播、下厨, @16、20、您认为您玩手机网络游戏（斗地主、斗, @16、21、您经常会通过互联网观看小说么？, @16、22、您经常会通过互联网观看视频（快手、, @16、23、您认为您通过即时通讯（微信、QQ）与他, @16、24、您经常会通过社交网络（微博、陌陌、, @16、25、您认为您在互联网（淘宝、拼多多、京, @16、26、您经常使用移动支付（支付宝、微信支, Q17_1_我目前的生活接近我理想的状态, Q17_2_我的生活条件在各方面都很不错。, Q17_3_对我目前的生活，我很满意。, Q17_4_到目前为止，我已经得到了我想要的东西, Q17_5_如果我能再活一次我没有什么要改变, @18、请表述您最近一周的情感状况—6.爱, @18、7.愉悦, @18、8.自豪, @18、9.愤怒, @18、10.忧虑, @18、11.悲哀, @19、第三部分—1.我能够获得足够有用的媒介信, @19、2.我能够不断更新自己的信息获取技能。, @19、3.我具有较强的信息获取意识。, @19、4.我能够熟练使用软件工具进行信息检索。, @19、5.我能够通过寻找佐证资料判断信息的可信, @19、6.能够通过标题、内容等判断信息的可信度, @19、7.我能够判断当前信息是在陈述事实还是表, @19、8.我能够评估媒介信息内容对他人或社会可, @19、9.我能够通过信息发布机构的权威性判断

In [10]:
# 查看数据表中'代际'列的数据类型。
数据表['代际'].dtypes

dtype('O')

In [11]:
#将数据表中'代际'列的数据类型转换为整数型
数据表.astype({"代际": "int"}).dtypes

序号           float64
@1、您的性别：     float64
年龄           float64
婚姻状况        category
受教育程度       category
              ...   
生活满意度        float64
生活满意度区间     category
工作满意度        float64
工作满意度区间     category
自尊           float64
Length: 89, dtype: object

In [12]:
# 将“代际”列中的值按照给定的字典映射进行转换。
数据表['代际'].map({1:1,2:2,3:3,4:4,5:5})

0     3.0
1     3.0
2     3.0
3     3.0
4     NaN
     ... 
89    NaN
90    NaN
91    NaN
92    NaN
93    NaN
Name: 代际, Length: 94, dtype: float64

In [13]:
# 变量类型设置
数据表['年龄'].dtypes
数据表.astype({'年龄':"int"}).dtypes

序号           float64
@1、您的性别：     float64
年龄             int32
婚姻状况        category
受教育程度       category
              ...   
生活满意度        float64
生活满意度区间     category
工作满意度        float64
工作满意度区间     category
自尊           float64
Length: 89, dtype: object

In [14]:
# 生成新的变量
数据表['信息判断能力'] = 数据表['@19、5.我能够通过寻找佐证资料判断信息的可信']+数据表['@19、6.能够通过标题、内容等判断信息的可信度']+数据表['@19、7.我能够判断当前信息是在陈述事实还是表']+数据表['@19、8.我能够评估媒介信息内容对他人或社会可']+数据表['@19、9.我能够通过信息发布机构的权威性判断信']

In [15]:
# 单变量数据分析

mytools.使用plotly绘制类别变量柱状图(数据表,'信息判断能力')

In [16]:
# 双变量相关性分析
mytools.类别变量与数值变量统计分析(数据表, '受教育程度','信息判断能力')

各个类别的平均值：
受教育程度
未上过学      12.580645
小学        13.607843
初中        15.428571
高中        19.666667
大学        18.500000
研究生及以上          NaN
Name: 信息判断能力, dtype: float64
相关比率：0.1869622973550752
高度相关
F检验的p值：0.0009318223639707978
                            OLS Regression Results                            
Dep. Variable:                 信息判断能力   R-squared:                       0.187
Model:                            OLS   Adj. R-squared:                  0.150
Method:                 Least Squares   F-statistic:                     5.117
Date:                Thu, 04 Jan 2024   Prob (F-statistic):           0.000932
Time:                        12:37:22   Log-Likelihood:                -240.93
No. Observations:                  94   AIC:                             491.9
Df Residuals:                      89   BIC:                             504.6
Df Model:                           4                                         
Covariance Type:            nonrobust                             


divide by zero encountered in scalar divide



In [17]:
mytools.两个数值变量的统计分析(数据表,'信息判断能力','工作满意度')

决定系数r平方：0.0087
微弱相关或不相关
p值： 0.3723
接受虚无假设


In [18]:
# 创建受教育程度、工作满意度、信息判断能力的交互表
cross_tab = pd.crosstab(index=[数据表['工作满意度'], 数据表['信息判断能力']], 
                        columns=数据表['受教育程度'], 
                        margins=True, normalize=True)  

cross_tab

Unnamed: 0_level_0,受教育程度,未上过学,小学,初中,高中,大学,All
工作满意度,信息判断能力,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
-10.0,10.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
-10.0,14.0,0.000000,0.000000,0.010638,0.000000,0.000000,0.010638
-10.0,16.0,0.000000,0.000000,0.000000,0.000000,0.010638,0.010638
-10.0,20.0,0.000000,0.000000,0.000000,0.010638,0.000000,0.010638
10.0,10.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
...,...,...,...,...,...,...,...
32.0,18.0,0.000000,0.000000,0.010638,0.000000,0.000000,0.010638
33.0,15.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
33.0,17.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638
34.0,21.0,0.000000,0.010638,0.000000,0.000000,0.000000,0.010638


In [19]:
#在特定受教育程度区间内，不同的“工作满意度”和“信息判断能力”类别之间的联合频率分布。
specific = '高中'
# 筛选出特定受教育程度区间的数据
需要分析的数据 =数据表[数据表['受教育程度'] == specific]
# 创建工作满意度和信息判断能力的交互表
cross_tab_specific = pd.crosstab(需要分析的数据['工作满意度'], 需要分析的数据['信息判断能力'],margins=True,normalize=True)
# 进行卡方检验
chi2_grade, p_grade, dof_grade, expected_grade = stats.chi2_contingency(cross_tab_specific)
print(chi2_grade,p_grade)
cross_tab_specific

0.25 0.9928090154076699


信息判断能力,19.0,20.0,All
工作满意度,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-10.0,0.0,0.333333,0.333333
30.0,0.333333,0.333333,0.666667
All,0.333333,0.666667,1.0


In [20]:
mytools.两个无序类别变量的统计分析(需要分析的数据,'受教育程度','工作满意度')

tau_y系数: 0.0000 极弱相关或无相关
----  -  -
高中  1  2
----  -  -
卡方值： 0.00, p值： 1.0000,自由度:0。
接受虚无假设


In [21]:
数据表.head()

Unnamed: 0,序号,@1、您的性别：,年龄,婚姻状况,受教育程度,政治面貌,@7、您的信仰是：,职业,月收入,家庭规模,...,@28、问卷编号,@30、问卷录入过程中其他需要说明的问题（若没,年龄段,每周上网时长,生活满意度,生活满意度区间,工作满意度,工作满意度区间,自尊,信息判断能力
0,94.0,1.0,58.0,已婚,未上过学,群众,佛教,牧民,三千元以下,6.0,...,GZ04,(空),5.0,,24.0,基本满意,25.0,基本满意,30.0,13.0
1,30.0,1.0,45.0,已婚,未上过学,群众,佛教,牧民,三千元以下,6.0,...,TG30,无,4.0,,26.0,满意,26.0,满意,30.0,15.0
2,31.0,1.0,48.0,已婚,未上过学,群众,佛教,牧民,三千元以下,6.0,...,TG31,无,4.0,,29.0,满意,27.0,满意,30.0,13.0
3,93.0,1.0,74.0,已婚,小学,中共党员,佛教,村干部,三千元以下,6.0,...,GZ03,(空),6.0,0.0,33.0,非常满意,32.0,非常满意,35.0,10.0
4,76.0,1.0,31.0,已婚,小学,群众,佛教,牧民,三千元以下,7.0,...,LD02,无,3.0,9.333333,25.0,基本满意,25.0,基本满意,29.0,14.0


# 得出结论

1. 本地区居民的媒介素养良好，体现在信息判断能力集中在10到16，16到20的数量大于0到10的数量。
2. F检测的p值很小，模型是显著的，意味着受教育程度对信息判断能力有显著的影响，即居民受教育程度与居民媒介素养的相关性较强。
3. 在特定的受教育程度区间内，工作满意度和信息判断能力两个变量之间没有明显的关联或关系，受教育程度与工作满意度极弱相关或无相关。
