权威期刊网官方网站

敏感性问题理论模型的应用研究

2020-08-29 00:00:00 来源:《创新时代》2020年7期 作者:徐奇缘,陶娅婷,周欣,邓亮

敏感性问题理论模型的应用研究

徐奇缘 陶娅婷 周欣 邓亮

扬州大学 江苏扬州 225000

摘要

随着社会的发展进步,涉及敏感性问题的调查也将越来越普遍。敏感性问题的调查方法主要有随机化应答技术和非随机化应答技术两大分类。随机化应答技术需要一定的随机性,往往采用抽球的形式或者卡片的形式控制比例,线下过程繁琐且可操作性较弱,而非随机问答模型无需随机性,结合当前较为流行的网络问卷的方式进行,能够更好地保护被调查者的个人隐私,更易得到真实的回答。

我们以大学生作弊问题为例,查阅资料得到大学生的作弊率,通过蒙特卡罗算法模拟生成大学生信息阵,分别用Simmons模型和三角模型对同一组模拟数据进行调查。考虑到作弊率可能受到性别和年级的影响,对上述模型进行改进,先对样本进行分层,再采用Simmons模型和三角模型进行模拟,比较两种模型结果的误差,分析比较得出其中更好的模型。

关键字:Simmons模型;三角模型;分层抽样;大学生作弊问题

  1. Simmons模型和三角模型

  1. Simmons模型

Simmons模型的设计方法为:在1号卡片上写上待调查的敏感性问题 (“你具有特征A吗?”), 而2号卡片上则是与敏感性问题无关的问题 (“你具有特征 B吗?”),即特征 A是敏感特征,而特征B是非敏感特征,具有特征A的比例5f49ad44d63b5_html_be4e2f261d1ecb2e.gif 是未知需要估计的,而具有特征B的人群比例 5f49ad44d63b5_html_cba3cbb9270edcbd.gif 在设计调查时要求数据已知。

Simmons模型的估计量为:

5f49ad44d63b5_html_4a21bcf24574e1a2.gif

  1. 三角模型

令X=1表示具有敏感性特征的人的类别,X=0表示不具有敏感性特征的人的类别。引入二分随机变量Y,假设Y是非敏感且独立于X的。采访者应选取适当的Y使得概率p=P(Y=1)可以容易的被估计,一般假设p己知。要求估计具有敏感性特征的人群比例5f49ad44d63b5_html_238fd522efc333d0.gif =P(X =1)(下标t表示三角模型)。

受访者被要求如实回答见下表左侧部分,并选择自己对应情况的符号。

类别

Y=0

Y=1

类别

Y=0

Y=1

总计

X=0

5f49ad44d63b5_html_a4fcaa91cbc22e83.gif

5f49ad44d63b5_html_80861ed8ea6e8f3.gif

X=0

5f49ad44d63b5_html_b3451a7aa1dadee.gif

5f49ad44d63b5_html_b7df457ad5e34fea.gif

5f49ad44d63b5_html_99ad8902e4938354.gif

X=1

5f49ad44d63b5_html_80861ed8ea6e8f3.gif

5f49ad44d63b5_html_80861ed8ea6e8f3.gif

X=1

5f49ad44d63b5_html_b5eae9197e8aefe5.gif

5f49ad44d63b5_html_434b5de75d7ef4d9.gif

5f49ad44d63b5_html_238fd522efc333d0.gif

总计

5f49ad44d63b5_html_9a18556b76c6a26b.gif

5f49ad44d63b5_html_e17779f32117bdd0.gif

1

由三角模型的设计可知,当受访者选择“5f49ad44d63b5_html_a4fcaa91cbc22e83.gif ”时,表示他不具有敏感性特征X及非敏感特征Y,{X=0,Y=0}是一个不敏感的子类;当受访者选择“5f49ad44d63b5_html_80861ed8ea6e8f3.gif ”时,表示受访者具有敏感特征X或具有非敏感特征Y,由此可知{X=1}5f49ad44d63b5_html_80861ed8ea6e8f3.gif {X=0,Y=1}也是一个不敏感的子类。当无论如何回答都不敏感时,受访者的隐私得到了绝对的保护,则有更高的作答可能性并给出真实答案。

  1. 基于分层抽样的Simmons模型和三角模型

  1. 分层抽样

分层抽样是将被调查总体按照某一特征分为若干层,再针对每一层以简单随机抽样的方法抽取一定量的样本,即每个单元属于且仅属于一个子总体(层),抽样在每一层中独立进行,总体的样本由各层的样本组成,根据各层样本汇总对总体参数做出估计。

分层抽样的具体方法为:

1)分辨总体各单位中的显著特征,按特征将总体各单位分成至少两层,分层标志一般应与所研究的问题有关,通过分层使得层内各单位间的差异尽可能缩小,而层间各单位间的差异尽可能增大,以便降低抽样误差。层与层间相互独立,总体各单位在划分时不重不漏。

2)根据各层单位数、总体单位数和样本容量,确定每一层的抽样比例(抽样比)。

3)依据抽样比在每一层以简单随机抽样的方法抽取样本。

4)汇总每层抽样结果,组成总体抽样样本。

  1. 分层抽样下的Simmons模型

在分层抽样的Simmons模型中,假定总体被分成若干层,每层中的抽样都是按照有放回的简单随机抽样进行的,并且假定层权是已知的,调查的目标量是总体中具有敏感特征的人群比例5f49ad44d63b5_html_e265bcbc251412d5.gif 。在层i中的受访者使用随机化装置5f49ad44d63b5_html_358517aafac59d75.gif 。在这个装置中,受访者抽到写有敏感性问题卡片的概率为5f49ad44d63b5_html_4d9e4a63f425e12f.gif 而抽到写有非敏感问题卡片的概率为5f49ad44d63b5_html_f184ac035be3a41f.gif 。受访者只需回答“是”或“否”而不用回答自己抽到的是哪种卡片。在不同层中,受访者使用不同的随机化装置,每一个装置都对应事先设计好的不同的卡片抽中概率。如果每一位受访者都是真实地回答“是”或“否”并且随机化装置中,那么,第i层中回答“是”的概率为:

5f49ad44d63b5_html_c2987fd669ed065.gif

上式中,5f49ad44d63b5_html_b342624137df708d.gif 是第i层中回答“是”的人数比例,5f49ad44d63b5_html_4ed83f47504d9a1e.gif 是第i层中有敏感性特征的受访者比例,5f49ad44d63b5_html_2397031bd12e5e69.gif 是第i层中受访者抽中写有敏感性问题卡片的概率。

5f49ad44d63b5_html_f25e85fade60c63b.gif 极大似然估计为:

5f49ad44d63b5_html_68c4bbd2778124e8.gif

上式中,5f49ad44d63b5_html_fe65c195aefa5198.gif 是第i层样本中回答“是”的人数比例。由于每一个5f49ad44d63b5_html_8e7360af052ce608.gif 都服从二项分布5f49ad44d63b5_html_ca1cf1b60181c7d2.gif 并且各层中的回答是独立的,很容易得到5f49ad44d63b5_html_7a14b0d6a1b54cf3.gif 的极大似然估计:

5f49ad44d63b5_html_1fe4957edf958e0.gif

若以 N代表总体中的单元数,5f49ad44d63b5_html_6a0f0a0311863ee0.gif 表示第i层子总体中的单元个数,那么5f49ad44d63b5_html_bc08c2411d0c465d.gif 为各层层权。

  1. 分层抽样下的三角模型

分层抽样下的三角模型中有敏感性特征X和非敏感性特征Y两个特征量,X、Y均为二分随机变量且相互独立。令5f49ad44d63b5_html_d4499c5d0be64137.gif 表示第i层子总体中具有敏感性特征X的人群比例,5f49ad44d63b5_html_e64fcc3b323abbe1.gif 表示第i层子总体中具有非敏感特征Y的人群比例,5f49ad44d63b5_html_e50d4ffaa22d3f2a.gif 表示第i层5f49ad44d63b5_html_e7f596f699d7ad6a.gif 个子样本中选择“5f49ad44d63b5_html_3f9e1701e5f2ccc3.gif ”的人数,5f49ad44d63b5_html_668536dda0d7ec5c.gif 表示第i层5f49ad44d63b5_html_4f984d7e72aeaad6.gif 个子样本中选择“5f49ad44d63b5_html_56f5260a14c4147e.gif ”的人群比例。采访者应选取适当的Y使得概率5f49ad44d63b5_html_397ff1da40391c67.gif 可以容易的被估计,一般假设5f49ad44d63b5_html_c75607ac38f4a3f.gif5f49ad44d63b5_html_8ca6d6df5204a2b8.gif 均己知。要求估计具有敏感性特征的人群比例5f49ad44d63b5_html_b120d36d0ea1c369.gif (下标t表示三角模型Triangular Model)。

第i层子总体中:

5f49ad44d63b5_html_e701036cf9320acd.gif 可得5f49ad44d63b5_html_3d8a0ec337eb206e.gif

5f49ad44d63b5_html_4be6bfa7d0a756e8.gif 的无偏估计量为5f49ad44d63b5_html_c4885042a9b0ef40.gif ,由三角模型中的结论可知5f49ad44d63b5_html_b39a2a992661a317.gif

5f49ad44d63b5_html_6c77f4941a6fa491.gif5f49ad44d63b5_html_1d09631448a84fbd.gif 的无偏估计。

调查总体中

5f49ad44d63b5_html_bebf34302ba5e3d2.gif 的估计量为5f49ad44d63b5_html_84a2b45e1947b860.gif

其中5f49ad44d63b5_html_f9e5c8576d3e50b1.gif 为第i层的权重,5f49ad44d63b5_html_66e6745072890ac1.gif

  1. 仿真模拟

  1. 蒙特卡罗算法

蒙特卡洛模拟以概率论与数理统计知识为基础,利用计算机来模拟实际的物理过程,以获得问题的近似解。蒙特卡洛模拟的基本思想是通过某种“试验”,得到某事件出现的频率,或者随机变数的均值,将其作为该事件出现的概率,是一种数字模拟实验。

  1. 置信区间

通过查阅相关资料,我们了解到当代大学生的作弊率大概在21%,记为5f49ad44d63b5_html_91554db36012a81b.gif

在样本量大的情况下,可以把二项分布问题转化为正态分布的问题近似求解,则样本比例5f49ad44d63b5_html_3957b3d6435f5f83.gif 服从均值为5f49ad44d63b5_html_91554db36012a81b.gif ,方差为5f49ad44d63b5_html_60e2c8214c722a2e.gif 的正态分布,即5f49ad44d63b5_html_adffad40218ad43b.gif

选用5f49ad44d63b5_html_e323d939e9a42346.gif 统计量,5f49ad44d63b5_html_a45ec632bcd338cf.gif ,在置信水平为95%的条件下,利用不等式5f49ad44d63b5_html_942f99cdd61295d6.gif ,计算出5f49ad44d63b5_html_3957b3d6435f5f83.gif 的取值范围,即置信区间,为5f49ad44d63b5_html_9c5a784a679fe0d4.gif ,代入得5f49ad44d63b5_html_99201c499dbbcaee.gif

  1. 模型数据准备

某学校某学院学大一到大四各年级男女生人数及总人数如下表所示:

某学院人数分布表

大一

大二

大三

大四

总人数

男生

78

77

76

74

305

女生

155

215

191

130

691

总人数

233

292

267

204

996

结合人数及作弊率可计算出作弊率的置信区间为5f49ad44d63b5_html_99201c499dbbcaee.gif

在置信区间中我们选取19%、21%和23%三个作弊率作为大学生信息阵的总体作弊率。

  1. Simmons模型和三角模型的仿真实现

根据前文计算得出的作弊率并结合某学院人数的实际情况,运用蒙特卡洛算法生成样本总量为996人次,男女比例设定305:691,作弊率分别为19%、21%及23%的大学生信息阵。

信息阵以{X,Y,Z}的矩阵形式呈现,其中X=1代表作弊,X=0代表没作弊,Y=1代表是男生,Y=0代表是女生,Z=1代表抽中第一个问题需要回答是否作弊,Z=0代表抽中第二个问题需要回答性别是否是男生。对于模型中设定抽中回答第一个问题的概率为0.7,重复实验100次,在不同作弊率下得到两个模型每次调查得到的作弊率以及100次实验的均值以及误差如下表所示,

真实值

西蒙斯模型

误差平方和

三角模型

误差平方和

19%

0.1892

0.0176

0.1901

0.0072

21%

0.2083

0.0161

0.2101

0.0079

23%

0.2288

0.0165

0.2296

0.0091

以作弊率为21%为例,运用MATLAB进行仿真模拟得到的结果如下图所示,其中第三张图表中是Simmons模型和三角模型100次实验的作弊率与真实值之差的平方和。

5f49ad44d63b5_html_27994237dfc1700b.jpg

从图表中可以看出,三角模型100次实验的结果较Simmons模型更加平稳,波动更小,均值也更靠近测试值,且误差平方和比Simmons模型的更大。因此,在大学生作弊问题上,三角模型优于Simmons模型,具有更高的可信度。

  1. 分层抽样下的Simmons模型和三角模型的仿真实现

在上述数据的基础上,我们对某学院996名学生按年级人数占总人数的比例进行分层抽样,并且保持每个年级男女生比例不变,形成样本量为400人次的大学生信息阵,以此检验分层抽样下Simmons模型和三角模型的优劣。同样是对三组数据分别做100次实验,得出每次实验的测试值以及100次实验的均值与真实值的误差平方和如下表所示:

真实值

分层下西蒙斯模型

误差平方和

分层下三角模型

误差平方和

19%

0.1804

0.0583

0.1805

0.0224

21%

0.2013

0.052

0.2005

0.0252

23%

0.2204

0.0571

0.2211

0.0283

同样以作弊率为21%为例,运用MATLAB进行仿真模拟得到的结果如下图所示

5f49ad44d63b5_html_29e83576382af5a5.jpg

从两模型的对比中可以看出,Simmons模型和三角模型的均值差值可以忽略不计,但三角模型的方差却比Simmons模型小很多。这意味着在只实验一次的情况下,采用三角模型测试的结果不会与真实值相差太大,更稳定,所以相比之下三角模型更好。

  1. 结论

从仿真模拟的结果中可以看出,三角模型较Simmons模型具有更高的准确性。并且三角模型属于非随机问答模型,相对于Simmons模型这种随机问答模型,它无需随机性,因此可以采用线上发放问卷的形式进行。这不仅消除了随机问答模型时空的限制,而且可以大大降低被调查者的顾虑,会得到更加真实的回答。除此以外,在分层抽样的情况下,三角模型也有很好的结果。当被调查者样本量较大,或者被调查者之间有明显的属性特征时,可以先分层,再进行调查,一方面可以大大缩减调查的时间,另一方面也可以提高调查数据的准确性。

参考文献

[1]谢佳斌、王斌会.分层抽样下的西蒙斯随机化回答模型[A].广州:暨南大学,2007.

[2]靳宗达.敏感性问题9种RRT模型下(分层)三阶段抽样调查设计的统计方法及其应用[D].苏州:苏州大学,2014

[3]宋颖潇.敏感性问题调查方法的实证研究与新设计[D].西安:电子科技大学,2019

[4]李光雷. 大学生考试作弊现象的调查研究[D].辽宁:辽宁师范大学,2013.

作者简介:

徐奇缘(1999-),女,汉族,江苏苏州人,扬州大学本科在读,统计学专业

【基金项目】本文系2019年扬州大学大学生科创基金项目,得到“江苏高校品牌专业建设工程资助项目(数学与应用数学,PPZY2015B109)”经费资助,项目编号:X20190226

5f49ad44d63b5_html_57eb4da3ad53ef71.gif

9