第(3/3)页 …… “卧槽,他怎么还列上数学式子了呢?” 众教授连忙再次望向手机屏幕! 【设有m个输入变量 x ={x?,x?,…,xm},有n个可能取值分类型变量 y ={y?,y?,…,yn},则根据贝叶斯定理有: p( y = y0|x?,x?,…,xm)= p( x?,x?,…,xm…… 根据最大后验概率原则,输出变量应预测n个后验概率中最大的概率值对应的类别。 …… 首先将前八十回标记为类别1,将后四十回标记为类别2,进行朴素贝叶斯分类估计。 …… 由表可知,准确率最小值为0.76000,而最大准确率达1(对测试集分类百分之百正确),平均准确率为0.91609。 假定两种分类方式的准确率总体服从正态分布,因为样本量为1000,属于大样本检验,因此采用z检验。建立假设并进行检验: h0 :μ1 -μ2 ≤ 0 h1:μ1 -μ2 > 0 …… 其中 ,xˉ1 = 0.91609 ,xˉ2 = 0.61587 ,s 2 1 = 0.00192 , s 2 2 = 0.00746 …… 既然p是极显著大于p2的,那么就说明前八十回与后四十回的分类方式相比于任意一般的分类方式而言,类别之间的差异性更明显,即前八十回和后四十回文本特征存在显著的差异。 也就是说,从虚字角度分析,前八十回和后四十回,也不是同一作者的手笔。 因此,无论是从高频词汇分析,还是从虚字分析,通过科学方法研究后,我得出以下结论:《红楼梦》前80回,和后四十回,并不是出自同一人之手。】 弹幕上终于松了一口气: “终于完事了,脑袋里全是浆糊,懵了啊!” “我刚刚究竟看了个啥?” “全程懵逼中!” “我突然想喷几句话,但发现我完全不知道从何喷起。因为我啥啥都没听懂啊!” “视频还没结束么?哟,才进行了三分之二?” “还没结束么?” 【下面,为了对我的研究成果进行验证,我们引入bp神经网络。 所谓bp神经网络是一种利用误差反向传播算法的人工神经网络,可以有效的解决很复杂的有大量互相相关的分类问题……】 弹幕,集体崩溃了。 “我靠,又来!” “神啊,救救我吧。” “请直接说结论!!” “苍了个天!” …… 【朴素贝叶斯分类器平均准确率为0.91677,方差为0.00201;而bp神经网络分类器平均准确率为0.93513,方差为0.00175。 因此,我的研究成果是没有问题的。 综上所述,从高频词汇角度研究,我运用各组高频词汇频数变化折线图。从虚字角度,用了朴素贝叶斯和bp神经网络分类方法,作了组内与组间对照研究。 结果表明,】 视频中,三无的语气加重,严肃而肯定: “《红楼梦》前八十回与后四十回文本特征存在显著的差异性,即前八十回和后四十回作者不是同一个人!】 短视频播放完毕! 富旦大学办公室内,围观的众教授,一头雾水! 此时此刻,他们和所有网友一样,都没看懂。 这个全程运用了统计学、计算机技术等科学手段进行文史研究的方法,对于这一世的人们来说,太超前了。 虽然在前世司空见惯,但是在这一世,所有人是闻所未闻,见所未见! “三无关于《后出师表》的研究,我听得明明白白的。但是这个我完全懵了。” “我完全理解不了他刚刚的内容,是对是错,完全不明白啊!” “咱们先别谈这个研究哈,张主任,你竟然认识三无,你也太厉害了吧?” “张主任人脉是广啊,竟然连三无都认识!” “原来你的朋友,竟然是大名鼎鼎的三无,哇,你真的是神通广大啊。” “张主任,您干嘛去?” “张主任?” 张主任突然转身离去,一路小跑着奔向楼梯,同事的声音早已来不及回答。 (ps:文中公式是错的,因为正确的公式,字体识别不出来。) 第(3/3)页