老师给了我一本关于情感分析的中文书,我准备先学习一下。”
情感分析啊,凌志有所了解。
早年的情感分析基本上是将文本分为积极、消极以及中性三类。
早在十几年前,相关的论文就已经不计其数。
大家争先恐后地在各大会议上发表,并声称自己在公开数据集上取得了最优的效果,尽管分类准确率可能只是零点几个百分点的提升。
如今,这个任务的情感分析准确率早已被刷到了97%以上,再也没人在这个任务上浪费时间了。
如今大家做的情感分析会更细粒化。
如将一句话的情感分为喜怒哀惧等多个类别,看看在哪一种类别上的得分最高,那么这句话就更偏向于哪类情感。
而多分类任务一般的准确率相对较低,在以前可能也就将将过50%。
如今这个任务已经有人做到了80%以上,所以更多的,人们开始进一步将任务细粒化。
比如开始分析一句话中的情感到底是喜悦,还是假装喜悦,是恐惧,还是装作恐惧。
由此带来了一串相关研究任务,如情感方面词提取,情感原因匹配对抽取等等。
凌志虽然不做这个研究方向,但是在入学时也有看过这类的书籍。
想要做情感分析的话,确实比较容易上手,不过想做出好成果,并不容易。
跑模型大家都会,但想要做出新意,效果超过其他所有人,可能付出的努力并不一定会比自己小。
“哦,挺好的,这个方向挺好上手的。
有什么问题我们也可以交流,我以前也了解过一些情感分析的知识。”
();() “好啊,谢谢师兄。
那师兄做的是什么研究方向呢?”
“哦,我呀,我做的是用户身份识别算法,就是根据用户的文本写作风格来判断两个账户是不是属于同一个人。
……”
凌志简单介绍了一下自己的研究方向,只不过没有赘述自己遇到的困难,只是简单说了声自己没有什么重要进展。
“总之现在还是在调模型,大概就是这样。”
韩轻悦在整个过程中都仔细听着,没有发出一丝声音,哪怕是“嗯”
的赞同声都没有。
“嗯,师兄做得很好啊。
这个课题应该很难拿到真实数据集的吧,据说现在的水军账号识别率,也只有0.19%,远远低于预估,更别说账号关联了。”
凌志感觉有些异样,不过他先压下心中的疑惑,感谢道:
“嗯,谢谢你能这么说。
数据集虽然拿不到真实的,但是还是可以模拟一份数据集做下去。
目前的实验状态已经渐渐好转了,坚持做下去肯定会更好。”
凌志稍微犹豫了一下,补充道:
“不过,你刚刚说的水军账号识别率,是从哪里得到的消息?这么准确的数字,我都不知道。”