大连民族大学

百尺竿头,更进一步 ——访我校CSDN用户画像技术评测获奖团队

首页 发布时间:2017年10月31日

晚上八点半,综合楼C区812工作室中灯火通明,研究生周建云和卢海涛正有条不紊地处理着数据,任宏菲和曹仁猛则在快速地敲打着键盘,为下一次的比赛编写代码,小小的工作室里,每个人都在忙碌着。

这支团队全部由我校研究生组成,在上个月刚刚捧回了CSDN用户画像技术评测的单项奖冠军奖杯。用户画像是真实用户的虚拟代表,是建立在一系列真实数据上的目标用户模型。参赛队伍要利用给定的CSDN用户内容数据(博客、帖子等)和行为数据(浏览、评论、收藏、转发、点赞/踩、关注、私信等),进行内容主题词生成、用户兴趣标注以及用户成长预测等评测任务。通过对用户社交动机、社交习惯和观念的了解,将多种信息集合在一起并形成独有的特征与气质,这就形成了用户的独特的“画像”。

“我们是在比赛前的最后几天才确定选择一个常规模型,常规模型比较稳定,但想到相对于特殊模型可能没有创新性,我们有很大压力,所以决定在特征处理这方面下功夫,以弥补常规模型选择的不足。”团队主要负责人、信息与通信工程学院研究生张童说。

能够透过表层信息深入挖掘深层次原因,是这个小团队的优势之一。他们的特征处理细致到在分辨一个人的性别,不仅会考虑表面特征,还挖掘一些深层次特征,比如用户骨头的长短,肋骨数目的多少……

在比赛的头两个月,参赛队伍可以随时向主办方网站上传验证集的计算结果,管理系统会及时更新各队伍的排名情况。因此团队每天都要进行精细的程序运算。过程中,难免会出现一些小意外。“有一次跟踪了近一个月的数据,一个同学不小心把数据页面关闭了,导致数据丢失,当时有些紧张,后来在我们的共同努力下数据被找回来了。”团队成员刘波说。

在八月份,参赛团队终于迎来了比赛的重头戏——主办方发布了评测集。张童他们面对的是来自全球200多家单位的757名选手,他们需要在24小时内根据之前通过对验证集计算而得出的最优模型,得到最准确的结果。

好在在计算验证集阶段,团队通过大量的数据分析,得到了较理想的参数,在经过一天的紧张演算后,团队在任务三最后的排名上力压竞争对手,拿到了任务三的冠军。获奖后,主办方邀请他们参加第六届全国社会媒体处理大会。

9月份,团队四名代表前往北京参加会议。“很多参会的选手、评委和嘉宾都在该方面处于国内领先地位,能和他们交流,对于我们来说是一次难得的机会,比如在交谈中我们认识到,在特征处理方面应该注意用户的需求、动机和价值观等动态特征方面的不足。”张童说。

近年来,学校为提升研究生科研水平和创新能力,积极鼓励研究生参加国内外学术交流和学科竞赛,在研究生培养方面成绩显著,研究生教育稳步发展。“我们这次获奖离不开学院领导以及团队导师的帮助,他们不仅在团队成员特征处理和代码编写等方面给予了我们指导,还密切关注我们的状态,是我们最坚强的后盾。”团队成员齐月说。

(学生记者孟鑫师云凡 责任编辑李素梅创意设计杨琨)

分享
检测到当前浏览器版本过低,这会影响网站的显示效果, 请升级浏览器以获得更好的浏览体验。