中科院计算所信息检索组 – IR Group, ICT, CAS

信息检索(Information Retrieval) | 自然语言处理(Natural Language Processing) | 数据挖掘(Data Mining)

7月22日(周五)上午9点半,都伯林城市大学的Gareth Jones博士等一行4人访问了课题组并在计算所440教室做学术报告!Gareth Jones博士是信息检索领域的著名学者,曾经获得1次SIGIR best paper award,其指导的学生获得1次SIGIR best student paper award,是即将召开的SIGIR2013的大会主席之一(另一位是下面的第一个报告人Paraic Sheridan)。以下为报告内容及个人简历: (1) Introduction to the Centre for Next Generation Localisation (CNGL) by Paraic Sheridan Language barriers constitute a formidable obstacle to the free flow of nformation, products and services in an increasingly globalised economy and information society. “Localisation” refers to the process of adapting digital content to [...]

7月13日下午,受王斌老师邀请,微软亚洲研究院的刘铁岩博士和秦涛博士访问本组并和大家进行了深入的学术交流。这些年来两位博士在排序机器学习领域做了大量令人瞩目的工作,是本领域的两位杰出学术代表。两位博士首先介绍了微软亚洲研究院在Web搜索和挖掘方面的相关研究架构,接着总结了他们在排序机器学习(Learning to Rank)领域取得的成果,最后对在线广告领域的现状和趋势进行了分析和归纳。之后,王斌老师也介绍了课题组这些年的发展和科研等情况。交流当中,双方就感兴趣的问题进行了热烈的讨论。交流结束后,大家都表示,希望能够进一步加强学术交流和合作,从而促进双方的进一步发展。

2011年7月1日,SIGKDD-CUP 2011(http://kddcup.yahoo.com/index.php)落下帷幕,我组09级硕士生鲁凯等提交的结果在任务一中排名第6(据悉总共有1878支参赛队伍)。 SIGKDD-CUP是数据挖掘领域顶级会议SIGKDD中的一项国际性比赛,自从1997年起至今已经连续举办了15届,吸引了越来越多的研究者的关注。SIGKDD-Cup 2011的竞赛主题是音乐推荐,其中包含两项任务:任务一是预测用户对给定音乐的打分值(0-100),任务二是预测用户是否喜欢给定的音乐(1/0)。本次比赛的数据集是由Yahoo!提供提供,其中任务一包含100多万用户对60多万音乐的近300M的打分数据。我们仅报名参加了任务一。 本次比赛我们主要采用基于时间序列的矩阵分解模型、基于时间序列的邻居模型、基于音乐层次结果的隐参数模型、最大边际矩阵分解(MMMF)、受限玻尔兹曼机(RBM)等为代表的多种预测模型混合的方法。关于该次比赛的详细介绍访问网页:http://kddcup.yahoo.com/workshop.php。

应王斌老师的邀请,文本分类领域的著名学者CMU的Yiming Yang(杨颐明)教授将于7月18日访问计算所,并做题为Modeling Novelty in Multi-session Retrieval的学术报告。 报告时间:7月18日周一上午9:30-11:30 报告地点:计算所4层报告厅 报告题目:Modeling Novelty in Multi-session Retrieval 报告摘要: An open challenge in information retrieval is to detect the novel information from sequenced ranked lists, and to optimize system’s utility with respect to both relevance and novelty. Modeling novelty is difficult because novelty depends on user browsing history, and user [...]

计算所2012年度免试生录取工作即将开始(请关注计算所主页,同时关注院研究生院招生报名网站),本课题组今年仅有1名免试研究生名额(硕博连读优先),另1名额用于明年统招,欢迎优秀学生加盟。除满足计算所的基本报名条件之外,具有如下条件者优先: 1、对计算机、信息检索领域具有强烈的兴趣 2、具有很强的计算机专业基础和动手能力 3、具有很强的数学功底和英语能力 4、具有很强的口头表达和文字表达能力 5、具有很强的自信心 6、具有开朗豁达的性格、乐观向上的精神 7、同等条件下,优先考虑硕博连读 联系方法:请将能够证明你一切能力的材料发给王斌老师(wangbin@ict.ac.cn, 含能反映你精神面貌的近照),收到之后一定会有回复。 免试流程:联系导师–>回复–>初选–>参加计算所统一组织的英语口试、实验室组织的面试、课题组组织的机试–>录取 相关问题说明: 从以往看,由于名额十分有限,竞争又相当激烈,录取也难免存在主观和随机性,整个计算所免试的录取比例不高,请酌情考虑,并做好多手准备。 没有被本组录取并不代表你不优秀,从以往看,经本组推荐,不少学生由于表现优秀仍然能够被计算所其它课题组录取。 以上仅代表往年情况,对于今年来说没有必然性,仅供参考。 建议不要刚下火车就参加面试,以免面试表现不佳,最好有充分的休息时间,以便在面试时精神饱满,充分发挥自己的最高水平。 建议考生事先和我联系,让我有充分的了解,万一本组没有名额录取时,也能有推荐的理由。当然由于参加计算所免试的学生大都非常优秀,我的推荐不能保证会被录取。 面试、笔试主要考察计算机基础知识、也会涉及数学、英语等基础知识,上机(选一种语言c/c++/java)考察动手能力。 面试有时会通知制作个人介绍的ppt,每年都不同,请注意通知信息。  

2011年度国家留学基金委公派联合培养研究生项目申请结果日前公布,我组博士生李鹏同学脱颖而出,获得全额资助。李鹏同学将于9月启程前往加拿大蒙特利尔大学聂建云教授所在的RALI实验室进行为期一年的研究。

5月31日上午,应王斌老师的邀请,清华大学计算机系博士生梁斌来课题组交流并介绍了他在THUIRDB方面所做的工作。梁斌是《走进搜索引擎》一书的作者,也是《Managing Gigabytes: Compressing and Indexing Documents and Images》(中文名《深入搜索引擎: 海量信息的压缩、索引及查询》)的中文版独立译者。 图为梁斌在报告中。  

5月26日晚,本组两名硕士生赵琴琴、崔雅超顺利完成毕业论文答辩,她们的毕业论文题目分别是《基于内存的协同过滤推荐算法研究》和《网页广告关键词抽取技术研究》。毕业后,赵琴琴将去美国继续求学,崔雅超则就职于中国银行总部。 图1:赵琴琴(左)和王斌老师(右)合影 图2:崔雅超(中)和李锦涛老师(右)、王斌老师(左)合影

2011年4月18日至21日,二年级博士生李鹏参加了在爱尔兰都柏林举行的第33届欧洲信息检索年会(ECIR2011), 在会议上李鹏做了User-related Tag Expansion for Web Document Clustering的论文报告,并同来自世界各地的会议代表进行了广泛的交流。据悉,本次会议长文共录用45篇,在收录的论文中,社会关系网络(social networks)的研究呈增长趋势。

受王斌老师邀请,英国Robert Gordon大学宋大为(Dawei Song)教授、天津大学侯越先教授等一行5人于3月14日上午访问了本课题组。在与课题组进行深入交流的同时,宋教授一行还在所440会议室做了题为“Toward context-sensitive and adaptive information retrieval”的精彩的学术报告。本次学术报告包含宋教授的课题组近年来在query language model, term dependency, relevance feedback, distribution estimation, video retrieval等方面的一系列工作。有来自计算所、软件所、自动化所等单位的60余名老师和学生参加了本次报告,其中包括加拿大蒙特利尔大学聂建云教授、软件所孙乐研究员、计算所贺思敏研究员等。 宋大为教授是国际IR领域的著名学者,在SIGIR、CIKM、ACL、TOIS、JASIST等著名会议和期刊上发表了数十篇学术论文,承担了英国、欧盟、企业等支持的10余项研究课题。宋教授目前也是天津大学兼职教授、博导。侯越先教授为天津大学计算机学院网络智能研究所所长,主要研究兴趣包括:机器学习、信息检索和自然语言处理。近年来负责了多项国家自然科学基金项和欧盟合作项目,其研究结果发表于SIGIR、ACL、TNN、TKDE和等高水平会议和期刊。图为两位教授分别在报告中。