|
[English] |
|

王斌
博士,副研究员,博士生导师
中国科学院计算技术研究所
wangbinATictDOTacDOTcn
|
|
| |
|
[新闻动态
| 个人简介 | 研究方向 |
研究团队 | 研究项目 |
论文论著 |
翻译教材 |
学术报告 |
学术任职 |
所获奖励 | 课程教学 |
学生培养 | 相关资源 |
兴趣爱好 |
个人微博]
|
| |
| |
|
新闻动态 |
|
|
|
2011年6月26日:关于2012年度免试研究生录取工作。计算所2012推免生录取
工作即将开始,本课题组今年有1名免试研究生名额(硕博连读者优先),欢迎优秀学生加盟。具体信息参见>>>>
2010年7月14日,Manning等人Introduction
to Information Retrieval的中文翻译版《信息检索导论》即将出版。详情参见>>>>
2010年7月7日:关于免试研究生录取工作。计算所免试生录取
工作即将开始,本课题组今年有2名免试研究生名额(可硕博连读),欢迎优秀学生加盟。具体信息参见>>>> 2009年6月10日:博士后招聘----因科研工作需要,需招聘博士后研究人员一名,从事信息检索相关的科研工作,基本要求和待遇如下:
1、具有博士学位,有信息检索相关研究经历,并具备较强的开发能力;
2、具有良好的机器学习、数据挖掘和自然语言处理背景,在国内外会议和期刊上发表了高质量的学术论文;
3、有良好的团队合作精神,工作勤奋、踏实。
4、有良好的组织管理能力。
5、享受中科院计算所关于博士后人员的有关待遇。
招聘单位:中国科学院计算技术研究所
联系人:王斌老师,电话 010-62601350
截止时间:2009年7月31日
有意者请将如下信息以邮件方式发送给联系人:
1、个人简历;
2、已发表(包括已正式录用)的论文清单;
3、两篇最能代表本人学术水平的论文全文;
4、开发过的系统介绍。 |
|
**2008年5月8日:个人主页改版!
访问旧主页 |
|
|
|
个人简介 |
|
出生于江西省鄱阳县,1989年9月从江西省万年中学考入武汉大学计算机科学系,分别于1993年、1996年获得学士及硕士学位,1996年9月进入中国科学院计算技术研究所第二研究室机器翻译组攻读博士研究生,1999年7月毕业并获得博士学位,后留所工作至今。2002年获得国家留学基金委高级访问学者资助,并于2004年出访爱尔兰都柏林城市大学。
现为中国科学院计算技术研究所前瞻研究实验室信息检索课题组组长、副研究员、博士生导师。主要研究方向为信息检索及自然语言处理。
近年来,先后主持多项国家973子课题、863、国家自然科学基金、国际合作基金、国家信息安全保障持续发展计划、北京市自然科学
基金、企业横向合作等课题。目前在包括国际重要会议SIGIR、CIKM、EMNLP等在内的会议和刊物上发表及合作发表学术论文100余篇。获得软件注册3项,专利2项。
担任CIKM、COLING、AIRS多个国际国内会议的程序委员会及组织委员会委员。ACM会员、IEEE会员,中国计算机学会高级会员/Yosef委员,
中国计算机学会中文信息处理专业委员会委员,中文信息学会会员,中文信息学会信息检索专业委员会委员,《中文信息学报》编委。
领导课题组多次参加国际文本检索评测会议(TREC)并获得好成绩,获得2004年度国家科技进步二等奖,所在团队3次被评为计算所优秀集体,多次获得所优秀员工奖及优秀教师奖。
迄今招收研究生30余名,已有4人获得博士学位,12人获得硕士学位。 |
|
|
|
|
|
研究方向 |
|
主要研究兴趣为信息检索(Information Retrieval,
IR)及自然语言处理(Natural Language
Processing, NLP)。
信息检索是研究大规模环境下的信息获取、组织、存储和访问的一门学科,而自然语言处理是对文本进行分析和理解的一门学科。希望通过能够综合自然语言理解(NLP)、机器学习(Machine Learning-ML)、数据挖掘(Data Mining-DM)、统计分析(Statistical Analyis-SA)等技术用于信息检索中,来提高信息检索的精度。
目前开展的主要研究是基于查询的理解(Query Understanding)及用户行为分析(User Action
Mining)进行快速的自适应信息检索(Adaptive IR)和交互式信息检索(Interactive IR)。
关于信息检索的介绍可以参考>>>>

研究布局 |
|
| |
|
研究团队 |
|
研究组成立于2005年11月1日,(截止到2011年12月)目前有员工1人,博士研究生9人,硕士研究生7人,
客座研究生2人。研究组主页
http://ir.ict.ac.cn/

2007年合影 |
| |
| |
|
承担课题 |
|
目前承担和参与国家973、863、国家自然科学基金、北京市自然科学基金、计算所创新基金等课题。 |
| |
| |
|
近期论文论著 |
-
Peng
Li, Bin Wang, Wei Jin, Yachao Cui,
User-related Tag Expansion for Web Document
Clustering, in the Proceedings of the 33rd
European Conference on Information Retrieval (ECIR
2011), April 18-21, 2011, Dublin, Ireland
(Regular paper acceptance rate≈20%)
-
Hao Lang, Donald Metzler, Bin Wang,
Jintao Li,
Improved Latent Concept Expansion Using Hierarchical Markov Random
Fields, in the Proceedings of the 19th ACM International
Conferences on Information and Knowledge Management (CIKM 2010),
Toronto, Canada 26-30 October 2010 (Regular paper acceptance
rate≈13.3%, ppt)
-
Zhiwei Shi,
Peng Li and Bin Wang,
Using Clustering to Improve Retrieval Evaluation without Relevance
Judgments, in Proceedings of the 23rd International Conference
on Computational Linguistics (COLING 2010),
-
August
23-27, Beijing, China
-
Yanan Li,
Bin Wang, Sheng Xu, Jintao Li, Peng Li,
QueryTrans: Finding Similar Queries Based on Query Trace Graph,
in Proceedings of the 2009 IEEE/WIC/ACM International Conference on
Web Intelligence(WI2009), 15-18 September 2009, Università degli
Studi di Milano Bicocca, Milano, Italy
-
Yang Xu,
Gareth Jones, Bin Wang,
Query Dependent Pseudo Relevance Feedback
Based on Wikipedia,
in Proceedings of the 32nd Annual International
ACM SIGIR Conference (SIGIR2009), Boston, Massachusetts, USA, 19-24
July 2009 (Regular paper acceptance rate ≈ 16%)
-
Hongfang
Jing, Bin Wang, Yahui Yang, Yan Xu,
A General Framework of Feature
Selection for Text Categorization, in Proceedings of the 6th
International Conference on Machine Learning and Data
Mining(MLDM2009), July 23-25, 2009, Leipzig, Germany.
-
Yixuan Liu, Bin
Wang, Fan Ding, Sheng Xu,
Information Retrieval Oriented Word
Segmentation based on Character Association Strength Ranking, in
Proceedings of the 13th conference on Empirical Methods in Natural
Language Processing (EMNLP2008), Waikiki, Honolulu, October 25-27, 2008 (Regular paper acceptance rate ≈ 20%)
-
Yang Xu, Fan Ding, Bin Wang,
Entity-Based Query Reformulation Using Wikipedia
(poster), in Proceedings of the ACM 17th Conference on Information
and Knowledge Management (CIKM2008), p. 1441-1442, Napa Valley, California,
October 26-30, 2008
-
Yang Xu, Fan Ding, Bin Wang,
Utilizing Phrase Based Semantic Information for
Term Dependency (poster), in Proceedings of the 31st Annual
International ACM SIGIR Conference (SIGIR2008), p. 855-856, July 20-24,
Singapore. Student Travel Grant (US$800).
-
Hao Lang, Bin Wang, Gareth Jones, Jintao Li,
Fan Ding, Yixuan Liu,
Query Performance Prediction for Information Retrieval
Based on Covering Topic Score, Journal of Computer Science and Technology,23(4):590-601,
July 2008.Springer
New York LLC, New York, 10013-1578, United States. (SCI, EI 083411470345)
-
Hao Lang, Bin Wang, Gareth Jones, Jintao Li,
Yang Xu, An Evaluation and Analysis of Incorporating Term Dependency for
Ad-hoc Retrieval
(poster), in Proceedings of the 30th European Conference on
Information Retrieval (ECIR2008), p. 602-606. 30th March - 3rd April 2008, Glasgow,
Scotland.
Lecture Notes in Computer Science (including
subseries Lecture Notes in Artificial Intelligence and Lecture Notes in
Bioinformatics), v 4956 LNCS, Advances in Information Retrieval.
(ISTP, EI,
081611205104)
-
Fan
Ding, Bin Wang,
An Axiomatic Approach to Exploit Term
Dependencies in Language Model (poster), in Proceedings of the fourth Asian
Information Retrieval Symposium (AIRS2008), p. 597-602, January 16-18, 2008,
Harbin, China.
-
Fan Ding, Bin Wang,
A Study on Effectiveness of
Syntactic Relationship in Dependence Retrieval Model, in Proceedings of the
third International Joint Conference on Natural Language Processing (IJCNLP
2008), January 7-12, 2008, Hyderabad, India (Regular paper acceptance
rate≈27.8%)
更多论文请参见>>>>> |
| |
| |
|
学术报告 |
| |
| |
| |
|
学术任职 |
|
学术团体
ACM会员
IEEE会员
中国计算机学会高级会员/Yosef委员
中国计算机学会中文信息处理专业委员会委员
中文信息学会会员
中文信息学会信息检索专业委员会委员
《中文信息学报》编委
学术会议
CIKM2011, PC member
AIRS2011, Area Co Chair & PC member
CCIR2011, SEWM2011, PC member
PC member of IR track & Demo track, the 19th
ACM CIKM conference(CIKM2010), October 26-30, 2010, Toronto, Canada
IR track Co-chair and PC member of ML track, the 7th Asia Information Retrieval Societies
Conference (AIRS 2010), December 1-3, Taipei, Taiwan
Publicity chair and PC member, CIPS-SIGHAN Joint Conference on Chinese
Language Processing (CLP2010) August 28-29, Beijing, China
Publicity Co-chair, the 23rd International Conference on
Computational Linguistics (COLING2010
), Aug 23-27, Beijing, China
PC member,
the 6th Asian Information Retrieval Symposium (AIRS2009),
October 21-23, 2009, Hokkaido University, Sapporo, Hokkaido, Japan
PC member, 全国第五届搜索引擎和WEB挖掘研讨会(SEWM2009),
2009年5月22-24日,大连
PC member,
第四届全国信息检索与内容安全学术会议(NCIRCS2008),
2008年11月15-16日,北京
PC member,
International Conference on Asian Language Processing
(IALP2008), Nov. 12-14, 2008, Chiang Mai, Thailand
PC member, 第一届全国知网研讨会,2008年5月18-21,北京
PC member, 全国第四届搜索引擎和WEB挖掘研讨会(SEWM2008),
2008年4月11-13日,南昌
PC member,
the 5th Asian Information Retrieval Symposium (AIRS2008),
January 15-18, Harbin, China
PC member,
第三届全国信息检索与内容安全学术会议(NCIRCS2007),
2007年11月1-2,苏州
Organization Chair & PC member,
第二届全国信息检索与内容安全学术会议组织委员会(2005),2005年10月27-28,
北京
|
|
所获奖励 |
|
所长奖教金
(2006年度)、北纬通信奖教金(2008年度)
所优秀员工
(2006年度、2008年度)
国家科技进步二等奖
(2004年度)
所优秀团队
(2002年度、2004年度)
所优秀部门 (2008年度)
|
| |
|
课程教学 |
|
中国科学院研究生院,现代信息检索(2011.9-2011.12)
中国科学院研究生院,现代信息检索(2010.9-2010.12)
中国科学院研究生院,现代信息检索(2009.9-2009.12)
中国科学院研究生院,现代信息检索(2008.9-2008.12)
中国科学院研究生院,现代信息检索(2007.9-2007.12)
中国科学院研究生院,现代信息检索(2006.9-2006.12)
|
| |
| |
|
|
|
学生培养 |
|
2001年起迄今(2010.9)共招收研究生20多名,其中在读8名,毕业12名。
另联合培养博士、硕士研究生十余名。招生网页请参见>>>>>。培养及联合培养的部分学生名单如下:
| 序号 |
姓名 |
在组时间 |
学位 |
毕业论文题目 |
毕业去向 |
|
1 |
潘文锋 |
2001-2004 |
硕士 |
基于内容的垃圾邮件过滤研究 |
大连商品交易所 |
|
2 |
丁 凡 |
2002-2008 |
硕博 |
从字到词与从词到短语--从词项依存角度研究中英文检索的计算粒度(博士导师:白硕 研究员) |
中科软、高德软件 |
|
3 |
王思力 |
2003-2006 |
硕士 |
面向大规模信息检索的中文分词技术研究 |
雅虎中国、阿里巴巴、淘宝 |
|
4 |
郭瑞杰 |
2003-2008 |
硕博 |
大规模动态文本在线索引技术研究(博士导师:高庆狮 院士) |
阿里巴巴 |
|
5 |
米 嘉 |
2003-2006 |
硕士 |
大规模中文文本检索中的高性能索引研究 |
网康科技 |
|
6 |
王小冷 |
2004-2007 |
硕士 |
中文网页自动分类研究 |
华大电子 |
|
7 |
郎 皓 |
2004-2010
|
硕博 |
文本检索的鲁棒性研究(博士导师:李锦涛 研究员) |
阿里巴巴 |
|
8 |
孙
玉 |
2004-2007 |
硕士 |
面向检索的中文网页内容抽取研究及实现 |
搜狐(研究生院工程硕士) |
|
9 |
张 森 |
2005-2008 |
硕士 |
WEB检索查询的意图分类研究 |
民航计算中心、澳门勒斯科技有限公司 |
|
10 |
李亚楠 |
2005-2010 |
硕博 |
基于查询关系网络的查询推荐技术研究(博士导师:李锦涛
研究员) |
腾讯 |
|
11 |
刘宜轩 |
2006-2009 |
硕士 |
融合多粒度索引单位的中文信息检索研究 |
IBM中国研发中心 |
|
12 |
许 晟 |
2006-2009 |
硕士 |
基于Web搜索日志的查询推荐研究 |
腾讯 |
|
13 |
靖红芳 |
2006-2009 |
硕士 |
文本分类中特征选择的形式化研究 |
澳大利亚悉尼 |
|
14 |
张 磊 |
2006-2009 |
硕士 |
基于中文网页搜索日志的复杂命名实体识别研究 |
雅虎软件研发(北京)有限公司 |
|
15 |
徐 扬 |
2006-2009 |
硕士 |
基于维基百科的查询重构技术研究 |
摩根斯坦利 |
|
16 |
李 鹏 |
2007- |
硕博 |
|
博士在读(2009博) |
|
17 |
蒋在帆 |
2007-2010 |
硕士 |
基于用户访问行为的个人信息检索研究与实现 |
百度 |
|
18 |
张爱华 |
2007-2010 |
硕士 |
基于抽样技术的非均衡文本分类研究 |
北京银行 |
|
19 |
卫冰洁 |
2008- |
硕博 |
|
转2010博 |
|
20 |
史 亮 |
2008- |
硕博 |
|
转2010博 |
|
21 |
赵琴琴 |
2008-2011 |
硕士 |
基于内存的协同过滤推荐算法研究 |
北京亿赞普科技有限公司 |
|
22 |
崔雅超 |
2008-2011 |
硕士 |
基于用户兴趣建模的广告关键词抽取研究(导师:李锦涛 研究员) |
中国银行 |
|
23 |
吉宗诚 |
2008- |
硕博 |
|
转2011博(春季) |
|
24 |
张冠元 |
2008- |
硕博 |
|
转2011博(春季) |
|
25 |
李 锐 |
2009- |
博士 |
|
|
|
26 |
顾智宇 |
2009- |
博士 |
|
|
|
27 |
马宏远 |
2009- |
博士 |
|
|
|
28 |
袁平广 |
2009- |
|
|
|
|
29 |
鲁 凯 |
2009- |
|
|
|
|
30 |
徐
飞 |
2010- |
|
|
|
|
31 |
张
帅 |
2010- |
|
|
|
|
32 |
王书鑫 |
2010- |
|
|
|
|
33 |
徐安滢 |
2011- |
|
|
|
另招收客座硕士研究生4名,如下:
| 编号 |
姓名 |
在学时间 |
学位 |
毕业论文题目 |
毕业去向 |
|
1 |
孙春明 |
2005-2007 |
硕士 |
高性能特征选择及文本分类算法研究 |
百度 |
|
2 |
沈 沉 |
2008-2010 |
硕士 |
Tag自动推荐技术研究 |
创新工场 |
|
3 |
李恒训 |
2009-2011 |
硕士 |
网络论坛采集关键技术研究及热点话题发现 |
公安部第一研究所 |
|
4 |
普 渊 |
2010-2011 |
硕士 |
|
|
|
5 |
李文娜 |
2011- |
硕士 |
|
|
|
6 |
郭亚琦 |
2011- |
硕士 |
|
|
|
| |
|
|
| |
|
|
|
相关资源 |
|
Journals
|
|
|
|
ACM
Transactions on Information Systems (TOIS) 影响因子 5.059(2006)
IEEE
Transactions on Knowledge and Data Engineering(TKDE),影响因子:2.063 (2006)
Information
Retrieval (KLUWER ACADEMIC PUBL),影响因子: 1.744 (2006)
Information
Processing & Management (IP&M) (Elsevier), 影响因子:1.546 (2006)
ACM
Transactions on Asian Language Information Processing (TALIP)
ACM
Transactions on Knowledge Discovery from Data (TKDD)
计算机学报
软件学报
计算机研究与发展
中文信息学报
情报学报
|
|
|
|
|
|
Conferences
|
|
|
|
IR:
SIGIR/WWW/TREC/CIKM
DM:
VLDB/SIGMOD/ICDE
ML: ICML/ICDM/SIGKDD
NLP: ACL/Coling/EMNLP |
|
|
|
|
Books |
更多的书参照>>>>> 豆瓣推荐>>>>> 也可以上Amazon网站查最新的书 |
|
Introduction to Information Retrieval.
C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2007. Draft. NLP大拿
Manning最新出的一本书,中文版已经上市,内容比较新,有语言模型、机器学习及XML检索,有很多实现方面的内容。
Information Retrieval: Algorithms and Heuristics. D.A.
Grossman, O. Frieder. Springer, 2004. 非常好的教材, 例子非常多,在组织上和传统的教材不太一样,关注Ad
Hoc 检索。据说在Amazon上卖的很好。
Modern
Information Retrieval. R. Baeza-Yates, B. Ribeiro-Neto.
Addison-Wesley, 1999. 用的较广泛的教材,非常全,但是感觉有点过时,实现方面的内容也有所欠缺。
Readings in Information Retrieval. K. Sparck Jones, P. Willett.
Morgan Kaufmann, 1997.
许多经典论文的珍藏本。
Managing Gigabytes. I.H. Witten, A. Moffat, T.C. Bell. Morgan
Kaufmann, 1999. 关于文本和图像处理中的索引及压缩的数据结构及算法
Information Retrieval: Data Structures and Algorithms(2nd edition),
William B. Frakes and Ricardo Baeza-Yates, Prentice Hall PTR,
1992. 也是从数据结构和算法方面介绍IR的书,偏实现,但是确实有些内容过时了。
Mining the Web: Analysis of Hypertext and Semi Structured Data. S.
Chakrabarti. Morgan Kaufmann, 2002. 有关WEB IR的书,感觉公式有点多
Finding Out About: A Cognitive Perspective on Search Engine Technology
and the WWW. R. Belew. Cambridge UP, 2001.
Google's PageRank and Beyond: The Science of
Search Engine Rankings, Amy N. Langville and Carl D. Meyer,
有关PageRank原理及实现的一本全集。
Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data
(Data-Centric Systems and Applications), Bing Liu, Springer,
2006. 只看了看目录,觉得挺全挺新的。中文翻译版已经面世。
Lucene in Action, Otis Gospodnetic
and Erik Hatcher. Manning Publications. 2004. 不用说了,著名开源索引检索工具Lucene的大全。
Programming Collective Intelligence: Building Smart Web 2.0
Applications, Toby Segaran, O'Reilly Media, Inc. 2007.
这本书给了很多在真实环境下用Python语言写IR/Machine Learning算法的例子。值得一读。网上有电子版。
|
| |
|
|
|
Teams |
|
|
|
UMass
CMU
UIUC
Glasgow University
University of
Montreal
Microsoft
Research Cambridge
Microsoft Research Asia
HIT
TSinghua
PKU |
|
|
| |
|
|
| |
|
|
|
兴趣爱好 |
|
乒乓球、历史文学、传记文学。 |
| |
|
|
|
|
|
最后更新日期:2011-12-01
|