|
[English] |
|

王斌
博士,副研究员,博士生导师
中国科学院计算技术研究所
wangbinATictDOTacDOTcn
|
|
| |
|
[新闻动态
| 个人简介 | 研究方向 |
研究团队 | 研究项目 |
论文论著 |
翻译教材 |
学术报告 |
学术任职 |
所获奖励 | 课程教学 |
学生培养 | 相关资源 |
兴趣爱好 |
个人博客]
|
| |
| |
|
新闻动态 |
|
|
|
2010年7月14日,Manning等人Introduction
to Information Retrieval的中文翻译版《信息检索导论》即将出版。详情参见>>>>
2010年7月7日:关于免试研究生录取工作。计算所免试生录取
工作即将开始,本课题组今年有2名免试研究生名额(可硕博连读),欢迎优秀学生加盟。具体信息参见>>>> 2009年6月10日:博士后招聘----因科研工作需要,需招聘博士后研究人员一名,从事信息检索相关的科研工作,基本要求和待遇如下:
1、具有博士学位,有信息检索相关研究经历,并具备较强的开发能力;
2、具有良好的机器学习、数据挖掘和自然语言处理背景,在国内外会议和期刊上发表了高质量的学术论文;
3、有良好的团队合作精神,工作勤奋、踏实。
4、有良好的组织管理能力。
5、享受中科院计算所关于博士后人员的有关待遇。
招聘单位:中国科学院计算技术研究所
联系人:王斌老师,电话 010-62601350
截止时间:2009年7月31日
有意者请将如下信息以邮件方式发送给联系人:
1、个人简历;
2、已发表(包括已正式录用)的论文清单;
3、两篇最能代表本人学术水平的论文全文;
4、开发过的系统介绍。 |
|
**2008年5月8日:个人主页改版!
访问旧主页 |
|
|
|
个人简介 |
|
出生于江西省鄱阳县,1989年9月从江西省万年中学考入武汉大学计算机科学系,分别于1993年、1996年获得学士及硕士学位,1996年9月进入中国科学院计算技术研究所第二研究室机器翻译组攻读博士研究生,1999年7月毕业并获得博士学位,后留所工作至今。2002年获得国家留学基金委高级访问学者资助,并于2004年出访爱尔兰都柏林城市大学。
现为中国科学院计算技术研究所前瞻研究实验室信息检索课题组组长、副研究员、博士生导师。主要研究方向为信息检索及自然语言处理。
近年来,先后主持多项国家973子课题、863、国家自然科学基金、国际合作基金、国家信息安全保障持续发展计划、北京市自然科学
基金、企业横向合作等课题。目前在
包括国际重要会议SIGIR、CIKM、EMNLP等在内的会议和刊物上发表及合作发表学术论文100余篇。获得软件注册3项,专利2项。
担任多个国际国内会议的程序委员会及组织委员会委员。ACM会员、IEEE会员,中国计算机学会高级会员,中文信息学会信息检索
专业委员会委员,《中文信息学报》编委。
领导课题组多次参加国际文本检索评测会议(TREC)并获得好成绩,获得2004年度国家科技进步二等奖,所在团队3次被评为计算所优秀集体,多次获得所优秀员工奖及优秀教师奖。
迄今招收研究生20余名,已有4人获得博士学位,12人获得硕士学位。 |
|
|
|
|
|
研究方向 |
|
主要研究兴趣为信息检索(Information Retrieval,
IR)及自然语言处理(Natural Language
Processing, NLP)。
信息检索是研究大规模环境下的信息获取、组织、存储和访问的一门学科,而自然语言处理是对文本进行分析和理解的一门学科。希望通过能够综合自然语言理解(NLP)、机器学习(Machine Learning-ML)、数据挖掘(Data Mining-DM)、统计分析(Statistical Analyis-SA)等技术用于信息检索中,来提高信息检索的精度。
目前开展的主要研究是基于查询的理解(Query Understanding)及用户行为分析(User Action
Mining)进行快速的自适应信息检索(Adaptive IR)和交互式信息检索(Interactive IR)。
关于信息检索的介绍可以参考>>>>

研究布局 |
|
| |
|
研究团队 |
|
研究组成立于2005年11月1日,(截止到2009年5月)目前有员工2人,博士研究生2人,硕士研究生11人,
客座研究生1人。研究组主页
http://ir.ict.ac.cn/

2007年合影 |
| |
| |
|
承担课题 |
|
目前承担和参与国家973、863、国家自然科学基金、北京市自然科学基金、计算所创新基金等课题。 |
| |
| |
|
近期论文论著 |
-
蒋在帆,王斌,基于用户行为分析的个人信息检索研究,第六届全国信息检索学术会议(CCIR2010),2010年8月12-15日,黑龙江镜泊湖
-
张爱华,王斌,徐燕,非均衡文本分类中基于特征分布的抽样技术研究,第六届全国信息检索学术会议(CCIR2010),2010年8月12-15日,黑龙江镜泊湖
-
李鹏,王斌,石志伟,崔雅超,李恒训,Tag-TextRank:一种基于Tag的网页关键词抽取方法,第六届全国信息检索学术会议(CCIR2010),2010年8月12-15日,黑龙江镜泊湖
-
Zhiwei Shi,
Peng Li and Bin Wang, Using Regression to Rank Retrieval Systems
without Relevance Judgments, in Proceedings of the 6th International
Conference on Intelligent Information Processing (IIP2010), October
13-16, Manchester, UK
-
Zhiwei Shi,
Peng Li and Bin Wang, Using Clustering to Improve Retrieval
Evaluation without Relevance Judgments, in Proceedings of the 23rd
International Conference on Computational Linguistics (COLING 2010),
August 23-27, Beijing, China
-
李亚楠,王斌,李锦涛,李鹏,给互联网检索建立索引:基于词关系网络的智能查询推荐,《软件学报》已录用。
-
许晟,李亚楠,王斌,基于加权SimRank的中文查询推荐研究,第五届全国信息检索学术会议(CCIR2009),pp.
242-251,2009年11月14-15日,上海
-
张爱华,靖红芳,王斌,徐燕,文本分类中特征权重因子的作用研究,第五届全国信息检索学术会议(CCIR2009),pp.
412-421,2009年11月14-15日,上海
-
张磊,张磊,王斌,靖红芳,中文网页搜索日志中的特殊命名实体挖,第五届全国信息检索学术会议(CCIR2009),pp.
525-534,2009年11月14-15日,上海
-
Yanan Li,
Bin Wang, Sheng Xu, Jintao Li, Peng Li,
QueryTrans: Finding
Similar Queries Based on Query Trace Graph, in Proceedings of the
2009 IEEE/WIC/ACM International Conference on Web
Intelligence(WI2009), 15-18 September 2009, Università degli
Studi di Milano Bicocca, Milano, Italy
-
靖红芳,王斌,杨雅辉,
徐燕,基于类别分布的特征选择框架,《计算机研究与发展》
,46(9): 1586-1593, 2009年9月
-
Chen Shen,
Juan Jiao, Yahui Yang, Bin Wang,
Multi-Instance Multi-Label
Learning For Automatic Tag Recommendation, in Proceedings of the
2009 IEEE International Conference on Systems, Man, and Cybernetics
(SMC 2009), October 11-14, 2009, Hyatt Regency Riverwalk, San
Antonio, Texas, USA
-
Chen Shen,
Yahui Yang, Bin Wang, Exploiting Text Content in Image Search
by Semi-supervised Learning Techniques, in Proceedings of the 2009
IEEE International Conference on Systems, Man, and Cybernetics (SMC
2009), October 11-14, 2009, Hyatt Regency Riverwalk, San
Antonio, Texas, USA
-
Yang Xu,
Gareth Jones, Bin Wang,
Query Dependent Pseudo Relevance Feedback
Based on Wikipedia,
in Proceedings of the 32nd Annual International
ACM SIGIR Conference (SIGIR2009), Boston, Massachusetts, USA, 19-24
July 2009 (Regular paper acceptance rate ≈ 16%)
-
Hongfang
Jing, Bin Wang, Yahui Yang, Yan Xu,
A General Framework of Feature
Selection for Text Categorization, in Proceedings of the 6th
International Conference on Machine Learning and Data
Mining(MLDM2009), July 23-25, 2009, Leipzig, Germany.
-
张磊,李亚楠,王斌,李鹏,蒋在帆,网页搜索引擎查询日志的session划分研究,第四届全国信息检索与内容安全学术会议(NCIRCS2008),2008年11月15日-16日,北京
。修改稿发表于《中文信息学报》,23(2):54-61,2009年2月,商务印书馆出版
-
Yixuan Liu, Bin
Wang, Fan Ding, Sheng Xu,
Information Retrieval Oriented Word
Segmentation based on Character Association Strength Ranking, in
Proceedings of the 13th conference on Empirical Methods in Natural
Language Processing (EMNLP2008), Waikiki, Honolulu, October 25-27, 2008 (Regular paper acceptance rate ≈ 20%)
-
Yang Xu, Fan Ding, Bin Wang,
Entity-Based Query Reformulation Using Wikipedia
(poster), in Proceedings of the ACM 17th Conference on Information
and Knowledge Management (CIKM2008), p. 1441-1442, Napa Valley, California,
October 26-30, 2008
-
Yang Xu, Fan Ding, Bin Wang,
Utilizing Phrase Based Semantic Information for
Term Dependency (poster), in Proceedings of the 31st Annual
International ACM SIGIR Conference (SIGIR2008), p. 855-856, July 20-24,
Singapore. Student Travel Grant (US$800).
-
Hao Lang, Bin Wang, Gareth Jones, Jintao Li,
Fan Ding, Yixuan Liu,
Query Performance Prediction for Information Retrieval
Based on Covering Topic Score, Journal of Computer Science and Technology,23(4):590-601,
July 2008.Springer
New York LLC, New York, 10013-1578, United States. (SCI, EI 083411470345)
-
Yanan Li, Sen Zhang, Bin Wang, Jintao Li,
Characteristics of Chinese Web Searching: A Large-Scale Analysis of Chinese
Query Logs, in Proceedings of the sixth Symposium of Search Engine and Web
Mining(SEWM2008), April 11-13, Nanchang, China. (Top 5 best student paper
award) Revised paper
published in Journal of Computational
Information Systems, 4(3):1127-1136,
June 2008.Binary
Information Press, Bethel, CT 06801-0162, United States.
(EI 083211445108)
-
Hao Lang, Bin Wang, Gareth Jones, Jintao Li,
Yang Xu, An Evaluation and Analysis of Incorporating Term Dependency for
Ad-hoc Retrieval
(poster), in Proceedings of the 30th European Conference on
Information Retrieval (ECIR2008), p. 602-606. 30th March - 3rd April 2008, Glasgow,
Scotland.
Lecture Notes in Computer Science (including
subseries Lecture Notes in Artificial Intelligence and Lecture Notes in
Bioinformatics), v 4956 LNCS, Advances in Information Retrieval.
(ISTP, EI,
081611205104)
-
张森,王斌,WEB检索查询意图分类技术综述,《中文信息学报
》,22(4): 75-82, 2008年7月,商务印书馆出版
-
丁凡,王斌,白硕,刘宜轩,李亚楠,文本检索中句法信息的有效利用研究(NCIRCS2007会议论文修改稿),《中文信息学报》,22(4):
66-74, 2008年7月,商务印书馆出版
-
Yan Xu, Bin Wang, Jintao Li,
An Extended
Document Frequency Metric for Feature Selection in Text Categorization, in
Proceedings of the fourth Asian Information Retrieval Symposium (AIRS2008),
January 16-18, 2008, Harbin, China.(Regular paper acceptance rate≈27%)
Lecture Notes in Computer Science (including subseries Lecture Notes in
Artificial Intelligence and Lecture Notes in Bioinformatics), v 4993
LNCS, Information Retrieval
Technology
(EI,082611338540)
-
Fan
Ding, Bin Wang,
An Axiomatic Approach to Exploit Term
Dependencies in Language Model (poster), in Proceedings of the fourth Asian
Information Retrieval Symposium (AIRS2008), p. 597-602, January 16-18, 2008,
Harbin, China.
-
徐燕,王斌,李锦涛,孙春明,知识增益:文本分类中一种新的特征选择方法(NCIRCS2007会议论文修改稿),《中文信息学报》,22(1)
44-50,2008年1月,商务印书馆出版
-
徐燕,李锦涛,王斌,孙春明,文本分类中特征选择的约束研究,《计算机研究与发展》
,45(4): 596-602, 2008年4月 (EI
082311304220)
-
郎皓,王斌,李锦涛,丁凡,文本检索的查询性能预测方法,《软件学报
》,19(2): 291-300,2008年2月 (EI
081311170344)
-
徐燕,李锦涛,王斌,孙春明,基于区分类别能力的高性能特征选择方法,《软件学报》, 19(1) 82-89,2008年1月 (EI
080911124285)
-
Fan Ding, Bin Wang,
A Study on Effectiveness of
Syntactic Relationship in Dependence Retrieval Model, in Proceedings of the
third International Joint Conference on Natural Language Processing (IJCNLP
2008), January 7-12, 2008, Hyderabad, India (Regular paper acceptance
rate≈27.8%)
更多论文请参见>>>>> |
| |
| |
|
学术报告 |
| |
| |
| |
|
学术任职 |
|
学术团体
ACM会员
IEEE会员
中国计算机学会高级会员/Yosef委员
中文信息学会会员
中文信息学会信息检索专业委员会委员
《中文信息学报》编委
学术会议委员会
PC member of IR track & Demo track, the 19th
ACM CIKM conference(CIKM2010), October 26-30, 2010, Toronto, Canada
IR track Co-chair and PC member of ML track, the 7th Asia Information Retrieval Societies
Conference (AIRS 2010), December 1-3, Taipei, Taiwan
Publicity chair and PC member, CIPS-SIGHAN Joint Conference on Chinese
Language Processing (CLP2010) August 28-29, Beijing, China
Publicity Co-chair, the 23rd International Conference on
Computational Linguistics (COLING2010
), Aug 23-27, Beijing, China
PC member,
the 6th Asian Information Retrieval Symposium (AIRS2009),
October 21-23, 2009, Hokkaido University, Sapporo, Hokkaido, Japan
PC member,
International
Conference on Machine Learning and Cybernetics (ICMLC2009), July 12-15,
2007, Baoding, Hebei, China
PC member, 全国第五届搜索引擎和WEB挖掘研讨会(SEWM2009),
2009年5月22-24日,大连
PC member,
第四届全国信息检索与内容安全学术会议(NCIRCS2008),
2008年11月15-16日,北京
PC member,
International Conference on Asian Language Processing
(IALP2008), Nov. 12-14, 2008, Chiang Mai, Thailand
PC member,
International
Conference on Machine Learning and Cybernetics (ICMLC2008), July 12-15,
2007, Kunming, China
PC member, 第一届全国知网研讨会,2008年5月18-21,北京
PC member, 全国第四届搜索引擎和WEB挖掘研讨会(SEWM2008),
2008年4月11-13日,南昌
PC member,
the 5th Asian Information Retrieval Symposium (AIRS2008),
January 15-18, Harbin, China
PC member,
第三届全国信息检索与内容安全学术会议(NCIRCS2007),
2007年11月1-2,苏州
PC member,
the First
International Workshop on Question Answering (QA2007), October 28, 2007,
Xi’an, China.
PC member,
International
Conference on Machine Learning and Cybernetics (ICMLC2007), August
19-22, 2007, Hong Kong, China.
PC member, International
Workshop on Peer-to-Peer Computing for Information Search
(P2Psearch2007), Dec. 6, Jeju-Island, Korea.
Organization Chair & PC member,
第二届全国信息检索与内容安全学术会议组织委员会(2005),2005年10月27-28,
北京
其他审稿
ICCC2007
CCML2008
The 30th
Annual International
ACM Conference on Research and Development in Information Retrieval (SIGIR
2007), Amsterdam, Netherlands, 23-27 July, 2007.
第二届全国网络与信息安全技术研讨会(NetSec2005), 2005年
8月30-31.
The Seventeenth
International Conference on Software Engineering and Knowledge
Engineering(SEKE2005),
July 14-16, 2005, Taipei, China.
International
Conference on Natural Language Processing and Knowledge Engineering
(NLP-KE) Oct 26-29, 2003, Beijing, China.
|
|
所获奖励 |
|
所长奖教金
(2006年度)、北纬通信奖教金(2008年度)
所优秀员工
(2006年度、2008年度)
国家科技进步二等奖
(2004年度)
所优秀团队
(2002年度、2004年度)
所优秀部门 (2008年度)
|
| |
|
课程教学 |
|
中国科学院研究生院,现代信息检索(2010.9-2010.12)
中国科学院研究生院,现代信息检索(2009.9-2009.12)
中国科学院研究生院,现代信息检索(2008.9-2008.12)
中国科学院研究生院,现代信息检索(2007.9-2007.12)
中国科学院研究生院,现代信息检索(2006.9-2006.12)
|
| |
| |
|
|
|
学生培养 |
|
2001年起迄今(2010.9)共招收研究生20多名,其中在读8名,毕业12名。
另联合培养博士、硕士研究生十余名。招生网页请参见>>>>>。培养及联合培养的部分学生名单如下:
| 姓名 |
在学时间 |
学位 |
毕业论文题目 |
毕业去向 |
|
潘文锋 |
2001-2004 |
硕士 |
基于内容的垃圾邮件过滤研究 |
大连商品交易所 |
|
丁 凡 |
2002-2008 |
硕博 |
从字到词与从词到短语--从词项依存角度研究中英文检索的计算粒度(博士导师:白硕 研究员) |
中科软、高德软件 |
|
王思力 |
2003-2006 |
硕士 |
面向大规模信息检索的中文分词技术研究 |
雅虎中国、阿里巴巴、淘宝 |
|
郭瑞杰 |
2003-2008 |
硕博 |
大规模动态文本在线索引技术研究(博士导师:高庆狮 院士) |
阿里巴巴 |
|
米 嘉 |
2003-2006 |
硕士 |
大规模中文文本检索中的高性能索引研究 |
网康科技 |
|
王小冷 |
2004-2007 |
硕士 |
中文网页自动分类研究 |
华大电子 |
|
郎 皓 |
2004-2010
|
硕博 |
文本检索的鲁棒性研究(博士导师:李锦涛 研究员) |
阿里巴巴 |
|
孙
玉 |
2004-2007 |
硕士 |
面向检索的中文网页内容抽取研究及实现 |
搜狐(研究生院工程硕士) |
|
张 森 |
2005-2008 |
硕士 |
WEB检索查询的意图分类研究 |
民航计算中心、澳门勒斯科技有限公司 |
|
李亚楠 |
2005-2010 |
硕博 |
基于查询关系网络的查询推荐技术研究(博士导师:李锦涛
研究员) |
腾讯 |
|
刘宜轩 |
2006-2009 |
硕士 |
融合多粒度索引单位的中文信息检索研究 |
IBM中国研发中心 |
|
许 晟 |
2006-2009 |
硕士 |
基于Web搜索日志的查询推荐研究 |
腾讯 |
|
靖红芳 |
2006-2009 |
硕士 |
文本分类中特征选择的形式化研究 |
澳大利亚悉尼 |
|
张 磊 |
2006-2009 |
硕士 |
基于中文网页搜索日志的复杂命名实体识别研究 |
雅虎软件研发(北京)有限公司 |
|
徐 扬 |
2006-2009 |
硕士 |
基于维基百科的查询重构技术研究 |
摩根斯坦利 |
|
李 鹏 |
2007- |
硕博 |
|
博士在读(2009博) |
|
蒋在帆 |
2007-2010 |
硕士 |
基于用户访问行为的个人信息检索研究与实现 |
百度 |
|
张爱华 |
2007-2010 |
硕士 |
基于抽样技术的非均衡文本分类研究 |
北京银行 |
|
卫冰洁 |
2008- |
硕博 |
|
转2010博 |
|
史 亮 |
2008- |
硕博 |
|
转2010博 |
|
赵琴琴 |
2008- |
硕士 |
|
|
|
崔雅超 |
2008- |
硕士 |
(导师:李锦涛 研究员) |
|
|
吉宗诚 |
2008- |
硕博 |
|
转2011博(春季) |
|
李 锐 |
2009- |
博士 |
|
|
|
马宏远 |
2009- |
博士 |
|
|
|
袁平广 |
2009- |
|
|
|
|
鲁 凯 |
2009- |
|
|
|
|
徐
飞 |
2010- |
|
|
|
|
张
帅 |
2010- |
|
|
|
另招收客座硕士研究生4名,如下:
| 姓名 |
在学时间 |
学位 |
毕业论文题目 |
毕业去向 |
|
孙春明 |
2005-2007 |
硕士 |
高性能特征选择及文本分类算法研究 |
百度 |
|
沈 沉 |
2008-2010 |
硕士 |
Tag自动推荐技术研究 |
创新工场 |
|
李恒训 |
2009- |
硕士 |
|
|
|
普 渊 |
2010- |
硕士 |
|
|
|
| |
|
|
| |
|
|
|
相关资源 |
|
Journals
|
|
|
|
ACM
Transactions on Information Systems (TOIS) 影响因子 5.059(2006)
IEEE
Transactions on Knowledge and Data Engineering(TKDE),影响因子:2.063 (2006)
Information
Retrieval (KLUWER ACADEMIC PUBL),影响因子: 1.744 (2006)
Information
Processing & Management (IP&M) (Elsevier), 影响因子:1.546 (2006)
ACM
Transactions on Asian Language Information Processing (TALIP)
ACM
Transactions on Knowledge Discovery from Data (TKDD)
计算机学报
软件学报
计算机研究与发展
中文信息学报
情报学报
|
|
|
|
|
|
Conferences
|
|
|
|
IR:
SIGIR/WWW/TREC/CIKM
DM:
VLDB/SIGMOD/ICDE
ML: ICML/ICDM/SIGKDD
NLP: ACL/Coling/EMNLP |
|
|
|
|
Books |
更多的书参照>>>>> 也可以上Amazon网站查最新的书 |
|
Introduction to Information Retrieval.
C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2007. Draft. NLP大拿
Manning最新出的一本书,中文版已经上市,内容比较新,有语言模型、机器学习及XML检索,有很多实现方面的内容。
Information Retrieval: Algorithms and Heuristics. D.A.
Grossman, O. Frieder. Springer, 2004. 非常好的教材, 例子非常多,在组织上和传统的教材不太一样,关注Ad
Hoc 检索。据说在Amazon上卖的很好。
Modern
Information Retrieval. R. Baeza-Yates, B. Ribeiro-Neto.
Addison-Wesley, 1999. 用的较广泛的教材,非常全,但是感觉有点过时,实现方面的内容也有所欠缺。
Readings in Information Retrieval. K. Sparck Jones, P. Willett.
Morgan Kaufmann, 1997.
许多经典论文的珍藏本。
Managing Gigabytes. I.H. Witten, A. Moffat, T.C. Bell. Morgan
Kaufmann, 1999. 关于文本和图像处理中的索引及压缩的数据结构及算法
Information Retrieval: Data Structures and Algorithms(2nd edition),
William B. Frakes and Ricardo Baeza-Yates, Prentice Hall PTR,
1992. 也是从数据结构和算法方面介绍IR的书,偏实现,但是确实有些内容过时了。
Mining the Web: Analysis of Hypertext and Semi Structured Data. S.
Chakrabarti. Morgan Kaufmann, 2002. 有关WEB IR的书,感觉公式有点多
Finding Out About: A Cognitive Perspective on Search Engine Technology
and the WWW. R. Belew. Cambridge UP, 2001.
Google's PageRank and Beyond: The Science of
Search Engine Rankings, Amy N. Langville and Carl D. Meyer,
有关PageRank原理及实现的一本全集。
Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data
(Data-Centric Systems and Applications), Bing Liu, Springer,
2006. 只看了看目录,觉得挺全挺新的。中文翻译版已经面世。
Lucene in Action, Otis Gospodnetic
and Erik Hatcher. Manning Publications. 2004. 不用说了,著名开源索引检索工具Lucene的大全。
Programming Collective Intelligence: Building Smart Web 2.0
Applications, Toby Segaran, O'Reilly Media, Inc. 2007.
这本书给了很多在真实环境下用Python语言写IR/Machine Learning算法的例子。值得一读。网上有电子版。
|
| |
|
|
|
Teams |
|
|
|
UMass
CMU
UIUC
Glasgow University
University of
Montreal
Microsoft
Research Cambridge
Microsoft Research Asia
HIT
TSinghua
PKU |
|
|
| |
|
|
| |
|
|
|
兴趣爱好 |
|
乒乓球、历史文学、传记文学。 |
| |
|
|
|
|
|
最后更新日期:2010-7-14
|