科技情报开发与经济首页:企业Web数据挖掘设计
科技情报开发与经济SCI- T E CH INF OR MA TION DE V E LOPME NT & E CONOMY2006年 第 16卷 第3期文章编号:1005-6033(2006)03-0219-02Web企业信息数据挖掘的研究与设计收稿日 期:2005-09-03孙雪(太原理工大学计算机与软件学院, 山西太原, 030024)摘大量企业信息进行数据挖掘的过程。对Web企业信息数据挖掘进行可行性研究, 并提出了一种高效准确的实验设计方案。关键词:Web数据挖掘;企业信息;多线程中图分类号:F270.7文献标识码: ;A要:Web企业信息挖掘是Web数据挖掘的一个具体应用, 主要针对用户所关心的 随着互联网的迅猛发展, 网络信息量正以指数形式飞速增长。到目前为止因特网是世界上最密集、 最丰富的数据来源。 在如此巨大、 分布广泛的Web信息资源中, 蕴藏着大量非常有价值的知识。 如何在WWW这个全球最大的数据集合中发现用户有用的信息已成为数据挖掘研究的热点, Web数据挖掘(Web Data M inin g)也因此 应运而 生。 Web企业信息正是Inter net上浩瀚和多样的信息资源中的一类。目前企业信息比 较集中的网站如新浪的企业黄页、 阿里巴巴等电子商务站点, 如果能从诸如此类网站中挖掘出用户所需的大量企业信息资源, 不仅能够节省搜集信息所需要的人力物力, 还能获得丰富、 实时的资源。 这些网站是进行Web企业数据挖掘的很好的平台。本文主要针对这一问题进行研究, 同时提出了设计和实验方案。1Web企业信息挖掘的研究 Web数据挖掘就是在Web文档内容或描述中抽取知识的过程。这里的知识包括有趣的、 潜在的、 用户感兴趣的信息和有用的模式。 Web企业数据挖掘是在有关Web企业或电子商务网站中挖掘出用户需要的企业信息。1.1 Web数据挖掘与传统的数据挖掘 Web数据挖掘与传统的数据挖掘相比, 有以下特点: 首先.Web数据挖掘的对象是海量的、 异构的、 分布的文档, 而传统数据挖掘的对象通常是数据库中规则化的数据。 其次, 由于Web页面在逻辑上是由文档结点和超链接构成的图, 所以Web数据挖掘出的知识可以是关于Web内容的, 也可以是关于Web结构的, 而传统数据挖掘得到的模式通常是与内容相关的。 再者, 由于Web文档是半结构甚至无结构的, 缺乏能够让机器识别的语义, 所以在进行挖掘时, 要对Web文档进行预处理。而传统的数据挖掘对象局限于数据库中结构化的数据, 所以可以直接利用关系表等存储的 数据结构来发现知识。 由此可见,Web数据挖掘比 传统的面向数据库的数据挖掘复杂得多, 因为传统数据库的数据是结构化的, 而Web上的数据大部分都是半结构化甚至无结构化的。1.2 Web企业倍息挖掘研究 Web企业 信息挖掘是Web数据挖掘的 一个具体应用。 用户 想得到大量的企业信息, 如果直接从每个企业自己的网站寻找, 显然比较费时费力, 因此企业黄页网站或大型电子商务网站是进行企业信息挖掘最好的平台。主要因为: (1)企业数量多。大型的企业黄页和电子商务网站, 企业数量非常多。如新浪企业黄页有数十万的企业信息, 而阿里巴巴这个中国最大的电子商务网 站的公司库有百万条企业信息。 (2)企业分类详细。 在这些大型网站中, 可以很方便地获得企业的分类信息。如新浪企业黄页中, 都是按照国家商务部的标准对企业进行分类的;同时新浪企业黄页还把企业分成明星、 商务和普通企业的类别, 以此来体现企业信息量多少的不同。阿里巴巴网站, 更是把企业分成了诚信通和普通用户, 对于诚信通企业信息的真实性给予了证实, 这样更有利于数据挖掘的可靠性。 (3)企业信息量大。 在像这样的大型企业库网站中, 企业的数量不但多, 信息量也是非常大。 其中不仅包括企业的基本信息和联系方式, 还有企业的 商机信息、 企业产品信息、 企业相关新闻等。 这为企业信息的数据挖掘提供了丰富的资源。 (4)企业信息的Web页面比较统一。虽然根据企业类别的不同, 企业信息的Web页面布局有所不同, 但是网站也是为了减少开发成本, 针对于每个大类, 都有相应的模板, 这同样给企业信息的数据挖掘带来了方便。 对于一个企业来说,我们通常所关心的数据有企业的基本信息、 企业的 联系方式、 企业的产品信息和企业的商机信息。 企业基本信息和企业联系方式在整个数据挖掘中 是基本信息, 是必不可少的 部分。 企业基本信息包括企业名称、 所在地区、 所属行业、 企业规模、 法人代表等。企业联系方式包括企业的联系地址、 联系电话、 联系人等。 而企业的产品信息和商机信息对于丰富企业数据来说也 是很重要的 组 成部分。 其中 企业产品 信息包 括产品 类型、 规格、 价格等;企业商机信息包括商机发布和 结束时间、 商机内容等。这些信息通常都是可以通过对企业黄页或电子商务网站进行Web企业信息数据挖掘而得到。0o .、。 一 。 。.。、。 .0.0.o.o.o.o.o.o.o.o.。 一 。一 。 一 。 .。。 .o.o.。。 .0.。 价.加伪加倪0.识0.伪0.0.~Research on the Mobile- phone E- mail System Based on J 2ME.一0.伪~ 伪伪0.一。 玲一 占 一 一.伙0.0一 。 一令 .。 岭.0玲.识。.0 .MENG Wen-sheng, WANG HongABSTRACT : the selectio n o f the system's so lution, and thro ugh the research on the J2M E architecture, puts forw ard the so lution basedon J2ME, works out the com m unication protocol HBWMP, and sum s up the design of the system and the im plem entationschem e, which lays a foundation for the further research.KEY WORDS: J2ME; SMS; wireless data service; wireless e-m ail system ; HBWMP protocolThis paper analyzes on the evo lvem ent of the wireless data service and e-m ail service m ode, discusses on219