我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。
1. | 多格式数据抽取:可以对近百种文件格式进行文本抽取 |
支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式的文字抽取和HTML转换。 |
2. | 对文件的操作不需要安装其他任何第三方软件 |
文件操作在数据转换过程中完全独立对文件格式进行分析转换,不需要安装生成文件的原软件。特别是不依赖于原软件的各种文档的Image化、PDF化技术,在网络服务器中的应用非常广泛。这是一项世界上比较流行、且需求量很大的技术。 |
3. | 无与伦比的运行速度 |
程序全部用C/C++语言开发,执行速度无与伦比,即使是单线程运行,平均每秒钟处理9个文件,当50个线程时,每秒钟16个文件,随着线程数的增加以及机器性能的提高。是目前世界上处理文档效率最高的软件。 |
4. | 可以支持多种操作系统环境、支持服务器并发操作 |
支持各种操作系统,如:Windows的32位和64位各种版本以及Sun SPARC版Solaris(32bit/64bit)、x86版Solaris10(64bit)、Linux32bit、Linux64bit、IBM AIX 5L、Macintosh等,并支持单线程或多线程操作,实现了多人共用机制。 |
5. | 多种语言文字代码的支持 |
抽出文本时,可以指定以下的字符集合作为文本文件的字符集:GBK、GB18030、Big5、Shift_JIS、WINDOWS31J、EUC-JP、EUC-JP-FIX、ISO-2022-JP、KS X 1001、ISO-8859-1、ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-16、UTF-8、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004 |
6. | C/C++、JAVA、.NET等功能强大的接口功能 |
程序库除提供C/C++函数接口外,还提供了com接口、java接口、perl接口等各种调用方法。功能上有:文件格式识别函数、文本抽出函数(文件)、文本抽出函数(流Stream输出)、文件属性抽出函数、页抽出函数、页抽出函数(流Stream输出)、设定User Password的PDF文件的文本抽出函数、设定User Password的PDF文件的页抽出函数、设定User Password的PDF文件属性的抽出函数等。 |
二、广泛的应用领域
软件程序库广泛的应用于政府、企业等各个领域的信息资源开发利用、智能搜索引擎、情报分析和服务、信息安全、企业知识门户、数字图书馆、电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。
客户典型应用案例
●拦截邮件后的内容信息抽取过滤●搜索引擎的数据前期格式统一
●分词信息挖掘系统的数据转换●网络数据的过滤
●舆情系统的信息挖掘●企业邮件系统监控
三.产品价值
在实际的推广和应用中,我公司的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。我司将不懈努力,继续为用户提供品质优良,性能可靠的一流产品。为用户提供优良的技术服务,满足用户的各种需求。
目前主要突出体现出如下应用价值:
1) 为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;同时,可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。
2) 此软件在国家相关部门的搜索引擎以及多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以为提高垂直搜索引擎服务的智能化、行业化和知识化水平奠定了基础。
3) 此软件为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。
4) 此软件可以作为信息资源利用和知识管理应用的基础构件,为企业信息资源的加工、分析和服务提供先进智能的文本转换技术。