摘要:
针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信息的批量提取,为后续高效率地对专利文献进行自动分析和知识挖掘提供了数据基础。
中图分类号:
邱清盈, 郑国民, 冯培恩, 武建伟. 基于正则表达式的专利信息提取方法研究[J]. 中国机械工程, 2007, 18(19): 2326-2329.
Qiu Qingying, Zheng Guomin, Feng Pei’en, Wu Jianwei. Extraction Approach of Patent Information Based on Regular Expression[J]. China Mechanical Engineering, 2007, 18(19): 2326-2329.