国家统计局构建了1998-2014年所有规模以上工业企业的数据,涵盖全部国有企业和年主营业务收入500万元及以上的非国有工业企业,这些企业是中国经济的中坚力量。然而,由于该数据库中企业名称不完全统一,学界对其专利创新行为的研究尚不充分。为此,CnOpenData团队应需而生,参考寇宗来、刘学悦在《经济研究》(2020)中的科学匹配方法,将中国工业企业数据库与中国专利数据进行了精细匹配,构建了中国工业企业专利及引用被引数据库。
本数据库全面收录了中国工业企业截至最新年份的专利相关数据,涵盖专利数量统计、质量统计和专利详情三大模块,整合了1998-2014年工业企业发明、实用新型和外观设计三种专利类型的申请与授权全流程记录。专利数量统计模块细分申请和授权数量,包括独立与合作模式;专利质量统计模块提供技术复杂度、被引用次数等指标;专利详情模块则深入至每项专利的基本信息、引用关系、被引用关系及事务记录(外观设计专利仅含基本信息)。此外,数据库还包含专门的专利文本数据(描述和权利要求文本),为研究企业创新能力、技术演进和专利影响力提供了全方位支持。
数据独特性
- 填补研究空白:专注于至关重要的规模以上工业企业:现有研究多集中于上市公司,而本数据库瞄准了国家统计局定义的“规模以上工业企业”(全部国有企业及主营业务收入500万元以上的非国有企业)。这是中国经济中最重要、但专利研究尚不充分的企业群体,为本数据使用者提供了独特的、未经充分挖掘的研究视角。
- 科学严谨的企业-专利匹配方法,确保数据准确性:匹配工作参考了权威文献《中国企业的专利行为》(《经济研究》,2020)的方法。团队对“工业企业”和“专利数据”中的公司名称进行了标准化清洗,删除了“股份有限公司”、“有限责任公司”、“集团”、“省”、“市”等冗余字样,极大提升了企业名称与专利权人/申请人名称的匹配精度和结果可靠性。
- 多维专利质量指标,超越传统数量统计:专利质量统计表中提供了丰富指标,如“申请专利的技术复杂度-以分类号_部统计总类型数”“专利公开当年被引用次数”“专利截止2024.12被引次数”等。这些字段从技术广度、引用影响力等角度量化专利质量,远超简单的数量统计,为评估专利价值提供了科学依据。
- 全链路引用与被引网络,揭示技术扩散路径:专利详情表中设有专门的“引用表”和“被引用表”,例如“工业企业发明申请专利引用表”包含“被引用专利ID”“被引用专利名称”等字段,支持构建专利引用网络,分析技术传播路径和创新关联性。
数据完整性
- 延伸观测窗口,追踪重要企业的长期创新轨迹:尽管核心的中国工业企业数据截止于2014年,但本数据库创新性地将这批对中国经济具有历史性重要意义的工业企业群体,与后续直至2024年的所有专利数据进行了匹配。这使得用户能够以这批企业为稳定的样本,独特地观察和研究它们在2014年之后的长期技术创新能力、专利活动的持续性及演变规律,填补长期动态跟踪研究的空白。
- 全流程的专利数量统计,支持宏观趋势分析:数据库提供“专利申请数量”与“专利授权数量”两大统计模块,涵盖从“当年”到“五年累计”直至“总授权量”的动态指标(如“发明专利申请五年累计授权量”)。这为用户快速把握企业创新产出的整体趋势与效率提供了即用型的宏观面板数据。除此外,本项下还区分了合作专利、非合作专利的详细统计。
- 多维度的专利质量指标,实现深度价值评估:专利质量统计表超越了简单的数量统计,引入了“技术复杂度”(以IPC分类号的部、大类、小类统计)和“被引用次数”(从当年至累计,并截止至2024年底)等一系列标准化指标。这些经过加工的指标为评估专利的技术广度、复杂性和市场影响力提供了科学的度量工具。
- 细颗粒度的专利详情数据,支撑微观机制研究:这是数据库的核心优势之一。它包含了工企与专利匹配后的原始信息,具体体现在:
- 1.基本信息表:提供每件专利的“专利名称”、“申请人/专利权人”、“发明人”、“IPC分类号”、“申请日”等核心字段。
- 2.引用与被引详细信息:通过专门的“引用表”和“被引用表”,详细记录了每件专利的引用网络,包括“被引用专利ID”、“引用专利名称”等,支持构建复杂的专利引用网络进行分析。
- 3.法律状态变更信息:“事务表”中的“事件类型”、“日期”和“描述”字段,完整追踪了专利的授权、转让、失效等全生命周期法律事件。
- 专利文本数据补充,拓展研究维度:除专利基本信息表项下的“简要说明”字段外,本数据更是覆盖到了工业企业专利的权利要求文本和描述文本,这为进行文本分析、自然语言处理(NLP)、探究专利保护范围和技术主题演化等前沿研究提供了不可多得的宝贵资源。
数据应用价值
- 企业创新绩效与竞争力评估:通过“发明专利申请数量”“专利被引用次数”等字段,企业可量化自身创新产出和影响力;。
- 专利网络与技术趋势分析:引用与被引表支持构建专利引用网络,结合“技术复杂度-以分类号_小类统计总类型数”等字段,可识别技术热点和扩散路径,适用于产业规划和技术预测研究。
- 政策效果评估与创新政策制定:数据细分至“独立”与“合作”模式(如“发明专利合作申请数量”),政策制定者可评估合作创新政策的成效;累计授权量和被引次数则助力监测长期创新政策影响。
- 学术研究与教学应用:丰富字段支持经济学、管理学、法学等多学科研究,例如使用“法律状态”分析专利有效性,或通过“专利权利要求数”探讨专利保护强度。数据库还可作为案例教学资源,培养学生实证分析能力。
CnOpenData中国工业企业专利及引用被引数据,成功解决了规模以上工业企业专利研究的核心障碍——企业名称匹配问题。通过科学的数据处理方法和超越前人的数据规模,本数据库以全面的覆盖、独特的指标设计和可靠的数据来源,成为研究中国企业创新活动的权威资源。无论是学术探索、企业决策还是政策制定,本数据库均能提供深度、动态且可信的数据支持,助力用户揭示创新规律、驱动技术发展。
数据规模
时间区间
- 发明公布按照申请公布日统计:1985-2024年
- 发明授权/实用新型/外观设计按照授权公布日统计:1985-2024年
字段展示
工业企业专利数量统计表
工业企业专利质量统计表
工业企业专利详情表
样本数据
因表格众多,本页仅做专利申请数量/发明专利申请质量/发明申请专利详情展示,其他版块详见左侧各模块分支页面进行查看。
工业企业专利申请数量统计表
工业企业专利申请质量统计表
工业企业发明申请专利基础信息表
中国工业企业发明申请专利引用表
中国工业企业发明申请专利被引用表
中国工业企业发明申请专利事务表
参考文献
- 寇宗来、刘学悦:《中国企业的专利行为:特征事实以及来自创新政策的影响》,《经济研究》,2020年第3期。
- 聂辉华、江艇、杨汝岱:《中国工业企业数据库的使用现状和潜在问题》,《世界经济》,2012年第5期。
- Josh L , Amit S . The Use and Misuse of Patent Data: Issues for Finance and Beyond[J]. The Review of Financial Studies, 2021(6):6.
数据更新频率
年度更新