文构财经文本数据平台开通试用

发布时间:2023-12-0610

资源简介:文构财经文本数据平台是一个中美上市公司的文本和文本特征数据库,平台提供基于用户自定义特征的词频查询、深度学习相似词推荐、文本特征提取(语调、可读性、文本相似性、描述性创新、文化、战略、)、自定义特征构建系统、以及定制化文本分析(比如LDA、STM、Word2vec, Doc2vec、PDF解析和分词)等。

访问地址 :

http://www.wingodata.com

访问方式:

学校IP范围内,下载数据需要绑定本人邮箱(学校用户为edu邮箱)用于数据接收(仅可下载一年的数据)。

使用期限:

截止2024/2/23

平台从学术研究和业界量化投资需求出发,聚焦于中美海量财经文本数据。针对两国截然不同的文本披露规则和财经文本特点,平台应用自然语言处理、深度学习和人工智能技术对财经文本进行深度加工,给用户提供财经文本的词频、句频、相似词、预计算文本指标等全新深度处理的数据,从而为学术研究、量化投资、监管决策等提供多方位支持。

文本涵盖中国、美国、香港上市公司的信息披露或者第三方的机构出具包括,包括但不限于年度报告、季度报告、董事会报告、管理层讨论与分析(MD&A)、审计报告、财务报表附注、IPO 招股说明书、内部控制评价报告、业绩说明会、社会责任报告等。同时涵盖国务院/省级/地级政府工作报告以及中国上市公司 2001 年以来的专利文本数据。

包括中国上市公司 2001 年以来披露的文本数据,共收录文档七百五十万余份,文字逾两百亿;囊括美国上市公司 1993 年以来披露的文本数据,收录文档近三百万;收录超过 99%的中国政府工作报告。