这是一个中文新闻分类数据集,基于THUCNews数据集处理而成。 数据集来源 本数据集基于清华大学自然语言处理实验室发布的THUCNews中文文本分类数据集。THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为 ...