您终于找到专注于电脑行业的管理软件了

由于贴近电脑行业 使用起来自然得心应手

维基百科现已提供 JSON 格式内容快照数据集:机器可读,减少主站爬虫流量


IT之家 4 月 18 日消息,维基百科运营方维基媒体基金会下辖 Wikimedia Enterprise 当地时间 16 日宣布其在 Kaggle 平台上发布了 JSON 格式、英语和法语版本的测试版维基百科结构化内容快照数据集。

该数据集可用于 AI / ML 建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。

这也意味着 AI 爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。

相关阅读:

来源:IT之家
电脑行业专用管理系统:IT江湖    上一篇    下一篇

Copyright © 2004-2025 宇然软件(www.fsyuran.com) 版权所有
粤ICP备14024714号