当研究者把这些问卷交给不同阶段的大模型时,结果显示出一个清晰的趋势:随着指令微调(SFT)、人类反馈强化学习(RLHF)、DPO 等对齐方法的叠加,模型的「人格画像」越来越稳定、越来越「乖巧」。
为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。该基准包含635个金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测。
更重要的是,这项工作为“可控世界模型”的构建开辟了一条新的研究路径。它证明了在不增加训练成本、不损耗先验知识的前提下,通过精巧的推理期引导,同样可以实现对复杂动态场景的有效控制。展望未来,沿着这一思路继续深化,我们有望通过更自然的语言或动作交互,让模 ...
OpenAI硬件野心全面浮出水面,收购Jony Ive与Tang Tan创立的AI硬件公司io后,短短数月便疯狂从苹果挖来二十余名资深工程师。Jony Ive与Tang ...
Artificial Analysis在对Grok 4 Fast的预发布API进行基准测试时,发现它的速度惊人非常迅速,达到了每秒344个输出Token——约为 OpenAI GPT-5 API的2.5倍。端到端时延仅3.8秒,是目前最快的前沿模型。
与此同时,亚洲势力也整体上扬:香港科技大学、韩国科学技术院(KAIST)和新加坡国立大学并列第10,中国科学院、香港科技大学、新加坡南洋理工大学悉数闯入前20。
能源领域,双方推动先进核反应堆、核燃料、融合能等技术;简化许可流程;强化供应链安全;确保能源安全与独立;到2028年摆脱对俄罗斯核燃料的依赖;加快反应堆设计审查、场址许可等监管程序。 量子计算领域,英美将设立量子产业交流计划等机制,合作研发硬件与软件 ...
如今,Gemini 在用户偏好上稳定占据第一,并引领新的科学突破。大家又觉得谷歌获胜是理所当然的。过去 OpenAI 还常常靠着在我们发布之前,从他们的想法储备中抢先宣布消息来抢占 AI 舆论周期。但现在可以说,那些储备已经见底了。
Ive 曾在 90 年代末、00 年代初的苹果复兴过程中发挥了关键作用,他的参与大大提升了 OpenAI 在苹果员工心目中的可信度。据前苹果员工透露,苹果员工之所以被 OpenAI 的工作所吸引,很大程度上是因为有机会与 Tan 和 Ive 重聚。
成立于2019年的Enfabrica是一家专注于解决I/O、内存及网络瓶颈的硅谷AI基础设施初创公司,其技术旨在使大规模GPU集群能作为单体计算机运行——该公司宣称其技术可实现超过10万个GPU的互联,可将数据中心GPU集群计算成本降低50%,内存扩 ...
信息管理解决方案公司OpenText的执行副总裁、首席数字官兼CIO Shannon ...
一个事实是,AI 编程正在重塑我们的大脑。它让开发者沉迷于即时满足,而不是深入理解,把我们变成了老虎机赌徒,不停拉下拉杆,等待下一次能跑通的代码。 如果这种情况发生在我身上,一个在 AI 出现之前就学会编程的人身上,那对那些从未经历过“非 AI 时代 ...