阿里通义实验室智能计算团队推出新算法FIPO
2026-04-07 22:32   
来源: 云财经   
影响力评估指数:17.09  
云财经讯,4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。
云财经智能匹配相关概念
| 新闻标题 | 时间 | 消息来源 | 新闻热度 |
|---|---|---|---|
| 亿纬锂能:拟与上杭县政府签订投资协议并与龙净环保设立合资公司 | 今天 20:09 | 云财经 |
|
| 南京地铁客流创历史次高纪录 | 今天 19:13 | 云财经 |
|
| 伊朗首都德黑兰再次遭袭 | 今天 17:57 | 云财经 |
|
| 博通盘前涨3.02%,现报323.92美元 | 今天 16:31 | 云财经 |
|
| 中方反对美台军事联系立场一贯明确 | 今天 15:30 | 云财经 |
|
| 四川路桥:下属企业中标南充至广安铁路60.69亿元项目并参与设立合伙企业 | 04-03 17:08 | 云财经 |
|