王德才的方案中规中矩,使用的依然是传统的非线性规划方法,当他讲到一半的时候,工业互联网实验室负责人托马斯已经听得有些不耐烦了。 他划了划手中的平板电脑,看看下一个汇报人是谁。 哦,马上轮到这小子了。 下一个人正是尚斌。 托马斯十分信任自己的老友尼古拉,因此对尼古拉推荐的尚斌也很感兴趣,于是邀请了尚斌参加本次交流会。 他耐着性子听完王德才的汇报,迫不及待地想看看尚斌会拿出怎样的方案。 不一会儿,尚斌走进会议室,他打开汇报材料,首先介绍起智能机器人调度系统的研究现状: “目前,主流的机器人调度系统采用的方法是,建立非线性规划模型,然后求解得到任务调度策略,并为每台机器人进行路径规划。” “而在冲突解决方面,这些年来的流行方法依然是最为保守的滑动时间窗法。 “也就是说,当一台机器人进入某单行路段之后,接下来即将进入该路段的其他机器人必须原地等待,直到前面的机器人离开。” “上述方法存在两个问题:” “第一,非线性规划模型忽视了多台机器人之间的相互影响,因此,按照此模型得到的任务调度策略和路径对整个系统搬运效率的提升并不能到达预设的性能。” “第二,滑动时间窗法虽然保证了机器人的安全,也易于实现,但终究太过保守。以目前的技术,完全可以考虑更加激进一些的冲突解决方案。” 台下的评审专家在不断点头,这些确实是系统开发过程中遇到的问题。 托马斯听到尚斌的分析之后安心了一些,这个小伙子肯定不会采用王德才那套过时的方法。 他摸了摸下巴上的胡子,眼中露出期许的目光。 尚斌右手一挥,全息投影台上展示出一幅使用栅格法建模的机器人作业环境电子地图。 他面带微笑地对台下专家说道: “接下来,我将介绍自己的解决方案。” “首先,我们把每一台机器人看作是智能体,使用随机博弈描述多机器人之间的交互,以此建模多机器人之间的相互影响,再使用多智能体强化学习方法对随机博弈进行求解。” “任务调度和路径规划采用分别建模的方式,任务调度的状态定义为机器人位置和运行状态,而路径规划的状态定义为每台机器人的任务分配情况。” “如此一来,任务调度策略优化和路径规划可以同时进行。” “至于所采用的的算法,我们曾进行过较为广泛的调研,并有一定的研究基础。” “为了缓解多智能体强化学习算法中的动作空间维数灾问题,我们使用了独立式学习和深度学习这两种方法。” “为保证算法的收敛性和最优性,我们使用演化博弈对所提方法进行建模,然后使用李雅普诺夫直接法和间接法分析算法模型的渐近稳定性,使用迭代的方法设计出具有收敛性和最优性的算法。” “其次,机器人的冲突解决方案,我们不再采用滑动时间窗方法,而是拟将现有机器人进行升级改造,通过加装传感器,并使用强化学习和滑模控制技术来完成更为精细的运动控制,从而提高路段的使用效率。” “最后,在新的作业场景中部署系统时,针对强化学习泛化性能不佳的问题,我们提出使用迁移强化学习加以解决。” “这样,当作业场景的布局发生变动后,可以利用之前收集到的数据和学习到的策略、价值函数来帮助在新作业场景中进行学习和优化,从而提高系统的启动效率。” 紧接着,尚斌对所提方案的可行性进行了详细的分析。 最后,由郝俊教授介绍了自己团队以和现有实验条件。 听完尚斌的报告,托马斯满意地捋了捋胡子。 在他看来,虽然尚斌的方案有些激进,但也不失为一次大胆的尝试。 尚斌身上颇有些他年轻时的影子。 难怪尼古拉希望与这小子一起合作开发他那套破装甲。 结束汇报后,尚斌看向台下,发现一名头发花白的评审专家正摸着胡子看他,还给了他一个肯定的眼神。 …… 技术交流会一直进行到下午3点才结束。 回到院楼办公室,尚斌已经十分疲乏。 这段时间,他一边在写各种项目申报书,一边准备着阿萨海姆和海润集团的汇报材料,每天只能睡三个小时。 他伏在桌上,不知不觉睡着了。 梦中,他回到了那个无忧无虑的童年,妈妈抱着他,爸爸在努力地帮他扑蝴蝶。 幸福的美梦并没有持续多久,他的手机响了。 尚斌迷迷糊糊醒来,还依依不舍得喊了两声爸爸。 他拿起手机一看,有两条未读短信,他打开第一条看了看: 【尊敬的尚斌教授您好! 您的《基于强化学习和模型预测控制的动力装甲飞行制动控制技术方案》,经过我司专家审核,已达到《阿萨海姆集团技术合作协议》签约标准。 为了推动军用动力装甲的技术发展,同时,为了给您提供更好的回报,本着双方自愿、合作共赢的原则,我们非常荣幸地邀请您一起商榷更深度的合作。 阿萨海姆集团公司军工事业部】 太好了!终于能为自己的战友们做点什么了。 尚斌端起保温杯,走到窗前,抿了一口普洱茶。 再看第二条短信: 【尊敬的尚斌教授您好! 经过我司专家评审,您的技术方案——《基于多智能体迁移强化学习的智能机器人调度系统》以最