从进公司后就无所事事的韩念初,终于回到了原来时空的工作状态。
跟专家的会议时间定在半个月后,有意向的投资人和股东都会到场,会议的核心主题将决定人工智能未来的研究发展发向,是继续研究语法树,还是兴起不久的深度学习研究。
秘书的事务已无暇顾及,何谨修倒没说什么,让hr再借调一个人手过来。
韩念初几乎都泡在实验室里,跟周严果讨论,写代码,刘铭亲自坐镇,也要了张办公桌,和他们一起办公。
周严果站在白板前说:“在现有语料库的基础上,假设我们把状态价值函数和动作价值函数定义好,加入现有的代码模块,实现有监督的学习。”
刘铭问:“具体怎么实现?”
周严果说:“这就是今天讨论的目的,集思广益,讨论出这个方法的可行性。”
何谨修捏着笔,不知为何,他的目光转向了韩念初。
韩念初走到周严果旁边,接过他的笔,在白板上写满了公式,转身说道:“用贝尔曼方程迭代计算奖惩。”
众人一愣。
韩念初接着说道:“具体一点,先定义状态价值函数,用来评估状态优劣。行为或动作价值函数用于评估下一个字或词的优劣。完成定义后,进一步定义出累计奖励函数,就可以评价出一整句回答的优劣。”
“奖励函数怎么定义?这个函数接受的变量怎么从人传给机器?这个变量给了函数以后,函数怎么去调整它的输出?答好要加多少分?答不好要扣多少分?那个奖励函数怎么解?”周严果一口气问出了一连串的问题。
Loading...
未加载完,尝试【刷新】or【关闭小说模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.lengku8.cc
(>人<;)