“反过来的话,你是想用简单的变分后验将数据样本映射到标准高斯分布,然后学一个生成器,模仿这个映射?”
“emmm...这种方式的确搜索空间可以大不少,效率可能会很高。听起来还不错,但我不确定它是否好用。”
这种新的方式,里面涉及到的原理和数学推理论证,稍一估算就不少,说不定纯推理论证就能发出好几篇论文来。
“我想借助马尔科夫链的平稳性,让概率分布趋于某种平稳分布,逐渐逼近。”
孟繁岐解释道。
辛顿分析道:“这个逐渐逼近的过程,其实还是加噪声呗,还是随机在采样。一步步前向,一步步加入噪声。”
“对,噪声就像是在马尔科夫链演化的过程当中,逐渐溶解扩散,在这个体系中逐渐地分布均匀,我叫它扩散模型。”
噪声加入模型中,先是在局部比较浓郁,而后随着逐渐一步步迭代的过程均匀扩散开来。
就像是一滴滴墨水滴入清水当中,然后缓缓搅拌均匀,这便是扩散模型名字的由来。
假设清水是我们需要的东西,前向就是清水加墨的过程,而反向则是从墨水生成清水的过程,模型学到了如何过滤噪声。
通过大量的前向学习之后,扩散模型就有了从噪声图凭空优化直至一张优美图片的能力,也就可以去完成各种制图工作了。
“听起来很有潜力,不过为什么高斯分布的马尔科夫链,会对生成器模仿某一个映射有帮助呢?这个问题还需要后面我们仔细讨论一下。”
辛顿只是想了一会,就觉得这个方法应该会好用,但是却一时间想不明白原理和为什么。
今天毕竟还是孟繁岐文章登陆自然封面的庆祝聚会,几人虽然好奇,但也不至于当场就开始研究。
并且,扩散模型距离后来大家使用的出图技术稳定扩散模型还差了好几个组件呢,轮子还缺了几个,因而孟繁岐也不着急此事。
“其实现在最缺的还是数据,各个领域都比较缺,不过谷歌这边已经开始用验证码数据标注了,一些比较常见的方向应该很快会有进展。”
伊利亚笑着说道。
自从进入人工智能时代,各种网页上的验证码就变得离奇了许多。
最开始还只是识别字母,做做加减法之类的。
现在招式就多起来了,给图片分类的;九宫格十二宫格,让你选择有路牌有车的;甚至还有让你仔细勾选某种物体轮廓的,简直离谱!
而自2012年起,谷歌就已经开始把偷偷把谷歌街景中最难以识别的门牌和路牌加入进了验证码,请用户帮忙标注。
看似在区分机器人,实际上在做义务劳动!