最新AI丑脸评分标准是什么?和颜值测试有区别吗?

我一开始根本没想研究什么AI的“丑脸评分”标准。我只是前段时间帮朋友搞一个短视频的滤镜,那个滤镜是基于面部关键点识别的,结果发现,某些长相特别有特点,或者说五官离散度比较大的用户,系统老是识别错位,甚至直接报错,完全没法用。这让我好奇了,AI到底是怎么判断一张脸“难看”的?或者说,怎么判断一张脸“难处理”?

我决定自己动手跑个测试,看看AI到底在测什么

我立马抓了两个方向的AI模型,准备来个左右互搏。

  • 第一派:传统的“颜值测试”模型(我们叫它P-Model,漂亮模型)。这玩意儿网上随便一搜一大把,核心逻辑就是算对称、算比例,看眼睛是不是在黄金分割线上,鼻子是不是够挺,皮肤是不是平整。它们追求的是“中庸美”,或者说“数据拟合美”。
  • 第二派:我自创的“特征干扰度”模型(我们叫它D-Model,离散度模型)。这东西市面上没有现成的APP让你玩,我得自己动手。我翻出了几个专门搞CV(计算机视觉)的开源项目,扒拉下来一个用来做“反向训练”的工具。这个工具本来是用来找图片里的噪点和异常区域的,不是用来找美的,而是用来找“让AI感到困惑”的特征。我调整了参数,让它专门针对人脸五官进行特征点提取,并且计算这些特征点之间的“信息熵”,说白了,就是看这张脸的特征点排布,是不是特别难被标准数据库收录。点越是稀有,越是反常,得分就越高。

开始我的“AI鉴丑”实践

工具备好了,接下来就是找素材。为了让数据更有说服力,我搜罗了三类照片,每类都找了十张样本,一共三十张脸,准备一锅端,全部扔进P-Model和D-Model里跑分。

第一组:标准美脸。这组脸都是经过精修或者天生就极其符合黄金比例的,比如网络上公认的帅哥美女,特点是脸型标准,五官对称度几乎拉满。

第二组:普通大众脸。这组脸就是我们身边的普通人,既不丑,也没什么特别的记忆点,特征点都规规矩矩,没有明显的突出或凹陷。

第三组:极具特点脸(或者叫“挑战者”)。这组脸特征非常鲜明,有些是天生就有的,比如异常宽的下巴、特别突出的颧骨、或者眼睛大小差异明显;有些是抓拍的夸张表情导致的极度不对称。它们是标准的AI“识别困难户”。

跑分与记录结果

把这三十张照片一张一张地扔进去,然后手工记录了两套系统的评分。过程有点枯燥,但结果出来,我整个人都拍大腿了,跟我预想的完全不一样!

第一轮:正向美度评估(P-Model)的结果

  • 标准美脸:平均得分90分以上。意料之中。
  • 普通大众脸:平均得分60到75分。中规中矩。
  • 极具特点脸:平均得分只有40到55分。这说明传统颜值测试认为这些脸是“不美的”,因为它们严重偏离了对称和比例标准。

第二轮:反向丑脸评分(D-Model)的结果

重点来了,我的“特征干扰度”模型给出的分数(分数越高,代表“越丑”,或者说“越难识别”)。

  • 标准美脸:平均得分只有10分左右。AI表示:处理起来太轻松了,信息量少,特征点太集中,不丑。
  • 普通大众脸:平均得分25分左右。比标准美脸稍微高一点,但还是在安全范围,AI处理起来无压力。
  • 极具特点脸:平均得分直接飙到了70分以上!有些夸张的脸,甚至突破了80分。

实践AI的“丑”和人类的“丑”

这下就彻底搞清楚了。最新的AI“丑脸评分标准”跟我们平时理解的“颜值测试”根本就是两码事,它们测试的维度完全不同。

颜值测试(P-Model)测试的是“美”,它追求的是特征的收敛性统计学上的高频。你长得越符合平均值、越对称、越符合黄金比例,分数就越高。它判断的是“你有多漂亮?”

丑脸评分(D-Model)测试的不是“不美”,而是“难处理”和“稀有度”。它追求的是特征的离散性数据处理的难度。当你的五官特征点在空间中的排布,或者五官形状本身的复杂度,超出了AI常规训练集的处理范围,让AI的识别效率下降,甚至产生错误预判的时候,它就会给你打高分。它判断的是“你让AI有多困惑?”

一个长得很有特点,比如有国字脸、小眼睛、大鼻子,虽然在传统颜值测试里可能分数不高,但在最新的AI“丑脸评分”里,只要你的特征点排布足够独特,让它识别困难,你就是高分“丑脸”。

简单来说:颜值测试看你是不是“大众美人”,而AI丑脸评分看你是不是“数据异类”。我朋友那个滤镜识别出问题,就是因为它在处理“数据异类”时,直接崩了。这实践算是彻底给我上了一课,下次再做AI识别相关的应用,对这些“特点脸”的数据集要重点优化了。