最近有个单机内容监测软件一下子火起来,据说还签下了一个巨大的政府单子,恭喜它了,这是软件正版化事业发展的里程碑,虽然在资金来源和审批方面还有些质疑,但只从正版化来考虑的话,肯定算是个可喜的进步。
图像检测是个挺有意思的领域,做得好就可以很好,但一般很难出成绩,所以愿意钻的人不多。做得好的,好比动态图像检测,斯坦福有个小组一直在搞,领头的是个年轻教授,还是个华裔,发音诡异。不过带的几个项目都很厉害,比较出名是国防部资助的无人驾驶车辆。那个说透了就是不断地分析通过摄像头得到的“视觉”,找到图像中的“边缘”和特征,用以判断哪里是路,哪里是坡。
路是死的,内容不是。在图像内容分析的方面,恐怕计算机还无能为力,它最擅长的分类检测大致上相当于幼儿判断视野中出现的红色气球和黄色青蛙,可以做出选择,但不知道其意义究竟是什么。其实一切危险的人工智能机器(好比鹰眼和天网)都只存在于电影中,能自我作出价值观判断的,一个都没有。原因很简单,和人类一样,在大脑发育出具备足够的智能“设备”之前,智力是不可能提前一步发展的。
可能有人会问,不对,人脸检测不是可以做到吗?答案出乎意料的简单,判断人脸是基于颅骨、瞳距等特征点的,计算机看到的其实只是几个点,它根本不在乎你是谁。
那么,内容分析就一定做不到吗?我不知道,未来也许可以,但现在,没戏。因为内容总是植根于某种情境,如果检测是基于肤色分析,那么油画中的法兰西女神与某些清凉的模特照就会在计算机眼里被归于同类,但人类显然不这么看。前面已经说过,计算机并不理解内容,它现在还做不到。而肤色分析及其简单,只要算一下落在皮肤色域的点出现在整幅图像中的比例就好,用python写的话,嗯,十行就够了。
不信?参见:
http://blog.csdn.net/lanphaday/archive/2008/10/28/3166735.aspx
这些嘛,看看就好。毕竟一涉及到高级些的分类器(而不是上面那个十行的玩具),就不可避免地会提及模糊逻辑和神经网络,弄出一堆掺杂着概率、矩阵和纯数学的东西来吓唬人,作为用户和旁观者根本不需要懂这些,只从外边判断其效能就足够了。
用的人可以不懂,做的人绝不能不懂。如果做的人数学就不过关,就很难使他们的产品有足够的说服力。好比下面这段广告味十足的话:
##公司承诺图像检测正检率大于90%,误检率小于7%,而检出率 = 正检率*色情图像比例 + (1 – 误检率)*(1–色情图像比例),在色情图像占1%时,检出率为93%。
https://docs.google.com/View?id=afk7vnz54wt_12f8jzj9gw
粗粗一看,哦,这间公司的科学家们认为,检出率=0.9*0.01+(1-0.07)*(1-0.01)=0.9*0.01+0.93*0.99
显然,0.9*0.01很小,所以上面的最终结果是约等于0.93*0.99,约等于0.93,也就是93%。
亲爱的科学家们,我为你们的概率老师感到惋惜,我同时为贝叶斯师傅感到难过,这就是你们的老师教给你们的吗?你们打算用瞎编出来的公式来欺骗政府和消费者吗?是不是因为觉得国人的平均教育水平不够高,就可以让你们这样任意忽悠呢?
不妨直说,在你们的这种设定下,正检率只是略微超过一成。下面我就来证明。
不妨设图像的目标类型为N吧。
设A事件为{判定为N类型图片}。
设B1事件为{N类型图片},B2事件为{非N类型图片}。
则根据那些科学家们提供的数据,
P(A|B1)>0.9,不妨取0.9。
P(A|B2)<0.07,不妨取0.07。
P(B1)=0.01,P(B2)=0.99
则根据全概率公式:
P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)=0.01*0.9+0.99*0.07=0.0783
根据贝叶斯公式,误判的概率为:
P(B2|A)=P(B2)P(A|B2)/P(A)=0.0693/0.0783=0.885057=88.51%
这就是真正的结果,它的误判率高达88.51%,几乎接近了它所宣称的高达93%的所谓正检率。这一点与目前看到的事实相吻合,好比加菲猫们被误判后归于N类型。
真实的正检率?1-88.51%,你认为有多少?
听到有消息说不要批评。我写这篇自认应属纯科学性质,与批评无关。当然,如果有任何不妥,请随时处理。
欢迎光临 祝孩子们天天健康快乐! (http://www.xetjy.com/) | Powered by Discuz! X3.2 |