图片来源@视觉中国
文 | 脑极体
电影《让子弹飞》里,有一段情节特别有意思:
鹅城之主黄四郎拿着张麻子的上任证件,大惑不解——
黄:这照片是你吗。
张:是我。
黄:这就不是你。
张:我也说这TM根本就不是我。我去照相馆照相,取照片的时候,他们给我的就是这张,我说这不是我,他们说这就是你,我说他不是我!他们说这就是你。没办法,我就把他贴在这了。
于是,张麻子就这么走马上任了。
或许,你只觉得这段剧情特别搞笑,堪称大型现实魔幻主义。但如果现实之中,寻找久别的亲人、追查肇事的罪犯等,都只能依靠这种容易伪造、模糊不清的信息,会让整个任务变得一筹莫展。
准确鉴定一个人的身份乃至外貌,已经成为一个必须解决的关键社会问题。而目前最为便捷与安全的解决方案无疑就是DNA技术。
人体内的DNA具有唯一性(同卵双胞胎可能具有同样的DNA)和永久性,因此,DNA鉴定也具有绝对的权威性和准确性,是目前世界范围内应用最广、也是最为成熟的犯罪侦查技术之一,也一直被认为是寻找失踪人口的黄金标准。
而且,DNA信息很难被彻底抹去,一件穿过的衣服、一块嚼过的口香糖,一根跌落的头发,都可能采集到DNA样本。试想一下,如果根据DNA能够直接描绘出的长相,是不是能够快速拿到关键信息,从而加快团聚的脚步、断案的进度呢?
举个例子,前不久备受关注的徐州小花梅事件调查结果公布,通过DNA检验比对确认了杨某侠即小花梅的身份。同时,又有网友对比了小花梅与杨某侠的照片,很多人都认为不像同一个人。这种情况,如果能通过DNA预测并生成面部画像,或许就能直观且准确地看到面貌特征,有效地说服质疑者。
事实上,基于DNA信息对人类外部可见特征(EVCs)的预测,早已被应用到了刑侦身份确认等领域当中。那么,它究竟是不是寻人缉凶中,那颗重开身份迷雾的 “银弹”silver bullet呢?
DNA to Face,靠谱吗?
在全球范围内,DNA表型都是一种极为重要的刑侦手段。当侦查毫无头绪的时候,DNA表型可以从个体DNA中提取某些基因来预测个体面部特征,帮助确定肇事者可能是什么样子,进一步缩小嫌疑人的范围,加快调查过程。
对于渴望寻亲的人来说,DNA表型也可以帮助TA快速定位出潜在亲人的面貌,排除完全不具备相关遗传变异的候选人,帮助人们早日团聚。
(Parabon使用DNA来重建人脸,这名嫌疑人后来被确认是1987年的谋杀案件)
首先,通过分析遗传变异点位SNP,确定身体和面部特征。这些点位差异,往往会影响人体相关的一系列信息,比如眼睛颜色,头发颜色,年龄,性别,身高,遗传病等。因此,通过比对SNP可以得到一个人的容貌特征数据样本。
然后,基于人工智能算法和深度生成模型,提取与身体特征相关的信息,创建面部图像。为了保证科学性,每个特征往往会用准确率百分比的形式呈现。比如,对方可能有88.6%的概率,是一个白人男性,88.3%的概率有褐色的眼睛,有雀斑的概率则只有22%。
此外,即使案件已经发生多年,DNA表型也可以与AI面部识别技术相结合,生成对方随着时间流逝后的长相,或者还原儿童时的长相。如果一个孩子失踪几年了,那么从孩子的梳子上取下的一缕头发,可以用来创建一组年龄进展图像。
DNA 研究公司Parabon的生物信息学总监Ellen McRae Greytak就曾分享过,该公司在过去七年中帮助解决了200多起案件。
2015年,哥伦比亚警方就通过现场收集的DNA,生成嫌疑人图像,逮捕了一名男子,最终破获了一个四年来毫无进展的凶杀案。
DNA表型的3D图像显示,凶手应该是一个非洲阿尔及利亚的男性,有着橄榄色的皮肤,绿色的眼睛,丰满的嘴唇,很少或没有雀斑。
基于DNA来生成的图像,可以与其他调查信息一起,生成寻人或通缉海报,无疑会让进展事半功倍。
不是银弹,却是尖刀
但在普通人眼中,这个技术好像有点用,又好像没啥用。
因为,目前DNA技术还无法准确预测多种面貌特征。脸部的形状是由数以千计的基因决定的,某一处单个特征的标记都可能影响整个面部表现,让脸型从男性化变得女性化,这种模糊性就给后续追查带来挑战。
另外,DNA表型只能反映基因遗传特征,不能显示出与后天成长环境的相互作用。比如染发、断鼻、掉牙等情况,都可能改变嫌疑人外表,却无法反映在DNA中。所以仅凭DNA就不可能预测一个人精准的样子。
还有,大家都知道深度学习模型依赖于大规模的数据集训练,而目前许多面部识别系统的数据集中,不同种族的面部数据并不均衡,这就会导致对不同群体的识别准确度大不相同,算法准确率低的群体可能很容易被误判和定罪,带来新的不公平。
比如在2019年基于Hapmap数据集展开的一项DNA表型研究中,GLOBAL队列(全球样本)的表现就不如EURO队列(欧洲样本)好,原因之一,就是欧洲人在基因组方面的数据规模更大,因此模型的识别效果更好。
而且无论我们走到哪里,都会留下自己的DNA痕迹,比如地铁上留下的一缕头发,或是咖啡馆中玻璃杯上沾到的唾液……当DNA样本的易得性,遇上市场化服务和大规模数据库的应用,这项技术也就产生巨大的隐私风险。
2013 年,纽约艺术家杜威-哈格堡(Heather Dewey Hagborg)启动了一个艺术项目“陌生人视角景(Stranger Visions)”,从公共场所收集的遗传物质制作肖像雕塑。比如,从一根掉落的烟头里,DNA显示吸烟者是一个东欧血统的男性,眼睛是棕色的。
(2013年1月6日中午12点15分,杜威-哈格堡在纽约收集了一个烟头)
她将这些参数输入到算法模型中,创建出人脸的3D模型,并用3D打印出雕塑。
不难想象,如果这项技术开始规模化应用,而DNA样本又无处不在,那么很可能你的所有行程、做了什么,都会被扒个底儿掉。
而这一天,已经到来了。目前,很多海外生物机构和科技企业会提供类似的服务,比如Greytak、Parabon、Corsight等,Human Longevity早在 2017 年就曾使用 DNA 重建面部照片。哥伦比亚警方正是通过Parabon NanoLabs公司开发的程序Snapshot,创建出了嫌疑人的形象。
还有一些简单易用的面部DNA测试应用,可以在网上免费下载,帮人们判断血统、确定亲子关系、寻找亲人。应用程序Face IT DNA,就号称可以通过60多个面部点匹配,来帮助用户确认关系,只需要进行人脸识别扫描,匹配准确率高达92%。
仅仅人脸识别当然达不到这样高的精度,而且很可能导致你的敏感个人信息泄露。
一些公开的DNA数据库也已经建立。GEDMatch就是一个可以免费使用的DNA测试数据库,但用户把自己的DNA档案上传到GEDMatch等网站比对之后,相关信息也被美国警方拿到,然后抓捕了一位嫌疑人用户。这种运用不合理手段获取个人因素数据的行为,也引发了大量的反对,要求GEDMatch限制对平台数据的访问。
面对这些DNA表型存在的现实问题,生物学家和工程师Yves Moreau认为,它就像一把刀——人们低估了它能有多锋利。
在向犯罪分子重磅出击的时候,也可能先割伤普通人。
瑕不掩瑜,必不可少
既然DNA表型目前还有很多挑战和不足之处,那还有研究的必要吗?至少目前来说,作为一种新型的DNA技术,是各国不可回避的领域。
从科学的角度来看,研究DNA表型,能够帮助全人类更了解自己是谁,搞清楚人类的起源和演变。
DNA虽然不能精准地反映个体的面貌细节,却是一个人生物血统和族裔血统最靠谱的证明。读懂DNA中隐藏的信息,能够了解人类历史过程中的迁移动向、族群选择以及其他随机影响。
举个例子,位于Y染色体上的标记,只能从父亲传给儿子,因此能够完全反映出父系谱系中(男性)祖先的地理起源。
借助DNA表型测试系统,可以大致确定个体血统,并根据地理祖先推断出某些外部可见的特征。像是金发,蓝眼睛和浅色皮肤的人,都至少有一部分欧洲血统。
从国家的角度看,目前,很多国家也都在建设自己的生物识别数据库,被视作数字治理的重要组成部分。比如印度的Aadhar系统,以及澳大利亚政府正在建立的面部识别系统“The Capability”,可以将监控录像中的人脸和驾驶执照中的图像信息相匹配。未来结合DNA表型预测肇事者的脸,快速从人脸数据库中找到潜在嫌疑人,将不再是难事。
建立具有本国国民特征的规模数据库,成为更好地应用人脸识别、深度学习等技术的土壤。正如一些科学家所说的,识别的基因数据越多,这种技术就会越准确。进而更好地帮助亲人团聚、更早将犯罪分子绳之以法。
而对于个人来说,今天,人脸识别技术已经应用在门禁、安检、移动支付、进出场馆等诸多场合。想象一下,在未来世界里,一个人的外表可以仅从DNA中准确地重建出来,身份证、护照、社会保障卡等证件或许就都不再需要了。这会大大提升人脸识别场景的准确度和唯一性。
此外,DNA表型的相关算法模型,还可以扩展到医学图像(如脑部扫描)与基因的联系,为医疗诊断、遗传分析等提供辅助,帮助研究阿尔茨海默氏症等神经退行性疾病。
无论我们走到哪里,都会留下一些DNA。让这些信息被看见,或许那些不明身份的人,都能够拥有自己的姓名。而作恶的人,也暴露在阳光下。
这就是技术的世界,让一切真实无所遁形。