扫一扫,加客服微信 AI又双叒立大功!
2023世界人工智能大会上,我们公布了在AI for Science("人工智能驱动科学研究")领域的一点“遥远”的成果:
要么在数十亿光年以外,
要么在几千年前。
那么,AI到底干了啥?
首先,看着天空——
眨眼!
好了,这么点时间够发生一百次快速射电暴了。以及,如果你能肉眼看见它,应该已经被闪瞎了。
快速射电暴(FRB)是宇宙中最明亮的射电爆发现象,能在1毫秒内释放出太阳大约一整年才能辐射出的能量。
科学家们认为,它能帮人类进一步了解宇宙能量释放、宇宙结构、星系际介质磁场研究等课题,堪称“宇宙学探针”。
可难办的是,虽然它亮,但是它“宅”!
说个数:自2016年建成后,中国天眼FAST(就是这个“锅”)发现的脉冲星已超 740 颗,但截至2022年底,FAST也就一共发现7颗FRB。
哪怕全球范围看,FRB和脉冲星的发现数量也至少差了一个数量级。
这时我们就开始寻思:
自2021年我们与国家天文台联合启动“探星计划”以来,每天都在用AI帮FAST处理接收到的庞大数据、分析寻找脉冲星线索。那AI能不能也帮忙找找FRB呢?
可以!但是要在数据中发现更低频出现的FRB,要求AI模型具备更高的精度、以及更快的计算速度。
腾讯优图实验室发现,本质上我们需要AI做的,就是在随机、无序的噪声数据里找到有用的信号——这跟处理图像数据一样的嘛!老本行!
于是他们采用了一套自监督预训练的办法:
运用常规图片数据、学术数据和互联网数据等,使AI模型具备初步的学习能力,再结合少量的FRB数据进行训练。(为啥不直接用FRB数据训练?因为太少)
同时,他们还引入了多示例学习、注意力机制,同时结合腾讯云行业大模型辅助AI训练。
举个例子,下面是一张发现了FRB的信号图,有用的信号是非常弱、非常小的,整张图上大部分是随机的噪声。而多示例学习这样的技术,能在有用信号占比少的情况下,精确地把它找出来。
不光能找出来,这套AI模型还能快速给大量待标注数据进行初步的标注,提升标注效率至少30%。
光有模型还不够,因为FRB出现的频率很低,要更大量数据的计算才有可能找到一颗信号,主打一个“广撒网”、“捞鱼”速度还不能慢。
之前寻找脉冲星时,我们的信号处理流程分两步:
第一步,先用天文物理学对信号进行处理,还有一系列图像处理步骤;
第二步,让AI去识别图像、输入模型得到结果。
为了寻找FRB,优图实验室的同学们全新设计了端到端AI算法:
把两步合成为一步,接收到的天文信号直接进入AI自动化流程,不再需要经过传统天文信号处理流程就得到结果。
在同等算力下,这套全新的天文数据处理范式,推动信号处理效率相对常规处理流程提速1800倍!
2023年,探星计划首次通过AI技术,从大量观测数据中发现了2颗快速射电暴。
你看,我们离星辰大海更近了。
收回目光,你有没有想过:
几千年前的国人是怎么看待宇宙的?
甲骨文能给我们答案,如果能看懂的话。
目前,已经出土的甲骨约有16万片,已经发现约4500个甲骨字,其中约3000字尚未释读。
而甲骨自然损坏速度很快,甲骨文专家学者数量又少,急需数字化保存和智能工具的帮助、加快破译速度。
去年,腾讯优图实验室、SSV数字文化实验室与安阳市文物局、安阳甲骨文信息处理实验室等多个部门合作,宣布共建甲骨文开放创新平台,让AI和专家们一起投入甲骨文考释工作。
截至目前,我们已经建立起覆盖143万字的全球最大甲骨文单字数据库!
甲骨文的考释,一般会从两个维度去考虑:字形,和辞例(即实际的语义)。
优图实验室的同学们发现,甲骨文的不同字形、不同写法之间的匹配关系在破译中尤为关键——这跟图像识别一样的嘛!老本行!
而为了达成字形匹配的目标,首先得有用来匹配的字库,操作就开始了:
第一步,拓片文字检测。
每块甲骨拓片上一般有很多个字,得先“抠下来”。
AI检测算法能够精确识别拓片上不同区域、不同形态的甲骨文,智能扩充识别边界,避免漏识笔画,进一步加速字库“收集”过程。
第二步,单字摹本生成。
“黑底白字”的甲骨拓片上划痕之类的“噪声”很多,字形不够清晰。
AI摹本生成算法,能够有效识别和去除“噪声”,生成“白底黑字”的具有清晰字形的甲骨文单字摹本,为学者后续的识别和匹配工作扫清障碍。
(ppt演示下拓片-单字-摹本的变化过程)
第三步,构建字库。
到这里,已经处理好的单字摹本就可以进库啦。
目前我们已经收纳了143万个甲骨文单字拓片及其电子摹本,并且每个单字均可对应到其在拓片中的位置。
有了数据库,专家们就可以来进行甲骨文单字的查询了。
基于优图实验室的目标检索和图像匹配算法,专家可以快速实现“以字搜图”,“以图搜图”。
想找一个字,就输入字形,AI会自动比对它和字库中所有单字摹本的相似度(这比肉眼看遍143w个字快多了),给出字形最近似的摹本以及关联拓片。
等等,143万?不是只发现4500个单字吗?
原来,这个字库特意收集了每个单字多次出现、或出现在不同拓片上的重复情况。
因为对于专家来说,在研究某一个字的时候,看到这个字出现在所有语境下、或者所有拓片上面的情况,是很有必要的。
甚至有时候,一个字出现的频次高,本身就是一种有意义的重复。
这也是我们首次将文字检测、摹本生成、字形匹配等AI算法,综合应用于甲骨文研究。
未来,我们还会进一步将这个数据库工具化,提升甲骨文识别与考释、甲骨论著内容提取等的效率。
用最新的技术,追寻最古的源头,不失为一种浪漫。