掌柜推荐

3221009 ￥1500.00

特价八位特价七位 SVIP9 黄钻8 双皇冠九位极品特价十位极品特价八位皇冠双回旋爱情概念情侣号靓号已买断假山真山

腾讯AI新成果：去银河之外，到甲骨之中

来源：买QQ靓号网发布时间：2023-07-10 11:53:38

AI又双叒立大功！

2023世界人工智能大会上，我们公布了在AI for Science（"人工智能驱动科学研究"）领域的一点“遥远”的成果：

要么在数十亿光年以外，

要么在几千年前。

那么，AI到底干了啥？

首先，看着天空——

眨眼！

好了，这么点时间够发生一百次快速射电暴了。以及，如果你能肉眼看见它，应该已经被闪瞎了。

快速射电暴（FRB）是宇宙中最明亮的射电爆发现象，能在1毫秒内释放出太阳大约一整年才能辐射出的能量。

科学家们认为，它能帮人类进一步了解宇宙能量释放、宇宙结构、星系际介质磁场研究等课题，堪称“宇宙学探针”。

可难办的是，虽然它亮，但是它“宅”！

说个数：自2016年建成后，中国天眼FAST（就是这个“锅”）发现的脉冲星已超 740 颗，但截至2022年底，FAST也就一共发现7颗FRB。

哪怕全球范围看，FRB和脉冲星的发现数量也至少差了一个数量级。

这时我们就开始寻思：

自2021年我们与国家天文台联合启动“探星计划”以来，每天都在用AI帮FAST处理接收到的庞大数据、分析寻找脉冲星线索。那AI能不能也帮忙找找FRB呢？

可以！但是要在数据中发现更低频出现的FRB，要求AI模型具备更高的精度、以及更快的计算速度。

腾讯优图实验室发现，本质上我们需要AI做的，就是在随机、无序的噪声数据里找到有用的信号——这跟处理图像数据一样的嘛！老本行！

于是他们采用了一套自监督预训练的办法：

运用常规图片数据、学术数据和互联网数据等，使AI模型具备初步的学习能力，再结合少量的FRB数据进行训练。（为啥不直接用FRB数据训练？因为太少）

同时，他们还引入了多示例学习、注意力机制，同时结合腾讯云行业大模型辅助AI训练。

举个例子，下面是一张发现了FRB的信号图，有用的信号是非常弱、非常小的，整张图上大部分是随机的噪声。而多示例学习这样的技术，能在有用信号占比少的情况下，精确地把它找出来。

不光能找出来，这套AI模型还能快速给大量待标注数据进行初步的标注，提升标注效率至少30%。

光有模型还不够，因为FRB出现的频率很低，要更大量数据的计算才有可能找到一颗信号，主打一个“广撒网”、“捞鱼”速度还不能慢。

之前寻找脉冲星时，我们的信号处理流程分两步：

第一步，先用天文物理学对信号进行处理，还有一系列图像处理步骤；

第二步，让AI去识别图像、输入模型得到结果。

为了寻找FRB，优图实验室的同学们全新设计了端到端AI算法：

把两步合成为一步，接收到的天文信号直接进入AI自动化流程，不再需要经过传统天文信号处理流程就得到结果。

在同等算力下，这套全新的天文数据处理范式，推动信号处理效率相对常规处理流程提速1800倍！

2023年，探星计划首次通过AI技术，从大量观测数据中发现了2颗快速射电暴。

你看，我们离星辰大海更近了。

收回目光，你有没有想过：

几千年前的国人是怎么看待宇宙的？

甲骨文能给我们答案，如果能看懂的话。

目前，已经出土的甲骨约有16万片，已经发现约4500个甲骨字，其中约3000字尚未释读。

而甲骨自然损坏速度很快，甲骨文专家学者数量又少，急需数字化保存和智能工具的帮助、加快破译速度。

去年，腾讯优图实验室、SSV数字文化实验室与安阳市文物局、安阳甲骨文信息处理实验室等多个部门合作，宣布共建甲骨文开放创新平台，让AI和专家们一起投入甲骨文考释工作。

截至目前，我们已经建立起覆盖143万字的全球最大甲骨文单字数据库！

甲骨文的考释，一般会从两个维度去考虑：字形，和辞例（即实际的语义）。

优图实验室的同学们发现，甲骨文的不同字形、不同写法之间的匹配关系在破译中尤为关键——这跟图像识别一样的嘛！老本行！

而为了达成字形匹配的目标，首先得有用来匹配的字库，操作就开始了：

第一步，拓片文字检测。

每块甲骨拓片上一般有很多个字，得先“抠下来”。

AI检测算法能够精确识别拓片上不同区域、不同形态的甲骨文，智能扩充识别边界，避免漏识笔画，进一步加速字库“收集”过程。

第二步，单字摹本生成。

“黑底白字”的甲骨拓片上划痕之类的“噪声”很多，字形不够清晰。

AI摹本生成算法，能够有效识别和去除“噪声”，生成“白底黑字”的具有清晰字形的甲骨文单字摹本，为学者后续的识别和匹配工作扫清障碍。

（ppt演示下拓片-单字-摹本的变化过程）

第三步，构建字库。

到这里，已经处理好的单字摹本就可以进库啦。

目前我们已经收纳了143万个甲骨文单字拓片及其电子摹本，并且每个单字均可对应到其在拓片中的位置。

有了数据库，专家们就可以来进行甲骨文单字的查询了。

基于优图实验室的目标检索和图像匹配算法，专家可以快速实现“以字搜图”，“以图搜图”。

想找一个字，就输入字形，AI会自动比对它和字库中所有单字摹本的相似度（这比肉眼看遍143w个字快多了），给出字形最近似的摹本以及关联拓片。

等等，143万？不是只发现4500个单字吗？

原来，这个字库特意收集了每个单字多次出现、或出现在不同拓片上的重复情况。

因为对于专家来说，在研究某一个字的时候，看到这个字出现在所有语境下、或者所有拓片上面的情况，是很有必要的。

甚至有时候，一个字出现的频次高，本身就是一种有意义的重复。

这也是我们首次将文字检测、摹本生成、字形匹配等AI算法，综合应用于甲骨文研究。

未来，我们还会进一步将这个数据库工具化，提升甲骨文识别与考释、甲骨论著内容提取等的效率。

用最新的技术，追寻最古的源头，不失为一种浪漫。

上一篇：腾讯Q哥Q妹回忆：那年的青春，全是QQ的样子

下一篇：助新药研发！腾讯推全球最大耐药性数据库