天天热资讯！中美PK视觉语义大模型，硅基统治世界，环境感知是第一步

2023-06-09 16:26:11 来源：面包芯语

近日，OPPO研究院推出了RAM模型，Recognize Anything Model，标识万物，这是一款专注图片标记的基础模型，RAM引入了一种全新的图像标记范例，通过对大规模的图像-文本对进行训练，以此来代替传统的手动注释。

用魔法打败魔法，这是不是听上去就挺AI？

【资料图】

https://huggingface.co/spaces/xinyu1205/Recognize_Anything-Tag2Text

论文显示，通过评估测试，RAM模型在图片标记方面的性能优异，可以识别比其他型号更有价值的标签，已经完全能够pk掉国外同类型的模型，比如ML-Decoder、Google Tagging API等。

RAM展现了令人印象深刻的零样本性能，显著优于CLIP和BLIP。

RAM甚至超过了完全监督方式（ML-Decoder）。

RAM显示出与Google Tagging API相比具有竞争力的性能。

注：标记模型之间识别能力的比较：RAM识别出比其他型号更有价值的标签，而不会遗漏重要部分。ML-Decoder和Google Tagging API倾向于输出冗余标签（例如“人头”）或不太相关的标签（例如“属性”）。BLIP的标签是有限的，因为它依赖于说明文字生成。

RAM模型可以高精度地识别任何常见类别，当与本地化模型（Grounded SAM）相结合时，RAM形成了视觉语义分析的强大而通用的管道，能够自动识别6400多个常见标签，涵盖了比OpenImages V6更有价值的类别。

目前大家一提到大模型，肯定优先想到OpenAI的GPT，而且体验最多的应用就是ChatGPT，聊天对话等应用，生成图片的效果也很难让人满意。但是逻辑对话功能的想象空间着实有限，未来AI真正的星辰大海，还有很多方面需要去开拓。大模型肯定要朝着多模态的方向发展，不仅仅是文本，还要涵盖图像、视觉、语音等多种信息。

有了多模态的AI算法，就等于给了机器人一双认清万物的眼睛。

ChatGPT惊艳世人的最开始，大家普遍担心机器人统治世界，但是真要达到这一步，机器人仅仅能够理解语言是不够的，环境感知是第一步，而图片标记则是环境感知的第一步。

最典型的应用就是自动驾驶，汽车只有准确感知了周围环境，才能够像一个Robot一样，自主行动。

其它应用场景，比如各种家居服务机器人、陪伴机器人，未来不会只停留在静止状态，要充分融入家庭当中，对家居环境的感知识别，也是最关键一步

说到最恐怖的了，假如未来硅基生命要统治地球，战争估计不可避免，这一天会不会像大家想象的一样，终将会来临？

以上都是测试的时候，网上随便找的图片，最后这张战场图片，我都没注意到有飞机跑道，至少这一点上，AI模型比我做的好。

——创道硬科技研究院——

创道（北京）咨询顾问有限公司，专注于服务风险投资机构和科技成长型企业，聚焦“硬科技”领域，涵盖半导体、信创、人工智能、物联网、智能制造、云计算、大数据等。打造“创道硬科技研究院”、“创道硬科技生态圈”、“创道硬科技融服务”三大业务板块，科技研究、产业协同、投融资服务一体化平台，涵盖业务包括风险投资、科技深度研究、投融资咨询等。

感谢阅读到最后

少侠留步

点个在看吧

标签：

滚动

百科石楠树有多少个品种

山西潞城：火红灯笼闹元宵张灯结彩年味浓

广州疾控紧急通告：到过重点场所的人员进行健康管理

安徽16岁弟弟捐献造血干细胞救24岁哥哥

天天热资讯！中美PK视觉语义大模型，硅基统治世界，环境感知是第一步

最新资讯

知识

教育