天天热资讯!中美PK视觉语义大模型,硅基统治世界,环境感知是第一步

2023-06-09 16:26:11 来源:面包芯语

近日,OPPO研究院推出了RAM模型,Recognize Anything Model,标识万物,这是一款专注图片标记的基础模型,RAM引入了一种全新的图像标记范例,通过对大规模的图像-文本对进行训练,以此来代替传统的手动注释。

用魔法打败魔法,这是不是听上去就挺AI?


【资料图】

https://huggingface.co/spaces/xinyu1205/Recognize_Anything-Tag2Text

论文显示,通过评估测试,RAM模型在图片标记方面的性能优异,可以识别比其他型号更有价值的标签,已经完全能够pk掉国外同类型的模型,比如ML-Decoder、Google Tagging API等。

RAM展现了令人印象深刻的零样本性能,显著优于CLIP和BLIP。

RAM甚至超过了完全监督方式(ML-Decoder)。

RAM显示出与Google Tagging API相比具有竞争力的性能。

注:标记模型之间识别能力的比较:RAM识别出比其他型号更有价值的标签,而不会遗漏重要部分。ML-Decoder和Google Tagging API倾向于输出冗余标签(例如“人头”)或不太相关的标签(例如“属性”)。BLIP的标签是有限的,因为它依赖于说明文字生成。

RAM模型可以高精度地识别任何常见类别,当与本地化模型(Grounded SAM)相结合时,RAM形成了视觉语义分析的强大而通用的管道,能够自动识别6400多个常见标签,涵盖了比OpenImages V6更有价值的类别。

目前大家一提到大模型,肯定优先想到OpenAI的GPT,而且体验最多的应用就是ChatGPT,聊天对话等应用,生成图片的效果也很难让人满意。但是逻辑对话功能的想象空间着实有限,未来AI真正的星辰大海,还有很多方面需要去开拓。大模型肯定要朝着多模态的方向发展,不仅仅是文本,还要涵盖图像、视觉、语音等多种信息。

有了多模态的AI算法,就等于给了机器人一双认清万物的眼睛。

ChatGPT惊艳世人的最开始,大家普遍担心机器人统治世界,但是真要达到这一步,机器人仅仅能够理解语言是不够的,环境感知是第一步,而图片标记则是环境感知的第一步。

最典型的应用就是自动驾驶,汽车只有准确感知了周围环境,才能够像一个Robot一样,自主行动。

其它应用场景,比如各种家居服务机器人、陪伴机器人,未来不会只停留在静止状态,要充分融入家庭当中,对家居环境的感知识别,也是最关键一步

说到最恐怖的了,假如未来硅基生命要统治地球,战争估计不可避免,这一天会不会像大家想象的一样,终将会来临?

以上都是测试的时候,网上随便找的图片,最后这张战场图片,我都没注意到有飞机跑道,至少这一点上,AI模型比我做的好。

——创道硬科技研究院——

创道(北京)咨询顾问有限公司,专注于服务风险投资机构和科技成长型企业,聚焦“硬科技”领域,涵盖半导体、信创、人工智能、物联网、智能制造、云计算、大数据等。打造“创道硬科技研究院”、“创道硬科技生态圈”、“创道硬科技融服务”三大业务板块,科技研究、产业协同、投融资服务一体化平台,涵盖业务包括风险投资、科技深度研究、投融资咨询等。

感谢阅读到最后

少侠留步

点个在看吧

标签:

滚动