近日,OPPO研究院推出了RAM模型,Recognize Anything Model,标识万物,这是一款专注图片标记的基础模型,RAM引入了一种全新的图像标记范例,通过对大规模的图像-文本对进行训练,以此来代替传统的手动注释。
用魔法打败魔法,这是不是听上去就挺AI?
【资料图】
https://huggingface.co/spaces/xinyu1205/Recognize_Anything-Tag2Text
论文显示,通过评估测试,RAM模型在图片标记方面的性能优异,可以识别比其他型号更有价值的标签,已经完全能够pk掉国外同类型的模型,比如ML-Decoder、Google Tagging API等。
RAM展现了令人印象深刻的零样本性能,显著优于CLIP和BLIP。
RAM甚至超过了完全监督方式(ML-Decoder)。
RAM显示出与Google Tagging API相比具有竞争力的性能。
注:标记模型之间识别能力的比较:RAM识别出比其他型号更有价值的标签,而不会遗漏重要部分。ML-Decoder和Google Tagging API倾向于输出冗余标签(例如“人头”)或不太相关的标签(例如“属性”)。BLIP的标签是有限的,因为它依赖于说明文字生成。
RAM模型可以高精度地识别任何常见类别,当与本地化模型(Grounded SAM)相结合时,RAM形成了视觉语义分析的强大而通用的管道,能够自动识别6400多个常见标签,涵盖了比OpenImages V6更有价值的类别。
目前大家一提到大模型,肯定优先想到OpenAI的GPT,而且体验最多的应用就是ChatGPT,聊天对话等应用,生成图片的效果也很难让人满意。但是逻辑对话功能的想象空间着实有限,未来AI真正的星辰大海,还有很多方面需要去开拓。大模型肯定要朝着多模态的方向发展,不仅仅是文本,还要涵盖图像、视觉、语音等多种信息。
有了多模态的AI算法,就等于给了机器人一双认清万物的眼睛。
ChatGPT惊艳世人的最开始,大家普遍担心机器人统治世界,但是真要达到这一步,机器人仅仅能够理解语言是不够的,环境感知是第一步,而图片标记则是环境感知的第一步。
最典型的应用就是自动驾驶,汽车只有准确感知了周围环境,才能够像一个Robot一样,自主行动。
其它应用场景,比如各种家居服务机器人、陪伴机器人,未来不会只停留在静止状态,要充分融入家庭当中,对家居环境的感知识别,也是最关键一步
说到最恐怖的了,假如未来硅基生命要统治地球,战争估计不可避免,这一天会不会像大家想象的一样,终将会来临?
以上都是测试的时候,网上随便找的图片,最后这张战场图片,我都没注意到有飞机跑道,至少这一点上,AI模型比我做的好。
——创道硬科技研究院——
创道(北京)咨询顾问有限公司,专注于服务风险投资机构和科技成长型企业,聚焦“硬科技”领域,涵盖半导体、信创、人工智能、物联网、智能制造、云计算、大数据等。打造“创道硬科技研究院”、“创道硬科技生态圈”、“创道硬科技融服务”三大业务板块,科技研究、产业协同、投融资服务一体化平台,涵盖业务包括风险投资、科技深度研究、投融资咨询等。
感谢阅读到最后
少侠留步
点个在看吧
标签:
滚动