美国OAK分类法可帮助AI动态解读同一图像 或有助于机器人技术等应用
盖世汽车讯 据外媒报道,美国密歇根大学(U-M)研发了一种名为开放即兴分类(open ad-hoc categorization,OAK)的新方法,可帮助人工智能(AI)系统根据不同的分类情境,动态地对同一图像进行不同的解读,而非采用固定的视觉解读方式。
OAK方法解读图像(图片来源:密歇根大学)
密歇根大学计算机科学与工程系教授兼该研究的资深作者Stella Yu表示:“当人们谈及利用AI进行图像分类,通常假设每张图片都有唯一且客观的含义。然而,我们的研究表明,一张图片可以根据任务、情境或目标,从多个角度进行审视。就像人类不会视图像为静态信息,而是根据自身需求调整其含义,AI也可以灵活地解读图像,根据情境和目标进行相应的调整。”
以往的AI分类方法采用的是诸如“椅子”、“汽车”或“狗”等固定、僵化的分类,无法适应不同的用途或情境。OAK则可以根据期望的情境,对同一图片做出不同的评估。例如,一张人在喝水的图片,可以归类为“喝水”这一动作,“在商店”这一地点,或者“开心”这一情绪。
该研究团队通过扩展OpenAI的CLIP(一种基础的视觉语言AI模型,能够学习将图像与文字描述关联起来)来构建其模型。之后,研究团队添加了上下文标记,此类标记相当于为AI模型定制的一组指令,从有标签和无标签的数据中学习而来,与图像数据一起输入系统,以针对不同的情境塑造视觉特征处理。最终,该模型能够自然地聚焦于相关的图像区域,如识别动作时聚焦于手部区域,在描述地点时聚焦于背景,而无需明确告知其应关注何处。
责任编辑:枯川
网友评论