人工智能应用落地如火如荼,科技巨头间的技术竞争也在风起云涌。 3 月 29 日,在国际顶级赛事Pascal VOC挑战赛目标检测Competition3 子任务中,搜狗人工智能图像团队所提交的FPNSSD深度模型,获得了77. 0 的高分,一举刷新了该项任务的世界最好成绩。(成绩查询网址:http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=3)。
PASCAL VOC挑战赛是计算机视觉目标检测的经典权威赛事,其数据集标注质量高、场景复杂、目标多样、检测难度大,是快速检验算法有效性的首选。在计算视觉领域,Pascal VOC挑战赛与ImageNet同为世界顶级的比赛,是国内外AI公司竞相展开激烈竞争的主赛场。
PASCAL VOC的数据集包括 20 个类别:人类,动物(鸟、猫、牛、狗、马、羊),交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车),室内物体(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。其中,搜狗图像团队参加的Competition3 子任务,以官方提供的数据集为训练集,不能添加其他额外标注数据,更能体现参赛团队的模型设计和技术功底。
搜狗图像团队研发的FPNSSD检测算法,借鉴了RetinaNet的架构设计思想并优化经典的SSD检测算法,设计出基于ResNet152 的Feature Pyramid Network(FPN)网络结构,同时融合浅层与深层的多尺度特征信息,这种在模型上的选择和优化策略大大增强了对小目标物体的检测能力。在此次挑战赛中,搜狗图像团队的FPNSSD检测算法在 20 个子类别中获得 10 个单项第一,其中在鸟、猫、狗等小物体类别上胜出优势明显,充分验证了FPNSSD检测算法在模型结构设计上的先进性。
此外,FPNSSD检测算法采用SoftmaxLoss + Hard Negative Mining的训练方式,在FPNSSD框架中相对当前业内常用的基于FocalLoss的训练方式,能取得更高精度。
搜狗图像团队成员大多来自清华、北大、中科院、浙大等高校,曾先后取得几十项相关技术专利。团队长期专注于场景文字检测识别、人脸识别、图像细粒度分类、敏感图像检测、图像理解等前沿领域研究,相关成果已广泛应用于搜狗旅行翻译宝、搜狗翻译APP、搜狗输入法、搜狗汪仔答题助手、搜狗识图等产品,在众多垂直领域及具体场景中满足着广大用户日益多样化、个性化的应用需求。
不仅如此,搜狗人工智能图像团队的前沿成果,还通过搜狗AI开放平台,正在为金融、保险、医疗等行业客户提供优质的AI服务和解决方案。作为人工智能带路党的搜狗,未来还将基于图像识别技术在更多场景实现进一步突破创新,带来更丰富便捷的AI体验。
免责声明:本文为厂商推广稿件,企业发布本文的目的在于推广其产品或服务,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。请读者使用之前核实真实性,以及可能存在的风险,任何后果均由读者自行承担。