360OSAI影像事业部总经理张焰
芥末堆 冷冷 12月1日报道
11月24日,在芥末堆举办的GET2020教育科技大会“即构 · 教育科技卷:和合共生”的专场上,360OSAI影像事业部总经理张焰发表了题为《AI视觉在教育中的应用》的演讲。
以下为张焰演讲实录:
由于疫情的影响,很多做线下传统教育场景的机构,现在可能被迫或者被加速转换到线上场景。这其实就是数字化的进程,但是进程来得太快,很多公司还没适应过来,所以这个过程也暴露了很多问题,以下四个痛点尤为明显:
1、学生自觉性差。尤其是K12教育,这是典型的督导式教学。以前线下督导的压力都在老师身上,搬到线上之后,督导的压力都转移到家长身上了,家长们也是为此操碎了心。
2、效果难以评估。到目前为止,还没有一套成熟的量化指标来评估课堂上的好与坏,家长对线上教学的效果仍然存疑。
3、课堂互动性差。你面对的互动对象是一个冰冷的屏幕,而不是一个和蔼可亲的老师,所以在互动方面会存在很多问题。
4、教学效率较低。传统线上课难以还原线下场景,包括场地设备的限制,给老师和机构增加了不少成本。
1、代替督学方案
很多厂家也都做过疲劳提醒,尤其像教育台灯、教育平板类的产品,包括像打哈欠、瞌睡这两个行为,我们增加了趴着的场景。看了很多真实的线下教学,学生上课比较自由散漫,都是趴在桌子上。但是趴着的场景还真的不好做,原因是虽然全身的骨骼关节点比较好检测,但针对半身,可能只看到一个头发或者上半身的一小部分,这种人体关节点几乎是检测不到或者是不准的。为此我们做了很多的尝试和研究,解决了这个问题。
姿态纠正也分为两类:坐姿不良和距离太近。坐姿不良有很度,比如趴着、卧倒、倾斜,这些情况都可以检测出来。距离太近,有两套方案。第一套是基于2D人脸检测技术来做的,这个技术的精度可能比较有限,大概是到厘米级别。我们还有跟其他的硬件厂商做的升级方案,可以精确到毫米级别的距离探测。
学生姿态实时检测的实现方案,总体分为两个维度:人脸姿态检测和人体姿态。人脸姿态包括打哈欠、瞌睡等,人体姿态检测也加入了3D深度信息,因为现在很多的教育平板都会加入ToF摄像头或者3D结构光,这样能获取到深度信息,用深度信息来辅助做人体的立体姿态识别,可以大幅的提高精度。
2、量化检测方案
课堂专注度与课堂接受度是家长比较看重的两个维度,尤其是线下的课转到线上之后。学生有没有走神,有没有认真听讲,上课的效果好不好,后续存在什么问题,这些是家长非常关心的指标。
普通专注度检测有几个维度,像举手、低头、瞌睡、玩手机,缺陷是仅有2D图像信息,检测准确率欠佳。另外是检测指标单一,没法精准回溯学情。
关于课堂接受度,到目前为止,还没有哪家公司真正把它做到产品里。我们首创的课堂接受度,包含了正向和负向维度。正向的维度像举手、微笑、点头,代表课堂接受度是比较好的。负向的维度像疑惑、皱眉、摇头,这些代表课堂接受度较差。
针对疑惑这个表情的处理,我们也下了很多功夫。从学术界来看,人类常见的表情只有7种,并不包括疑惑这个表情,也没有相关的数据。但这个表情对教学场景很有意义,所以我们在这方面做了大量的数据补充,增加了疑惑的数据和标注,最后通过迁移学习的方式,再结合人体关键点进行辅助识别,得到了最终的8类表情识别。
我们的课质监测方案采用了典型的“边缘计算+云计算”结合的架构,因为现在边缘端算力已经越来越强了,所以很多算法可以直接拷在边缘设备端以及APP上。采用这种架构还出于隐私的考虑,大家担心把学生端的摄像头打开之后,检测学生的行为可能会触犯个人隐私或者非法上传数据。这也是我们比较慎重考虑的,所以尽量把端的能力发挥出来,上传的只是用AI算法检测之后的状态,而不是客户隐私的数据。
3、智能互动方案
传统的录播课为了有一个比较好的体验,可能需要去一个专门的录播间,后面搭建绿幕,还有补光灯和一系列的设备。这里有一个明显的缺点是对场地的要求过高,而且后期的制作成本也比较高。
而传统的直播课,可以看到课件跟老师的头像画面是分屏展示的,老师跟学生之间的互动很有限,这对幼儿教育的体验是非常不友好的。
我们的AI沉浸式课件,做了非常精准的人像分割,把课件放在人像后面展示,同时人跟课件之间可以进行互动。另外,比如课件的播放、暂停、上一页、这些简单的操控,以及老师跟课件内容的互动,是我们后期不断探索的方向。这个技术也可以用来做课件的生产工具,不需要录播间的场地和设备,自动完成课件制作。
说到网课互动,我们知道传统的线上互动都是老师单向输出为主,老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是非常小的头像,学生发生什么状况,老师是不知道的。
4、智能工具方案
我们在这部分做了很多的投入跟创新,因为这些跟硬件结合比较紧密,也是我们的强项。我们以前做手机出身,所以在这部分有比较好的理解跟实践经验。
很多的学习APP里可能都有拍照搜题的功能,拍照之后用OCR技术识别。很多学生可能用教育平板拍照,这时因为学生手比较小,教育平板又很大,去按快门键的时候可能经常会手抖或者拍不清晰。但现在的教育平板和手机都没有光学防抖的加持,为什么没有光学防抖?主要还是考虑硬件成本,一个光学防抖的硬件模组要4美金左右,成本还是非常高的。
我们内部出了HD Shot解决方案,可以解决各种场景下失焦、抖动、噪点、暗光等一系列拍照模糊的问题。这个功能在科大讯飞的录音笔上已经上线了,现在的录音笔很智能,除了有录音功能,还可以拍会议的文档和PPT,所以这个功能还是蛮有意思、蛮有价值的。
如下图所示,左边是处理前的效果,右边是处理之后的。这个功能可以提升动态范围,对高光进行抑制,对暗部进行提亮。
画质提升的技术,对老师端或者主播端非常有价值。一些专业的主播,设备非常齐全,把手机架到补光灯上,希望自己的脸更精致透亮。但是长期使用补光灯对眼睛的伤害还是比较大的,所以我们做了纯AI软件补光灯方案。一套是全局的补光方案,还有一套是专门针对人脸的补光方案。针对人脸的补光方案,会对人脸的肤色进行精准的识别,利用3D打光技术把人脸变得更加透亮。
最后用金字塔结构总结一下我们的业务架构,最底层是核心的基础技术,第二层是基于场景化的解决方案,需要深入了解行业的特点以及场景化的需求,顶层则是我们基于各个平台适配的SDK产品,我们可以基于基础技术做很多业务层的封装和。
本文相关词条概念解析:
课件
课件(courseware)是根据教学大纲的要求,经过教学目标确定,教学内容和任务分析,教学活动结构及界面设计等环节,而加以制作的课程软件。它与课程内容有着直接联系。所谓多媒体课件是根据教学大纲的要求和教学的需要,经过严格的教学设计,并以多种媒体的表现方式和超文本结构制作而成的课程软件。演示时间方面,多媒体课件的内容可多可少、一套大的多媒体课件可以包括一门完整的课程内容,可运行几十课时;小的只运行10-30分钟,也可能更少时间。
从去年11月26日智己汽车官宣,12月17日两大合伙人发布,到12月25日智己汽车科技有限公司完成注册,再到今年1月13日全球三地发布会召开、“IM智己”品牌、两款量产车发布,特斯拉之后,智己汽车再次
01-16个人社交软件快节奏现代生活下的新宠一些新的软件工具承诺帮助我们成为更好、更体贴他人的朋友。它们抓住了流动性极大的这一代人,繁忙的现代生活对人们想要保持亲密的人际关系,产生了严重影响一个星期三的早上,8
01-16VR陀螺 编译最新,大陆集团将与HERE和Leia携手,共同研发研发裸眼3D汽车导航技术,计划将三维导航技术引用到车辆驾驶舱显示解决方案中。据悉,该解决方案可以实现3D地图的可视化,且无需佩戴特制眼镜
01-161月14日,亚马逊创始人杰夫·贝索斯旗下太空公司蓝色起源(Blue Origin)试飞了自家的亚轨道飞行器“新谢泼德”飞船在进入107公里超高空后成功返回。国际航空联合会定义在100公里的高度为卡门线
01-1636氪获悉,2020年10月26日阿里云视觉AI者创新应用赛收官。大赛前10名优胜团队齐想小镇,进行决赛最终角逐。最终思美团队获得了大赛金牌,并赢得了10万元奖金。启明瞳行、智城创新、锡安先知获得大赛
10-28随着我国经济发展水平提升,保障粮食产量和产物健康的重要性越发增长。在2015年初,就提出了到2020年实现化肥和农药使用量零增长的行动方案,而在2020年中央一号文件进一步强调“粮食生产要稳字当头”明
11-1224日,科大讯飞教育研究院副院长刘浩在GET2020大会上演讲芥末堆 阿宅 12月3日报道11月24日,在芥末堆主办的主题为“或跃在渊:教育的信心与发展”的GET2020教育科技大会上,科大讯飞教育研
12-04旱季雨季交替,斑马开始成群迁徙;狮潜在草丛中凝视着猎物;夜幕降临,广阔的草原回归静谧…上海自然博物馆“走进”主题区里,震撼的音效、变幻的灯光、超清的动态影像以及200多件栩栩如生的动物标本,让观众们身
01-16前端是什么:前端其实是个很大的范畴。简单点说,针对浏览器的,浏览器呈现出来的页面就是前端。实质是前端代码在浏览器端被编译、运行、渲染。前端代码主要由三个部分构成:HTML(超文本标记语言)CSS(级联
01-162021年1月16日刊 |总第2678期互动发展迅猛,最高阶的呈现是将技术和内容闭环,既能以形式的巧思丰富趣味性,又能用强故事内容增加代入感。在互动技术的运用上,短剧、直播都出了不同的形式和作品,而更
01-16铅笔道10月28日讯,近日,医疗三维成像设备制造商“一影医疗”对外宣布,其已于今年8月完成3500万元的A轮融资,由复兴医药领投,老股东蓝湾资本持续加持,另有厦门赛欣跟投。此前投资方还包括中科创星。本
10-28近一年来,实体经济发展受到了疫情较大的冲击,中国境内很多实力较弱的实体店都选择了闭店,或者是直接宣告破产,有实力的实体店也都纷纷把目光转向了线上营销这种模式。所以说,国内有很多电商平台也都是在这两年时
01-16分别为Redmi,K40系列将至少推出两款机型,Redmi总经理卢伟冰在了联发科官宣,可能处理器不同
出现了越来越多的一般图表做不了的分析,BI数据可视化
让资源最优化,让治理更高效,智慧的含义
如何提升PyTorch炼丹速度,比如这位炼丹师了第18个方法,的Adam
而UI的本意是用户界面,自学很难深入学习UI设计,也不会妒贤嫉能
三星为,Galaxy,S21,Ultra,加入,S,Pen,及,UWB,万像素超广角镜头
可以通过苹果开发者中心下载,目前公测版也已发布,2发布
老牌音频厂商为什么被遗忘了
做淘宝店群什么产品容易售假?
都需要一台够强劲的创意装备
一只高增长互联网防护股Cloudflare
AR艺术作品同时存在额外的魅力