星星之火可以燎原 解放生产力 释放想象力
科大讯飞股份有限公司副总裁,安徽听见科技有限公司总经理王玮
技术就是解放生产力,文化就是释放想象力。科大讯飞作为一家人工智能公司,已经有23年的历史。公司在语音合成、语音识别、机器翻译和认知智能方面进行了许多技术研发和应用。经过一代又一代的发展,科大讯飞在教育、医疗、办公、文旅等领域都实现了科技与文化的结合。
从去年开始,自从美国OPENAI发布了ChatGPT以后,大模型在科技界引起了广泛关注。到8月底,在中国已经有一百家大模型公司上市了。9月1号,国家正式发布了生成式人工智能的一些牌照,而科大讯飞作为第一批牌照发放商,现在可以向社会提供大模型服务。大模型对每个人的生活、工作和生产都带来了或多或少的改变。以前在撰写文案时,你可能必须自己动手,但现在你可以与机器对话,获得文案或思路。对于设计人员来说,现在只需进行简单交流,机器就能自动生成图像。
通过对科大讯飞从2010年开始在开放平台上的400多万开发者的需求分析,我们提取出了当前人工智能的七大维度:包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。其中,多模态能力在文化和艺术方面尤为重要。
这些能力给人们的生产、生活或艺术带来了许多变化。首先,它将改变信息分发的获取模式。其次,它能够革新内容生产模式,包括在AIGC或短视频剪辑等领域的应用。它能够实现全自然的交互,并实现专家级的虚拟助手,应用于客服领域或辅助办公等。此外,它已经开始颠覆传统手工编程的方式。在编写代码时,只需将标准范式输入,机器就可以帮助你编写代码。此外,它还可以成为科研工作者的加速器。将数据收集起来并输入到模型中时,可以极大地提高科研工作者的生产效率。
在今年,科大讯飞已经完成了三次大模型的发布。5月6日发布了大模型“从无到有”。6月9号已经实现了开放式问答的功能。8月15号,实现了代码能力,并开始具备了多模态交互的能力。大家可以下载科大讯飞星火APP与它对话。现在已经有五百多个小助手可供使用,比如可以帮你自动生成一幅图。今年的10月24日对程序员来说是一个比较重要的节日。在今年的第六届全球开发者节上,我们将发布一个新版本大模型,期待在中文领域能够与ChatGPT媲美。
8月15号的数据显示,科大讯飞大模型,文本生成能力提升了72%,语言理解能力提升了78%,还有代码能力和多模态能力。从这些数据来看,实际上大模型已经能够为各行各业提供支持。以下是大模型在教育、办公、媒体和体育方面取得的一些成果。
首先,在教育方面。很多海淀区的家长都知道有一个AI学习机,你可以与它一起做题目,然后它会分析出孩子做对和做错的题目,解放孩子在重复掌握知识方面的能力。在国际传播方面,科大讯飞已经拥有了一个中文学习平台,现在已经覆盖了184个国家,近一千万用户正在使用,让全世界的学习者都能够方便地学习中文。还有一个产品叫做讯飞听见APP,这是很多大学生喜欢的应用。首先,它可以录制今天的所有声音,包括老师的讲课内容。一小时的声音只需要5分钟就能转化为文字,可以成为你的学习记录。此外,对于许多留学生来说,包括那些跨越语言门槛的留学生,当他们听外籍教师讲课时,或者当中国学生去世界各地留学时,刚开始语言不太熟悉的时候,可以实时提供字幕翻译,作为翻译的辅助工具。
在办公方面,参与“一带一路”的很多人中英文水平很好,但是180多个国家使用的语种非常多。科大讯飞有一款产品叫“翻译机”,现在在“翻译机”上已经支持180多个国家的语言,让你在行走世界的时候沟通无障碍。还有办公的麦克风、智慧屏等等,通过人工智能技术让办公更加高效。今年推出的讯飞智慧屏,里面搭载了大模型的一些能力。智慧屏有一个功能,就像一个大画板一样,可以写写画画,沟通交流。可以在白板上呈现出来,搭载了大模型能力以后可以给你一个草图草案。还有讯飞听见的网站,有一个功能叫AI写作,可以边聊边写。它会成为一个助手,比如你帮我写一个“一带一路”的文案,我要华尔街日报风格,就以一篇文章写出来,再加上你自己的观点进行修改,再进行审核。这会极大地提高记者或媒体朋友们的发稿效率。
在做语音识别方面,科大讯飞已经有很多年的经验。现在正在赋能数字政务建设,从全国政协、全国人大开始,在开“两会”的时候,所有的代表委员在发言时都有一个设备。这是一个离线设备,可以将语音转换成文字,并实时记录简报。在今年的全国人大会议上,已经有34个地方代表团记录了发言的文字,准确率达到了97.5%。这也改变了全国人大现有20年的简报工作系统。同时,现在也开始在香港立法会使用,我们期待这一套系统能够赋能“一带一路”,让更多的人使用它。
在文化领域,媒体方面,公司和央总台、人民日报、新华社已经有很多年的合作。其中,在春晚上连续五年进行实时直播。大家在观看直播时是没有字幕的,第二天会添加字幕。国家要求字幕不能有一点错误,因此科大讯飞与央总台合作,在春晚节目播出后将语音转文字,然后生成字幕。在媒体从业行业中,这项工作以前被称为拍字幕,工作十分辛苦。比如当天晚上的节目,以前需要到第二天早上四五点才能完成,然后在八点半左右进行重播。但是现在使用了这套设备后,大约在晚上一点半就能完成,工作人员可以回去休息。这项技术连续五年在央总台十大创新中获得了王选奖。
不仅如此,公司希望将这套技术赋能给更多的新媒体和自媒体应用。科大讯飞开发了一个语音语言服务平台,任何人都可以登录使用。从底层具备识别和合成的能力和音视频剪辑能力,向上还有翻译能力等等。现在已经应用到许多场景中,包括今年在香港小姐的决赛上,用粤语在抖音直播平台上直接翻译成普通话。今年在布达佩斯世界田径锦标赛的新闻发布会上,也使用了人工智能影视译制技术。现在我们每年与将近一万场顶级会议进行合作,包括向联合国等国际组织提供这样的服务。
同样,科大讯飞也跟随国家的“一带一路”文化出海政策,与央总台丝绸之路合作共同体、中阿卫视和外文局都有合作。科大讯飞在2022年为冬奥会和冬残奥会提供了整体服务。在世界乒乓球锦标赛和成都世界大学生运动会上也提供了类似的服务。在2023年的布达佩斯世界田径锦标赛上,也作为语音服务提供商进行支持。
科技要为更多人赋能,科大讯飞也作为听见AI声音的发起人,与聋协发起了一个听见AI的声音项目。中国有两千万的残障人,我们希望通过人机沟通交互,让他们能够无障碍地与世界沟通。例如今年我们在中国残联参加法国的残疾人技能大赛上,帮助残疾人使用我们的应用,实现与世界的无障碍交流。
在诸如戏剧、美术等等其他艺术门类中,科大讯飞可能是门外汉。但是,在科大讯飞的开放平台上有591项AI能力,还有大模型的赋能。我们期待与文化界、艺术界的朋友们和老师们进行交流,共同成长,共同开发新的应用。科大讯飞有能力进行模型开放、行业共建和双创赋能,也可以一起打造一些新的应用,进行市场推广。
最后,期待科技创新能够支撑起“一带一路”,实现科技与文化的结合,共同讲好中国故事,传递中国声音。
论坛现场