日前,《时代》周刊发布了2023年度最佳发明的榜单,这一榜单旨在介绍最具影响力的新产品和理念,由《时代》周刊全球的编辑和记者提名,根据创新性、效率、影响力等因素筛选出200个突破性发明。《时代》周刊的评论表示,这些产品改变了我们的生活、工作、娱乐,并且挑战“可能”这一概念的极限。
二十多年来,《时代》杂志的编辑们每年都会在最佳发明专刊中评选出最具影响力的新产品和新创意。今年,榜单由世界各地《时代》杂志编辑和记者的提名,特别关注人工智能、绿色能源和可持续发展等新兴领域。
其中 AI 领域共 14 项入选,包括 Adobe 旗下 Photoshop 的 Generative Expand 和 Generative Fill、OpenAI 的 GPT-4 及 Dall-E 3、Runway Gen-2、Meta SeamlessM4T、Stable Audio 等。
01
突破边框的照片编辑:Adobe Photoshop Generative Expand and Generative Fill
Adobe在5月宣布将人工智能图像生成器Firefly整合至Photoshop(beta版)应用,推出生成填色(Generative Fill)功能,为Photoshop的使用者释放全新的创作潜能,使他们能够运用简易的英文文字指令,以非破坏性的方式来新增、扩展或是移除影像内容。使用者通过这种快速且具直觉性的方式拓展镜头外的影像世界,此项令人振奋的新功能推出至今,已创造超过9亿张让人叹为观止的影像。
继生成填色之后,Adobe又宣布推出全新生成式人工智能功能—生成式扩展(Generative Expand)功能。它与生成填色不同之处在于,以往使用生成填色要扩展影像内容时,需透过裁切工具和矩形选取画面工具二个步骤才能完成,而新的生成式扩展则有效简化了步骤,只需要使用裁切工具就能完成图像扩展,轻松延伸影像尺寸和镜头外的内容,让影像完美呈现符合用户所期待的效果。
02
改变游戏规则的AI:OpenAI GPT-4
3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。
GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;能够处理超过25000个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。
此外,GPT-4的高级推理能力超越了ChatGPT。在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。
OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。GPT-4引入了更多人类反馈数据进行训练,不断吸取现实世界使用的经验教训进行改进。
“GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。”OpenAI工程师在介绍视频里说。
03
别出心裁的电影剪辑:Runway Gen-2
今年6月,谷歌支持的人工智能初创公司Runway(帮助开发了AI图像生成器StableDiffusion)发布了Gen-2,这是一款根据文本提示或现有图像生成视频的模型。(Gen-2之前只在有限的等候名单中使用。)
和很多文生图类应用不同,Runway的Gen-1、Gen-2挑战的是一项更有难度的事情——视频编辑和生成。
Runway公司在2月首次推出了其Gen-1模型,该模型仅使用文本提示即可以修改视频的艺术风格,例如将现实中的实拍镜头转换为卡通剪纸世界。而Gen-2更进一步,可以直接使用单个文本提示生成视频场景,比如提示词为“山脉的航拍无人机镜头”,就可以生成逼真的航拍画面,但开源的模型输出的视频分辨率目前还较低,还需要稍待进一步发展。
此外,该模型可以从图像和文本描述的组合生成短视频序列。目前Runway公司正在向测试人员提供Gen-2模型。Gen-2已经上线了苹果AppStore,也同时有Web版本,可以在浏览器中使用。
04
人工智能鉴定真伪:Alitheon FeaturePrint
FeaturePrint号称可以通过用手机拍摄一张物品的照片,识别出物品是否为赝品。并且支持任何物品识别,从齿轮和电路板到手表和收藏品。
这款应用由Alitheon公司开发,利用人工智能技术,将物品表面的细节转化为独一无二的数学特征。Alitheon公司称,由于即使是同一生产线出来的物品也不会完全相同,所以FeaturePrint可以轻松区分真品和假货。这款应用不需要使用条形码、二维码、射频识别等标识物品的方式,而是直接让物品成为自己的身份证。
05
天空之眼:Dedrone 全城无人机探测
无人机既能带来破坏,也能带来益处。
Dedrone 的全城无人机探测产品可在一个地理区域周围投掷一个虚拟防护罩,在无人机进入指定空域的几秒钟内向执法部门发出警告。
Dedrone 跟踪无人机发出的专有混合信号,包括无线电频率、ADS-B 数据(也用于飞机)和 RemoteID 信标,以确定入侵位置。
该系统可以在数秒内检测进入禁飞区的无人机,对保护重要基础设施具有重要作用。它被称为无人机的“空中交通管制系统”。
06
翻译大师:Meta SeamlessM4T
今年8月,科技巨头Meta在官网宣布,开源多语音、语言,翻译、转录大模型SeamlessM4T。
据Meta介绍,SeamlessM4T是首个一体化AI翻译大模型,支持100种语音、语言翻译,可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。例如,将一段英文语音,自动翻译成地方中文语音(如闽南话)。
此外,SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,并使用了270,000小时的语音和文本对齐数据。所以,这也是目前规模最大、功能最全的开源翻译模型。
07
令人惊叹的模仿:So-VITS-SVC
SO-VITS-SVC是源于2021年6月11日发布的“VITS”的开源项目。“VITS”是一种语音合成模型,可以实现“文生音”的效果。但“VITS”模型需要海量的训练数据(数千至上万条5-10秒左右的音频),并高度依赖于人们对语料数据的文本标记,应用门槛很高。
2022年8月26日,一位名为“Rcell”的B站用户在“VITS”的基础上,结合了Soft-vc(内容编码器,用来提取音频语音特征)、VIsinger(端到端的歌声合成系统,用来简化歌声合成系统的训练流程)等,开发出了“SO-VITS-SVC”模型。“SO-VITS-SVC”可以理解是一个音色转换的AI模型,仅需十几分钟的音频数据,便可以拟合成具备特定主体音色的工具。
08
AI 消防员:AlertCalifornia 和 Cal Fire AI 野火探测器
在野火蔓延之前对其进行检测是目前困扰世界许多地区的一项挑战。加州大学圣迭戈分校的公共安全项目 AlertCalifornia 正在利用人工智能提供帮助。该项目与加州消防局(Cal Fire)合作,训练人工智能从遍布全州森林的 1050 多个摄像头网络中检测烟雾和其他早期火灾迹象。
“Alert California AI”技术网站称,他们使用从飞机和无人机上进行的激光雷达(LiDAR)扫描,生成“关于扫描表面的三维信息”。结合了树种的物理特征,来了解加州森林生物量和碳含量。Cal Fire 说,机器学习(ML)模型利用摄像头的 PB 级(1PB=1000TB)数据来区分烟雾和其他空气颗粒。
在最初的两个月里,该系统在接到任何报警电话之前就正确识别出了 77 起火灾。AlertCalifornia 的联合首席调查员 Falco Kuester 说:“这个(系统)最大的成功案例就是那些你从未听说过的火灾。”
09
轻松创建音乐:Stable Audio
Stable Audio由Stability AI内部的声音实验室Harmonai研发,采用了与Stable Diffusion类似的扩散模型技术。
StableAudio简化了用户生产音频的模式,用户只需要输入关键词,通常包含乐器名称、风格、情境、甚至节拍数,就可以一键生成音频。该工具采用“潜在扩散模型”,它能根据用户输入的文本生成丰富多彩、高质量的音频,范围涵盖了音乐、对话、环境音和特效声等。
为了训练这款模型,Stability与音乐提供商AudioSparx合作,在超过800000个音频文件的数据集上进行了训练,其中包括音乐、音效和单乐器主干,以及相应的文本元数据。在将19500小时的音频输入模型后,StableAudio知道如何模仿它在命令中“听”到的某些声音描述。经过大量的训练的StableAudio,让用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。
10
动物保护者:TrailGuard AI
在印度和非洲的部分地区,偷猎仍然是大象和大型猫科动物灭绝的最大威胁,即使在保护区内也是如此。美国环保组织Resolve创建的人工智能踪迹保护系统(TrailGuardAI)利用英特尔(Intel)技术驱动的微型摄像头来监控濒危物种和发现偷猎者。该系统利用手机或远距离无线电信号,在短短30秒内就能将图像传送到当局的手机上。
TrailGuard AI通过高级人工智能检测和识别入侵者,允许系统向指定方发送图像警报。利用ELERA(Inmarsat超可靠的全球移动卫星通信网络),这种至关重要的视觉信息甚至可以在最偏远的地区传输。
通过充当 “地面上的眼睛”,TrailGuard AI使执法人员和公园管理员能够有效地监测威胁,并在近乎实时的情况下作出更有效的反应。它的图像警报系统能够感知到威胁的态势,提高了工作人员和当地社区在野生动物保护方面的安全。
11
画出你的想象:OpenAI Dall·E 3
DALL·E-3是OpenAI在今年9月21日最新推出的文生图模型,在语义理解、颗粒处理、图像质量等方面,比2022年3月25日发布的DALL·E-2实现巨大提升。DALL·E-3可生成写实、二次元、平面、创意、朋克、3D等多种类型,图片质量可媲美Midjourney,文本提示理解甚至超过了它。
除了炸裂的生图效果之外,DALL·E 3 的最大特点是与 ChatGPT 的集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。这样一来,用户无需在 prompt 上花费太多时间。
具体来讲,通过使用 ChatGPT,用户不必绞尽脑汁地想出详细的 prompt 来引导 DALL·E 3 了。当输入一个想法时,ChatGPT 会自动为 DALL·E 3 生成量身定制的、详细的 prompt。同时用户也可以使用自己的 prompt。
12
听好了:古腾堡计划开放式有声读物合集
古腾堡计划开放式有声读物集是由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近6万本电子书库,利用AI文本转语音技术,全部转化为有声读物。古腾堡计划是全球最大的开源电子书库,目前书库中包含超过70000本已经进入共有领域的电子书。
在这个项目中,研究人员结合了机器学习、自动文本选择(哪些文本可以大声朗读,哪些不可以)和自然语音合成系统的突破。
首先,研究人员开发了一种算法,可以理解基于HTML的电子书的结构,并区分主要文本和不重要的元素,如脚注、页码或表格。
这个解析之后,是文本到语音的实际转换(文本到语音,TTS)的过程。在这个项目中,使用了谷歌的WaveNet, 英伟达的Tacotron和微软的FastSpeech,来产生自然的和人类相似的语音输出。
此外,为了研究团队开发了一个能够区分叙述者和对话的系统,甚至可以区分单个角色和情绪,并相应地调整生成的声音。
团队目前为止上线了5000多本有声读物,总计约三万五千小时的有声内容。
13
分解节拍--AudioShake
当最伟大的摇滚乐队之一最近达成协议,在广告中使用其 1970 年代的热门歌曲时,其成员欣喜若狂。但有一个问题:广告制作人只想要乐器,而乐队拥有的只是最终的混音。因此,摇滚乐队的团队联系了 AudioShake,该公司的人工智能程序可以隔离预先录制的音频元素,将其分解为各个组成部分。
据悉,该服务可以通过AI识别,将一首录制完成的歌曲解构为器乐、人声、贝斯、吉他、鼓等多个部分,然后将其单独提取出来,用于其他新用途,例如混音、采样、同步许可、母带重制等。
14
反思智能手机:Humane Ai Pin
Humane Ai Pin是一款具有投影显示和AI驱动功能的可穿戴设备。据悉,Ai Pin是一款“智能且连接的可穿戴设备,可以附着在衣物上,并利用各种传感器进行环境和情境计算交互。”它是一款独立设备,其软件平台利用AI的力量提供创新的个人计算体验。
从本质上讲,Ai Pin旨在执行许多智能手机的功能,但几乎不需要手势和语音命令。只需轻轻一点,这款设计精巧的设备(设计为夹在胸口口袋上)就可以概述电子邮件和日历邀请,提供语言之间的翻译,并处理电话通话。
Ai Pin配备了摄像头和计算机视觉软件,可以识别其周围的物体,包括食品营养标签。此外,其内置的投影仪和深度传感器使其能够将交互式界面投影到附近的表面,例如手掌或桌面。
来源:AI科技在线
请输入正确的手机号
专利类型
您的咨询我们已收到,稍后会有专业顾问与您联系。