大模型日报|今日必读的8篇大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.EdgeFusion:端侧文本到图像生成,只需不到一秒

用于文本到图像生成的稳定扩散(SD)技术需要大量计算,这对其实际应用构成了重大障碍。为此,最近的研究集中在减少采样步骤的方法上,如潜一致性模型(LCM),以及采用架构优化,包括剪枝和知识提炼。

与现有方法不同,来自 Nota AI 和三星的研究团队从紧凑的 SD 变体 BK-SDM 开始。他们发现,直接将 LCM 应用于 BK-SDM 和常用的抓取数据集会产生令人不满意的结果。为此,他们提出了两种策略:(1)利用来自主要生成模型的高质量图像-文本对(2)设计一个为 LCM 量身定制的高级蒸馏过程。通过对量化、分析和端侧部署的探索,用两步就实现了照片般逼真的、文本对齐的图像的快速生成,在资源有限的端侧设备上的延迟不到一秒。

论文链接:
https://arxiv.org/abs/2404.11925

2.Reka 团队推出三款多模态语言模型:Core,Flash 和 Edge

来自 Reka 的研究团队提出了 Reka Core、Flash 和 Edge,一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理文本、图像、视频和音频输入并进行推理,他们讨论了其中一些模型的训练细节,并提供了全面的评估结果。

实验表明,Reka Edge 和 Reka Flash 不仅是 SOTA 模型,而且还优于许多更大的模型。同时,他们能力最强、规模最大的模型 Reka Core 在自动评估和 blind human 评估中都接近 SOTA。

在图像问题解答基准(如 MMMU、VQAv2)上,Reka Core 的表现与 GPT4-V 不相上下。在多模态聊天方面,Reka Core 在第三方 blind 评估设置下被评为第二最受欢迎的模型,表现优于 Claude 3 Opus 等其他模型。在文本基准上,blind Core 不仅在一组成熟基准(如 MMLU、GSM8K)上的表现与其他前沿模型相比具有竞争力,而且在人工评估上也优于 GPT4-0613。在视频问题解答(感知测试)方面,Core 的表现优于 Gemini Ultra。

论文链接:
https://arxiv.org/abs/2404.12387
项目地址:
https://showcase.reka.ai/

3.BLINK:视觉感知多模态大模型评估基准

来自宾夕法尼亚大学、华盛顿大学和艾伦人工智能研究所的研究团队及其合作者,提出了一个多模态语言模型(LLMs)的新基准 Blink,主要专注于其他评估中未发现的核心视觉感知能力。

大部分 Blink 任务对于人类来说都能“瞬间”解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,他们发现这些需要感知的任务对当前的多模态 LLMs 提出了巨大挑战,因为它们无法通过自然语言进行调解。Blink 将 14 项经典的计算机视觉任务改编成 3807 道选择题,并配以单幅或多幅图像和视觉提示。

虽然人类的平均准确率为 95.70%,但 Blink 对现有多模态 LLM 的挑战却出人意料,即使是表现最好的 GPT-4V 和 Gemini,准确率也只有 51.26% 和 45.72%,仅比随机猜测高出 13.17% 和 7.63%,这表明这种感知能力尚未在最近的多模态 LLM 中 出现。他们分析还强调,专业的 CV 模型可以更好地解决这些问题,这为未来的改进提供了潜在的途径,Blink 将激励社区帮助多模态 LLMs 赶上人类水平的视觉感知。

论文链接:
https://arxiv.org/abs/2404.12390
项目地址:
https://zeyofu.github.io/blink/

4.TriForce:利用分层投机解码无损加速长序列生成

最近,随着大型语言模型(LLMs)被广泛应用于长内容生成,对高效长序列推理支持的需求日益增长。

然而,为避免重复计算而存储的键值(KV)缓存已成为一个关键瓶颈,其大小随序列长度呈线性增长。由于 LLM 的自动递归特性,每生成一个 token 就会加载整个 KV 缓存,从而导致计算核心利用率低而延迟高。虽然已经提出了各种 KV 缓存压缩方法来缓解这一问题,但这些方法都会导致生成质量下降。

来自卡内基梅隆大学和 Meta 的研究团队提出了一种可扩展至长序列生成的分层推测解码系统 TriForce。这种方法通过检索利用原始模型权重和动态稀疏 KV 缓存作为草稿模型,作为层次结构中的中间层,并由更小的模型进一步推测,从而减少其草稿延迟。TriForce 不仅为 Llama2-7B-128K 带来了令人印象深刻的速度提升,在 A100 GPU 上实现了高达 2.31 倍的速度,而且还展示了在处理更长上下文时的可扩展性。在两个 RTX 4090 GPU 上的卸载设置中,TriForce 实现了 0.108s/token 的速度,仅为 A100 上自动回归基线速度的一半,而在优化的卸载系统上则达到了 7.78 倍。此外,TriForce 在单个 RTX 4090 GPU 上的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。TriForce 的鲁棒性凸显了其在各种温度下始终保持出色的性能。

论文链接:
https://arxiv.org/abs/2404.11912
GitHub 地址:
https://github.com/Infini-AI-Lab/TriForce

5.“图生视频”新研究:剪贴画秒变卡通动画

剪贴画是一种预先制作的图形艺术形式,为视觉内容提供了一种方便、高效的说明方式。将静态剪贴画图像转换成动态序列的传统工作流程既费力又费时,其中涉及许多复杂的步骤,如装配、关键动画和中间处理。文本到视频生成技术的最新进展为解决这一问题带来了巨大潜力。

然而,直接应用文字视频生成模型往往难以保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画效果不尽如人意。来自香港城市大学和莫纳什大学提出了一个将静态剪贴画图像转化为由文本到视频先验指导的高质量运动序列系统 AniClipart。

为了生成卡通风格的平滑运动,他们首先在剪贴画图像的关键点上定义 Bézier 曲线,作为一种运动正则化形式。然后,通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与所提供的文字提示对齐,该损失在预训练的文字视频扩散模型中编码了足够的自然运动知识。该方法采用了可微分的形状变形算法(As-Rigid-As-Possible shape deformation algorithm),可以在保持变形刚度的同时进行端到端优化。

实验结果表明,在文本-视频对齐、视觉特性保持和运动一致性方面,AniClipart 始终优于现有的图像-视频生成模型。展示了 AniClipart 的通用性,通过调整它来生成更广泛的动画格式,如分层动画,允许拓扑变化。

论文链接:
https://arxiv.org/abs/2404.12347
项目地址:
https://aniclipart.github.io/

6.MIT、谷歌新研究:基于零样本跨语言对齐的奖励模型转移

根据人类标注的偏好数据对语言模型(LMs)进行对齐,是获得基于 LM 的系统实用且性能良好的的关键一步。

然而,多语言人类偏好数据很难大规模获取,因此将这一框架扩展到多种语言具有挑战性。

来自麻省理工大学和谷歌的研究团队评估了一种简单的零样本跨语言对齐方法,即在一种源语言的偏好数据上训练奖励模型,然后直接应用于其他目标语言。在总结和开放式对话生成方面,他们表明这种方法在包括人工评估在内的综合评估设置下始终是成功的,在多达 > 70% 的评估实例中,跨语言对齐模型比非对齐模型更受人类青睐。

此外,不同语言奖励模型有时会比同种语言奖励模型产生更好的对齐模型。他们还确定了在没有特定语言数据甚至监督微调时的最佳实践。

论文链接:
https://arxiv.org/abs/2404.12318

7.LazyDiffusion:用于交互式图像编辑的懒惰扩散 Transformer

来自 Adobe 研究院和特拉维夫大学的研究团队提出了一种新型扩散 transformer——LazyDiffusion,它能高效地生成局部图像更新。他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。

他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的 transformer 解码器以“lazy”的方式合成掩膜像素,即只生成掩码区域。

之前的工作要么重新生成整个画布,浪费时间和计算,要么将处理范围限制在掩膜周围的狭小矩形区域,完全忽略了全局图像上下文。他们的解码器的运行时间与掩码大小成比例,掩码大小通常很小,而他们的编码器带来的开销可以忽略不计。实验证明,在质量和保真度方面,他们的方法与最先进的内绘方法相比具有竞争力,同时在典型的用户交互中(编辑掩码占图像的 10%),速度提高了 10 倍。

论文链接:
https://arxiv.org/abs/2404.12382
GitHub 地址:
https://lazydiffusion.github.io/

8.MIT 新研究:让大模型生成有效的旅行规划

近年来,大型语言模型(LLMs)以其丰富的世界知识和工具使用和推理能力,促进了许多 LLM 规划算法的发展。然而,LLMs 还不能准确解决复杂的组合优化问题。

为此,MIT 团队提出了一个框架,使 LLM 能够将旅行规划问题正式表述为可满足性模理论(SMT)问题并加以解决,并使用 SMT 求解器交互式地自动解决组合搜索问题。SMT 求解器能保证输入约束条件的可满足性,而 LLM 则能与他们的框架进行基于语言的交互。当输入约束条件无法满足时,基于 LLM 的框架将通过使用 SMT 求解器进行自动推理,以交互方式向用户提供修改其旅行要求的建议。

他们使用 TravelPlanner 对该框架进行了评估,成功率达到 97%,还创建了一个包含国际旅行基准的单独数据集,并在无法满足初始用户查询时,使用这两个数据集来评估交互式规划框架的有效性。根据人类的不同偏好,该框架可以生成有效的计划,数据集的平均成功率为 78.6%,TravelPlanner 的平均成功率为 85.0%。

论文链接:
https://arxiv.org/abs/2404.11891

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/557848.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Oracle進階SQLDay03

一、函數進階復習 1、行轉列 select 用水儿量(噸) 统计项, sum(case when t_account.month01 then USENUM end) 一月, sum(case when t_account.month02 then USENUM end) 二月, sum(case when t_account.month03 then USENUM end) 三月, sum(case when …

STM32学习和实践笔记(15):STM32中断系统

中断概念 CPU执行程序时,由于发生了某种随机的事件(外部或内部),引起CPU暂 时中断正在运行的程序,转去执行一段特殊的服务程序(中断服务子程序 或中断处理程序),以处理该事件,该事件处理完后又返回被中断的程序 继…

飞桨Ai(二)paddle使用CPU版本可以正常识别,切换为GPU版本时无法识别结果

一、问题描述: 刚开始用paddle的CPU版本,对训练好的模型进行推理,正常识别出想要的结果后来尝试使用paddle的GPU版本,然后发现识别出来是空的 二、系统思路: 最终系统环境如下: 系统:win10 …

有哪些公认好用且免费的云渲染网渲平台?渲染100邀请码1a12

现在云渲染是越来越火了,无论是在建筑设计、影视动画还是效果图行业都有它的身影,云渲染能缩短制作周期,提高工作效率,那么市面上有哪些公认好用且免费的云渲染平台呢?这次我们来了解下。 首先,我们来看看有…

vulfocus靶场tomcat-cve_2017_12615 文件上传

7.0.0-7.0.81 影响版本 Windows上的Apache Tomcat如果开启PUT方法(默认关闭),则存在此漏洞,攻击者可以利用该漏洞上传JSP文件,从而导致远程代码执行。 Tomcat 是一个小型的轻量级应用服务器,在中小型系统和并发访问用户不是很多…

「GO基础」在Windows上配置VS Code GO语言开发环境

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

查看linux的主机配置脚本

废话不说 直接上指令 curl -Lso- bench.sh | bash 等待后,结果如图: 使用后没有问题,看情况使用 出事概不负责 介意勿用!!!

LD-Pruner、EdgeFusion(On-Device T2I)、FreeDiff、TextCenGen、MemLLM

本文首发于公众号:机器感知 https://mp.weixin.qq.com/s/KiyNfwYWU-wBiCO-hE9qkA 苏 The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models Foundation models, pre-trained on a large amount of data…

Windows系统下安装paddle

开始使用_飞桨-源于产业实践的开源深度学习平台 (paddlepaddle.org.cn) 命令行下: python -m pip install --upgrade pip --user python -m pip install paddlepaddle2.6.1 -i https://pypi.tuna.tsinghua.edu.cn/simple 报异常 ERROR: Could not install packa…

Jmeter 测试Dubbo接口-实例

1、Dubbo插件准备 ①把jmeter-plugins-dubbo-2.7.4.1-jar-with-dependencies.jar包放在D:\apache-jmeter-5.5\lib\ext目录 ②重新打开Jmeter客户端 在线程组-添加-取样器-dubbo simple,添加dubbo接口请求 2、Jmeter测试lottery接口 ①配置zookeeper参数 由于dub…

windows和虚拟机互传文件

在虚拟机中设置共享文件夹 操作方法:打开VMware–>虚拟机–>设置–>选项–>共享文件夹(见下图),大家在共享文件夹当中就可以把Windows当中的D盘或者其它盘共享到虚拟机中。比如我就是将D盘和E盘共享到了虚拟机中。 共…

【Vue】实现显示输入框字符长度

<div style"float: right; margin-right: 10px"><el-popover placement"top-start" width"200" trigger"hover" :content"当前输入的内容字节长度为&#xff1a; this.byteLength &#xff0c;剩余可输入的字节长度和最…

学校管网的仿写

工字形布局完成 效果 代码部分 在这里插入代码片 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport…

某书Frida检测绕过记录

某书Frida检测绕过记录 前言Frida启动APPHook android_dlopen_ext查看加载的库分析libmsaoaidsec.soFrida检测绕过后记 前言 本来想要分析请求参数加密过程&#xff0c;结果发现APP做了Frida检测&#xff0c;于是记录一下绕过姿势(暴力但有用) Frida版本&#xff1a;16.2.1 AP…

ctfhub-ssrf(2)

1.URL Bypass 题目提示:请求的URL中必须包含http://notfound.ctfhub.com&#xff0c;来尝试利用URL的一些特殊地方绕过这个限制吧 打开环境发现URL中必须包含http://notfound.ctfhub.com&#xff0c;先按照之前的经验查看127.0.0.1/flag.php,发现没什么反应&#xff0c;按照题…

vue和react通用后台管理系统权限控制方案

1. 介绍 在任何企业级应用中&#xff0c;尤其是后台管理系统&#xff0c;权限控制是一个至关重要的环节。它确保了系统资源的安全性&#xff0c;防止非法访问和操作&#xff0c;保障业务流程的正常进行。本文件将详细解析后台管理系统中的权限控制机制及其实施策略。 那么权限…

Linux:zabbix自定义监控项(6)

本章去做一个监控ftp服务是否正常启动的监控项目 大概就是先创建一个模板&#xff0c;我们把要做的东西放入这个模板&#xff0c;然后把这个模板应用到某个监控主机上就可以生效 1.准备监控项脚本 其中的核心就是&#xff0c;通过脚本去判断一个东西的数值&#xff0c;通过这个…

算法刷题记录2

4.图 4.1.被围绕的区域 思路&#xff1a;图中只有与边界上联通的O才不算是被X包围。因此本题就是从边界上的O开始递归&#xff0c;找与边界O联通的O&#xff0c;并标记为#&#xff08;代表已遍历&#xff09;&#xff0c;最后图中剩下的O就是&#xff1a;被X包围的O。图中所有…

【Linux】进程和计划任务

目录 一、进程介绍 1.1 进程与线程的定义 1.1.1 进程(Process)** 1.1.2 线程(Thread)** 1.1.3 进程与线程的区别 1.2 进程的特征 1.3 进程状态 1.3.1 进程的基本状态 1.3.2 进程更多的状态 1.4 进程的优先级 1.5 进程间通信 1.6 进程的分类* 二、进程管理 2.1 查看…

java核心类

一,String字符串 1.1,String字符串是引用类型,且不可变 String str1 "Hello";String str2 str1.concat(" World"); // 使用concat方法连接字符串&#xff0c;返回一个新的字符串对象System.out.println(str1); // 输出&#xff1a;Hello&#xff0c;原始…