首页 >> 大全

【论文笔记】Skills Regularized Task Decomposit

2023-11-21 大全 6 作者:考证青年

本文开源代码: Task for Multi-task

文章目录 2.2 For Multi-task RL 3 Task with -aware Skill 4 Data by 5.1 Meta-world Tests 5.2 A Case Study for -based Drone 6 Work 7

研究背景:使用不同离线数据集的强化学习(RL)可以利用多个任务之间的关系和跨这些任务学习到的共同技能,从而使我们能够以数据驱动的方式有效地处理现实世界中的复杂问题。

研究问题:在离线强化学习中,只使用离线数据,与环境的联机交互受到限制,但很难实现多个任务的最优策略,特别是在任务的数据质量不同的情况下。

解决思路:基于技能的多任务强化学习技术 + 由不同品质的行为策略产生的异质数据集

In this paper, we a skill-based multi-task RL on that are by of .

具体技术路线:

实验设置: tasks and drone tasks

实验结论:我们的多任务离线强化学习方法对不同质量的数据集的混合配置具有鲁棒性。它的表现优于其他最先进的算法。

1

在强化学习领域,离线强化学习研究最近得到了广泛的关注,大量研究表明,利用之前收集的经验和轨迹数据,采用数据驱动的学习机制对各种顺序决策问题是有效的。

, a data for multi-task was to the issue of data for real-world . Yet, multi-task RL has not been fully in .

最近,引入了一种数据共享方法,以解决现实世界控制应用中存在的有限数据问题。这种方法适用于多任务学习,但是在离线背景下,数据共享式的多任务强化学习尚未得到充分的研究。

In the RL , we a novel multi-task model by which a for tasks can be data- and its is to of .

在离线强化学习的背景下,我们提出了一种新颖的多任务模型,通过该模型可以高效地使用数据实现多个任务的单一策略,并且其学习过程对不同质量的异构数据集具有鲁棒性。

**离线强化学习对存在质量差异的数据应具有什么要求?为什么?**在离线强化学习中,不允许与环境进行交互,并且在数据收集过程中可能涉及任意或低性能的行为策略,因此在不同质量的数据上保持学习的鲁棒性非常重要。

In RL where with the is not and or low- might be in data , it is to the in on - data.

To this end, we a joint of skill (short-term from the ) and task , which the task into via -aware skill . The model the of upon the mixed of - .

作者开发了一个技能(来自数据集中的短动作序列)和任务表征的共同学习的机制,这个学习机制可以通过质量注意力的技能正则化将任务解耦成可实现的子任务。该模型保证了学习策略在不同质量数据集的混合配置下的鲁棒性。

We also data based on high- , thus and the and scale of , which is at that are to be by .

我们还采用基于高质量技能的数据增强方法,从而创建可信的轨迹,并缓解离线数据集的有限质量和规模问题,旨在创建可能由专家策略生成的虚构轨迹。

2 2.1 RL

离线强化学习旨在最大化累积折扣奖励 J ( π ) J(\pi) J(π) ,采用与传统强化学习相同的公式;然而,与之不同的是,离线强化学习假定仅使用先前收集的轨迹的静态数据集 D = { ( s t , a t , r t , s t + 1 ) } D = \{(s_t, a_t, r_t, s_{t+1})\} D={(st​,at​,rt​,st+1​)} 进行训练。它几乎不考虑与环境的交互。

RL can the of data in the of where with long time is .

离线强化学习算法可以增加先前收集的数据在进行序贯决策的领域中的可用性,其中长时间范围内的时间信用分配非常重要。

Multi-task RL

Multi-task RL more than a task when the π ∗ \pi^{\ast} π∗ . It is as a of MDPs T i = ( s i , a i , r i , s n e x t i ) i \{T}_{i}=(s^{i}, a^{i}, r^{i}, s_{next}^{i})_{i} Ti​=(si,ai,ri,​)i​ where each task T i \{T}_{i} Ti​ is with its MDP and it is to a task p ( T ) p(\{T}) p(T) .

MDP

为了表示多任务环境中与每个任务的马尔可夫属性相关的隐含时间动态特性,我们引入了一个隐藏潜在变量 v t v_{t} vt​ 。

R ( s t , v t , a t ) : = R v t ( s t , a t ) P ( s t + 1 , v t + 1 ∣ a t , s t , v t + 1 ) : = P v t ( s t + 1 ∣ a t , s t ) R(s_t,v_t,a_t):=R_{v_{t}}(s_t,a_t) \\ P(s_{t+1},v_{t+1}|a_t,s_t,v_{t+1}):=P_{v_{t}}(s_{t+1}|a_t,s_t) R(st​,vt​,at​):=Rvt​​(st​,at​)P(st+1​,vt+1​∣at​,st​,vt+1​):=Pvt​​(st+1​∣at​,st​)

实际状态空间扩展为 S × V S\times V S×V , V V V 是潜在变量 v t v_{t} vt​ 的集合。

部分可观察MDP(POMDP),其被规定为元组 ( S × V , A , Ω , P V , R V , O , γ ) (S\times V,A,\Omega,P_{V},R_{V},O,\gamma) (S×V,A,Ω,PV​,RV​,O,γ) 。

其中 Ω = S \Omega = S Ω=S , O ( s t , v t ) → s t O(s_t,v_t)\ s_t O(st​,vt​)→st​ 表示观察空间和观察函数。

作者在这里引入潜在变量的原因:表示MDP属性相关的隐含时间动态特性,这个说法可以用于元强化学习;此外,作者在这里的多任务服从同一个分布和元强化学习也有相似之处。

2.2 For Multi-task RL

这一部分主要是对离线强化学习的简述。

一般来说离线强化学习的训练目标如下,这个目标更倾向于减小探索问题。

arg ⁡ max ⁡ π J D ( π ) − α ⋅ c ( π , π D ) \arg\max\{\pi}\text{ }J_{\{D}}(\pi)-\alpha\cdot c(\pi,\pi_{\{D}}) argπmax​JD​(π)−α⋅c(π,πD​)

With this by the , RL are often to low- . can occur such that the max ⁡ π J D ( π ) \max\{π} J_{\{D}}(\pi) πmax​JD​(π) is much lower than that of its true MDP M M M, when a low- or is used for data .

作者指出了这样的不足之处:就是因为这个正则化项,导致智能体的学习目标一定要和生成的策略逼近,这就导致离线强化学习在策略差异比较大时生成的数据集,就会很脆弱。当使用低性能或任意策略进行数据生成时,过度拟合问题可能会发生,导致 M ^ \hat{M} M^ 的最大平均回报 max ⁡ π J D ( π ) \max\{π} J_{\{D}}(\pi) πmax​JD​(π) 远远低于其相应的真实MDP M M M 。

In multi-task RL, we a of MDPs { T i } i \{T_{i}\}^{i} {Ti​}i as a MDP in that MDPs are into a POMDP based on that of the .

While the issue of RL can be by the of tasks and the from their in a multi-task , it is not that the fully the well- of tasks.

It is the and state- pair of tasks can the sub- of - tasks from being on the space.

这段内容的信息量感觉很大,我们一句一句来解读~

在多任务离线强化学习中,作者将一族 MDP { T i } i \{T_{i}\}^{i} {Ti​}i 重新构造成一个具有隐藏参数的 MDP 。能这样构造的原因是:多个 MDP 可以结合成一个部分可观的 POMDP ,这个 POMDP 里面的隐藏参数 能够用来特指/特定化时间差分的马尔可夫性质。虽然离线强化学习的过拟合问题,可以通过探索多任务之间的关系和提取数据集之间可共享的知识来避免/减轻;

但是,作者推断出来的隐藏参数是否就是良好结构化的任务表征?这个不能被保证。因为行为策略存在异质性,且动作状态对存在不一致性,这就导致具有共同知识的“部分轨迹”不能在同一个潜在空间上很紧密的映射出来。

3 Task with -aware Skill

模型总述:

在图的右侧,红色箭头表示 L P R L_{PR} LPR​ ,它使得低质量的子轨迹在任务的先验分布内拉伸(从深粉红色到浅粉红色),蓝色箭头表示 L S R L_{SR} LSR​ ,它使得高质量的子轨迹在技能的分布周围收缩(从浅蓝色到深蓝色)。

3.1 Skill

为了将智能体的行为表示为潜在空间 Z \{Z} Z 中的向量,作者使用了自编码机制。

考虑到短期范围上的动作序列捕获了智能体对特定任务的行为,我们称之为潜在向量 b t b_t bt​ 技能嵌入。

编码器 q ϕ q_{\phi} qϕ​ 将状态动作对序列 d t = ( s , a ) t − n : t + n − 1 d_{t}=(s,a)_{t-n:t + n-1} dt​=(s,a)t−n:t+n−1​ 作为输入,将其映射到潜在向量 b t ∈ Z b_{t} \in\{Z} bt​∈Z ,而解码器 p ϕ p_{\phi} pϕ​ 则从 b t b_{t} bt​ 和 s t − n : t + n − 1 s_{t-n:t + n-1} st−n:t+n−1​ 的组合中重构出输入的动作序列 a t − n : t + n − 1 a_{t-n:t + n-1} at−n:t+n−1​ 。

论文记笔记用什么软件__学术论文笔记怎么写

For the on skill b t ∈ Z b_{t} \in\{Z} bt​∈Z , we use auto- (WAE) with the mean (MMD)-based and a prior on b t b_t bt​ .

为了保持技能嵌入 b t ∈ Z b_{t} \in\{Z} bt​∈Z 的学习稳定性,我们使用了基于最大平均差异的惩罚项的沃瑟斯坦变分编码器,和 b t b_t bt​ 的先验分布。

{ b i ^ } i = 1 m ∼ P B \{\hat{b_{i}}\}_{i=1}^{m}\sim P_{B} {bi​^​}i=1m​∼PB​ 是从一个技能嵌入分布的先验中采样得到; λ > 0 \ >0 λ>0 是基于先验分布的正则化超参数;

L P R L_{PR} LPR​ 用来限制技能嵌入。

m m m 表示采样得到的 { b , b ^ } \{b,\hat{b}\} {b,b^} 的大小, k : Z × Z → R k:\{Z}\times\{Z}\\{R} k:Z×Z→R 表示正项定义的核。

3.2 Skill- Task

我们将任务看成一些子任务的组合,这些子任务可以被建模成具有隐藏参数的 MDP 。

We first view each task as a of which can be as a MDP.

对于任务嵌入,我们使用基于沃瑟斯坦变分编码器的模型结构,与先前的技能嵌入的构成类似。

For task , we then use the WAE-based model to skill .

对于 n n n 长度的状态转移的子轨迹 τ t = ( s t − n : t , a t − n − 1 : t − 1 , r t − n − 1 : t − 1 ) τ_{t} = (s_{t−n:t}, a_{t−n−1:t−1}, r_{t−n−1:t−1}) τt​=(st−n:t​,at−n−1:t−1​,rt−n−1:t−1​)

作者使用一个编码器 q θ : τ t → z t ∈ Z q_{\theta}:τ_{t}\ z_t \in \{Z} qθ​:τt​→zt​∈Z 来产生 Z \{Z} Z 空间下的任务嵌入;

作者使用一个解码器 p θ : ( s t , a t , z t ) → ( s t + 1 , r t ) p_{θ} : (s_t, a_t, z_t) \ (s_{t+1}, r_t) pθ​:(st​,at​,zt​)→(st+1​,rt​) 来表达状态转移概率 P P P 和奖励函数 R R R 。

For sub- τ t = ( s t − n : t , a t − n − 1 : t − 1 , r t − n − 1 : t − 1 ) τ_{t} = (s_{t−n:t}, a_{t−n−1:t−1}, r_{t−n−1:t−1}) τt​=(st−n:t​,at−n−1:t−1​,rt−n−1:t−1​) of n n n- each, we have an q θ : τ t → z t ∈ Z q_{\theta}:τ_{t}\ z_t \in \{Z} qθ​:τt​→zt​∈Z to yield task and a p θ : ( s t , a t , z t ) → ( s t + 1 , r t ) p_{θ} : (s_t, a_t, z_t) \ (s_{t+1}, r_t) pθ​:(st​,at​,zt​)→(st+1​,rt​) to the P P P and R R R

所以任务嵌入的训练目标是:(类似于一种 model-based 的方法)

这个是任务嵌入,他的状态、动作以及奖励的获得都会收到品质的影响。因此需要在此处增加正则化,也就是增加在这段状态转移带来的累计奖励。所以作者的 -aware 其实就是增加了前面的奖励正则化???

作者给出了总的损失函数:

这使得编码器 q θ q_{θ} qθ​ 能够在多任务背景中,通过一系列子轨迹生成子任务级别的嵌入(或子任务嵌入)。特别地,每个任务都被表示为与一些具有大量回合收益的轨迹中学习到的高质量技能密切相关。通过更多地使用高质量技能进行任务无关的训练,这种任务分解减少了低质量数据的不良影响,并将任务分解为更可实现的子任务。

作者给出了伪代码。

一般来说先验分布设置成正态分布,更好计算更好采样。

基本过程就是:采样——算损失函数——梯度下降,循环然后结束。

接下来,作者提供 skill- 效应的分析。

设 q q q 和 p p p 为通过最小化 L S E L_{SE} LSE​ 中损失函数得到的技能编码器和解码器,类似于其他文献中将 p p p 视为环境的一部分。解码器 p p p 遵循 MDP M p = ( S , A = Z , P p , R p , γ ) M_p =(S,A = Z,P_p,R_p,\gamma) Mp​=(S,A=Z,Pp​,Rp​,γ) ,其中高级(技能)动作 z t ∈ Z z_t \in \{Z} zt​∈Z 被转换为直接与环境交互的低级(原始)动作 a t ∼ p ( ⋅ ∣ s t , z t ) a_t\sim p(\cdot|s_t,z_t) at​∼p(⋅∣st​,zt​) 。

Karl , Lee, and J Lim. “ with skill ”. In: arXiv : 2010.11944 (2020).

Nam et al. “Skill-based Meta- ”. In: of 10th on (ICLR). 2022.

此外,假设 L T E L_{TE} LTE​ 中的子轨迹 τ \tau τ 和 L S E L_{SE} LSE​ 中的状态-动作对序列 d d d 受限于当前状态,获得了针对 MDP M p M_p Mp​ 训练的高级策略 q θ q_θ qθ​ 和 q q q 。由于 q θ q_θ qθ​ 的输出包含在 M p M_p Mp​ 的输入状态中,因此我们的目标是最大化 q θ q_θ qθ​ 和 q q q 之间的性能差距,其中 J p J_{p} Jp​ 是 MDP M p M_p Mp​ 中的平均回报。

max ⁡ η ( θ ) = J p ( q θ ) − J p ( q ) \max\text{ }\eta(\theta)=J_{p}(q_{\theta})-J_{p}(q) maxη(θ)=Jp​(qθ​)−Jp​(q)

根据文献,我们得到 η ( θ ) = E s ∼ d q θ , z ∼ q θ [ R s , z q − V q ( s ) ] \eta(\theta)= E_{s\sim d_{q_{θ}},z\sim q_{θ}} [R^{q}_{s,z} - V_{q}(s)] η(θ)=Es∼dqθ​​,z∼qθ​​[Rs,zq​−Vq​(s)] ,其中 d q θ d_{q_{θ}} dqθ​​ 是由 q θ q_θ qθ​ 引起的状态访问分布, R s , z q R^{q}_{s,z} Rs,zq​ 是由 q q q 引起的回合收益, V q V_q Vq​ 是 q q q 的值函数。

Sham M. and John . “ ”. In: of the 19th on (ICML). 2002, pp. 267–274.

在离线强化学习中,精确地逼近 q θ q_θ qθ​ 是困难的,因此我们更希望使用 q q q 的分布作为 q θ q_θ qθ​ 的状态访问分布,以避免过多的传播误差。为了实现这一点,我们在 q q q 和 q θ q_θ qθ​ 保持紧密接近的限制下,优化 η ^ ( θ ) = E s ∼ q , z ∼ q θ [ R s , z q − V q ( s ) ] \hat{\eta}(\theta)= E_{s\sim q,z\sim q_{θ}} [R^{q}_{s,z} - V^{q}(s)] η^​(θ)=Es∼q,z∼qθ​​[Rs,zq​−Vq(s)]

像这种带有显式约束条件的优化,都可以用拉格朗日转化成一个非限制的优化, β \beta β 是拉格朗日乘子。

通过对上述式子右侧关于 q θ q_{θ} qθ​ 求导,并遵循文献中的最优策略推导过程,获得了满足下面回报加权条件的闭式解。

Xue Bin Peng et al. “- : and off- ”. In: arXiv : 1910.00177 (2019).

Kumar, Xue Bin Peng, and . “- ”. In: arXiv : 1912.13465 (2019).

当省略基线项 V q ( s ) V_{q}(s) Vq​(s) 并达到常数时,我们还发现 L S R L_{SR} LSR​ 的加权技能正则化损失可以使子任务嵌入与给定任务的高质量技能相匹配,从而促进任务分解为可共享和可实现的子任务。

我的评论:好难啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊!!!!!

4 Data by

在离线强化学习中,由于给定的静态数据集可能无法完全代表其相应的真实马尔可夫过程,且不允许进一步探索,因此强化学习智能体通常会经历次优性能。

生成模型和噪声用于生成附加轨迹,可以使智能体进行本地局部的探索。

在本节中,作者介绍了一种特定于上述任务分解的数据增强方法,其中包括质量感知技能正则化,以便我们可以解决过度拟合和有限性能问题。现有的工作旨在通过利用状态增强方法来减少未见状态的不良影响,而作者则专注于增强这些轨迹(虚构演示),这些轨迹很可能是由高质量的基于技能的学习生成的。

大概的意思就是通过技能解码器优化执行动作的同时,将技能解码器和任务解码器耦合来生成想象的动作。

然后作者得到了 的生成方式:通过状态和浅层变量的信息(技能解码器)的得到动作;通过状态和浅层变量的信息,以及生成的动作信息,得到想象的下一时刻的状态和想象的奖励。

Note that in this model, p θ p_θ pθ​ the same role of the world model in model-based RL .

这个也好理解,model-based 的方法是学习环境的动力学特性,这部分相当于学好了环境动力学然后做预测

_论文记笔记用什么软件_学术论文笔记怎么写

, it turns out that the in (9) a to , given that the high- skill to the is into p ϕ p_ϕ pϕ​ .

作者发现,通过自己的方法可以生成很好的轨迹,这个轨迹跟专家示教轨迹一样,这是因为对应这条轨迹的高质量技能被集成到了 p ϕ p_ϕ pϕ​ 中。

作者通过图片展示了自己生成的轨迹的好坏。原本的源数据集,有好的轨迹和不好的轨迹;但是相比于高斯噪声和专家数据,这样的想象的演示数据把质量好的、优势的数据全部集中了。

5

机器人操作环境 —— Neta-world 无人机环境 —— the drone

+ ()

最好的离线强化学习算法;在 TD3 的更新步骤中加入了一个行为克隆的正则化项;包括一个独热编码的任务表示作为状态的一部分。

一种基于梯度修剪的多任务强化学习算法;使用投影函数来消除梯度之间的方向冲突。

专为多任务强化学习定制的模块化深度神经网络架构;减轻在单个策略上学习不同任务的负面影响,使用一组专门针对多个任务进行训练的模块上的软加权路由路径,它还采用了一种损失平衡策略。

u1s1,作者的这种 介绍的写法很值得学习啊~~~

-(MR)表示从初始到部分训练的中等策略中学习过程中采样的数据集;(RP)表示在整个学习过程中采样的数据集;-(ME)表示从中等到专家策略中学习过程中采样的数据集。

请注意,除非另有说明,否则每个任务的MR、RP和ME数据集分别包含150、100和50个 轨迹。

5.1 Meta-world Tests

MT10 (i.e., 10 tasks)

The tasks share such as grasp and , so they can be seen as multi-tasks with , which are with our task .

这些任务共享通用的基本功能,例如抓取和移动,因此它们可以被视为具有共享子任务的通用多任务,这与我们的任务分解策略是一致的。

on MT10

TD3+BC and show for the of low- , e.g., the row of (MR 10, RP 0, ME 0), but shows for the of high- e.g., the row of (MR 0, RP 0, ME 10).

TD3+BC and the of tasks by task- much when tasks, and the of the tasks by and task- by the of its .

TD3+BC和通过分别累积特定于任务的知识来探索任务的正交性,在学习不同任务时几乎没有干扰,而则通过学习共享技能和通过其模块的组合动态提取特定于任务的知识,从而利用任务的共性。

, our TD3+BC with one-hot task tends to learn tasks , that the task does not the of tasks .

具体来说,使用一位有效编码的 TD3+BC 实现倾向于单独学习各个任务,考虑到任务编码未明确表示不同任务之间的语义关系。

study

SRTD-Q: SRTD the term

SRTD+N: SRTD with the noise-based data used in RL

5.2 A Case Study for -based Drone

实验配置:我们在PEDRA中配置了各种逼真的地图和多样化的风模式,以构建一个多任务的无人机飞行环境。

6 Work Multi-task RL

多任务强化学习已经被研究用于在现实世界环境中高效处理复杂控制问题。通过共同训练带有多个任务的深度神经网络,多任务强化学习算法驱动智能体学习如何在相关任务之间共享、重复使用和组合知识。

Yang等人提出了一个明确的模块化架构,带有软路由网络,用于训练集成的多任务策略。这种软模块化称为soft ,解决了单个网络中任务关系不清晰的问题,即哪些共享参数与哪些任务相关。

Yang et al. “Multi-task with soft ”. In: of the 33rd in (). 2020.

Yu等人提出了一种梯度修剪方法,直接消除单个策略中多任务学习的负面影响,并在学习不同任务时识别和调整计算梯度的几何冲突。

Yu et al. “ for multi-task ”. In: of the 33rd in (). 2020.

Task and skill in multi-task RL

在元强化学习、多任务强化学习、模仿学习和非稳态强化学习的背景下,引入了几种使用任务嵌入的方法。

等人证明了通过预训练的低层策略,可以轻松实现给定技能,而产生适当技能的高层策略可以提高学习效率,其中技能被嵌入到潜空间中,使用专家数据。

Karl et al. “- with ”. In: of the 5th on Robot (CoRL). Vol. 164. PMLR. 2022.

等人在学习多任务策略时使用额外的元数据,利用自然语言中的任务描述来表示任务在潜空间中的语义和关系。

, Amy Zhang, and . “Multi-task with -based ”. In: of 38th on (ICML). PMLR. 2021, pp. 9767–9779.

尽管这些先前的工作依赖于在线交互,并且很少考虑多样化的数据集和不同的行为策略,这在多任务离线强化学习中很常见,但我们的模型采用了质量感知的正则化来处理多任务数据集的混合配置。我们还设计了一种离线环境中技能和任务表示的联合学习机制。

Data in RL

为了缓解离线强化学习中数据集有限和未知状态的问题,一些工作在离线强化学习中采用了数据增强、数据共享和基于模型的方法。

Sinha等人测试了几种数据增强方案,展示了离线强化学习算法可能获得的性能提升。

Sinha, Ajay , and Garg. “S4RL: self- for in ”. In: of 5th on Robot (CoRL). PMLR. 2022, pp. 907–917.

Yu等人提出了一种保守的Q函数,可以判断哪些转换对于学习特定任务是相关的,从而在数据稀缺情况下建立条件数据共享策略。

Yu et al. “ data for multi-task ”. In: of the 34th in (). 2021

作者的虚拟演示数据增强方法与此类似,但它侧重于利用共同技能生成轨迹,很可能是由专家策略生成的。

7

The of our works is to the of skill with in multi-task RL. This will the of our model that only fixed- sub- for task and skill .

我们未来工作的方向是研究多任务离线强化学习中不同时间抽象级别的技能表示层次结构。这将解决我们模型的局限性,即仅考虑任务和技能嵌入的固定长度子轨迹。

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了