阅读论文并总结重点(共6篇)

山崖发表网工作总结2024-01-27 09:31:3025

阅读论文并总结重点 第1篇

典型的机器学习算法,如回归或分类,是为固定维度的数据实例而设计的。当输入或输出是排列不变的集合而不是固定维度向量时,扩展这些算法并不是一件简单的事情,研究人员也只是最近开始研究它们[5-8]。在这篇论文中,我们提出了一个通用框架,用于处理输入和可能的输出实例在机器学习任务中是集合的情况。

与固定维度的数据实例类似,我们可以在集合的情况下刻画两种学习范式。在监督学习中,我们有一个输出标签,对于集合中元素的排列是不变或等变的。示例包括人口统计数据的估计任务[1],应用范围从千亿量级的宇宙学[3,4]到纳米尺度的量子化学[9]。

接下来,可能是无监督的设置,其中需要学习“集合”结构,例如,通过利用集合内的同质性/异质性倾向。一个示例是集合扩展(又称为受众扩展)任务,其中给定一组彼此相似的对象(例如单词集合{狮子,老虎,豹}),我们的目标是从大量候选对象中找到新的对象,这些新的对象与查询集合相似(例如,在所有英文单词中找到像美洲豹或猎豹这样的词)。这是相似性搜索和度量学习中的一个标准问题,一个典型的应用是根据一小组可能的标签找到新的图像标签。同样,在计算广告领域,给定一组高价值客户,目标是找到相似的人。这在许多科学应用中都是一个重要问题,例如,给定一组有趣的天体对象,天体物理学家可能希望在大型天空调查中找到相似的天体。

主要贡献。在这篇论文中,(i)我们提出了一个基本架构,DeepSets,用于处理输入为集合的情况,并展示了这种架构的属性是必要且充分的(第2节)。 (ii)我们扩展了这种架构,以允许基于任意对象进行条件处理,(iii)在此基础上,我们开发了一种能够处理可能大小不同的集合的深度网络(第3节)。我们展示了一个简单的参数共享方案,可以在监督和半监督设置中通用地处理集合。 (iv)最后,我们通过在多种问题上的实验来展示我们框架的广泛适用性(第4节)。

阅读论文并总结重点 第2篇

在本文中,我们开发了DeepSets,这是一个基于强大的置换不变性和等变性属性的模型,同时还提供了支持其性能的理论。我们通过广泛的实验展示了DeepSets在多个领域的泛化能力,并展示了定性和定量的结果。特别是,我们明确展示了DeepSets如何超越其他没有理论支持的直观深度网络(第节,第节)。最后但同样重要的是,值得注意的是,我们比较的最先进技术是针对每个任务的专门技术,而我们的一个模型,即DeepSets,在整个领域都是有竞争力的。

阅读论文并总结重点 第3篇

在这个日日新的AI时代,论文写作常常是一个复杂且耗时的过程,这个过程包括从文献阅读、研究构思、数据收集、实验设计,到最后的撰写报告。这也是很多学生、研究员、学者面临的一大挑战。在AI的时代,我们有了新的解决方案,那就是利用像GPT这样的大模型来帮助我们解决这些问题。使用GPT来协助文献阅读和理解我们首先可以通过GPT来帮助我们处理大量的文献阅读任务。给GPT输入论文的题目、摘要、或者关键段落,GPT可以根据这些信息生成一份较为简洁的论文摘要或者总结,这可以极大地提高我们阅读理解的速度和效率。使用GPT进行文献搜集和参考文献编写在写论文的过程中,查找和整理参考文献是一项非常重要但又耗时的任务。GPT可以通过理解你的研究课题,来为你提供相关的文献引用建议。而且,GPT也能帮助你格式化参考文献,符合各类学术论文的格式要求。利用GPT在研究设计与数据分析上GPT在处理数据和信息方面也有极强的能力。你可以输入你的研究问题和已有的数据,GPT可以为你生成可能的研究假设,甚至设计相应的实验方案。此外,GPT也能帮助你理解和解释复杂的数据分析结果。使用GPT进行论文写作最后,在撰写论文的过程中,GPT也可以提供极大的帮助。你可以向GPT提供论文的大纲,或者是具体的段落主题,GPT可以帮助你生成相应的内容,减少你的写作负担。另外,GPT也可以帮助你检查论文的语法和拼写错误,确保论文的质量。注意事项虽然GPT的应用前景看起来非常广阔,但是我们也需要理解,GPT只是一个工具,它并不能替代我们的创新思维和批判性思考。在使用GPT的过程中,我们也需要保持对其生成内容的审查和质疑。

阅读论文并总结重点 第4篇

我们提出了一组多样化的应用来展示 DeepSets 的实用性。在有监督的设置中,我们将 DeepSets 应用于人口统计的估计、数字之和的计算、点云的分类,以及有聚类辅助信息的回归。DeepSets 的排列等变变体应用于异常检测任务。最后,我们研究了将 DeepSets 应用于无监督的集合扩展,特别是概念集检索和图像标注。在大多数情况下,我们将我们的方法与最先进的方法进行比较,并报告了具有竞争力的结果。

Supervised Learning: Learning to Estimate Population Statistics

在第一个实验中,我们学习了高斯分布的熵和互信息,而没有向 DeepSets 提供有关高斯性的任何信息。生成高斯分布的方式如下:

我们使用 L2 损失进行训练,DeepSets 架构有 3 个全连接层,使用 ReLU 激活函数进行 ϕρ 的转换。我们与使用 RBF 核的支持分布机器(SDM)进行比较,并在图 1 中分析结果。

Sum of Digits

接下来,我们比较将我们的集合数据视为序列时会发生什么。我们考虑找到给定一组数字的和的任务。我们考虑这个实验的两个变种:

文本:我们随机从数据集中抽取最多 M = 10 个数字的子集,以构建 100k 个“集合”的训练图像,其中集合标签是该集合中数字的和。我们针对 M 个数字的和进行测试,其中 M 从 5 一直到 100,另外 100k 个示例。

图像:MNIST8m [24] 包含 800 万个 28 × 28 灰度图像的数字实例,其中包含 {0, ..., 9}。我们随机从该数据集中抽取最多 M = 10 张图像的子集,以构建 N = 100k 个“集合”的训练和测试图像,其中集合标签是该集合中数字的和(即每张图像的单个标签不可用)。我们针对 M 张 MNIST 数字图像的和进行测试,其中 M 从 5 一直到 50。

我们与循环神经网络——LSTM 和 GRU 进行比较。所有模型都定义为具有相似数量的层和参数。所有模型的输出都是一个标量,预测 N 个数字的和。训练是在最多长度为 10 的任务上完成的,而在测试时我们使用长度高达 100 的示例。准确性,即四舍五入后的完全相等,显示在图 2 中。DeepSets 表现得更好。注意对于图像案例,单个数字的最佳分类错误率大约为 p = ,所以在 N 张图像的集合中,至少有一张图像将被误分类的概率为 1−(1−p)N,这对于 N = 50 是 40%。这与图 2(b) 中观察到的值非常接近。

Point Cloud Classification

点云是一组低维向量。这种类型的数据在机器人学、视觉和宇宙学等多种应用中经常遇到。在这些应用中,现有的方法通常将点云数据转换为体素或网格表示作为预处理步骤,例如 [26, 29, 30]。由于许多范围传感器(如 LiDAR)的输出是点云形式的,因此直接将深度学习方法应用于点云是非常期望的。此外,与体素化的3D对象相比,对点云应用变换(如旋转和平移)更容易且更便宜。

由于点云数据只是一组点,我们可以使用 DeepSets 对 ShapeNet 对象的子集 [31] 的点云表示进行分类,称为 ModelNet40 [25]。这个子集由 9,843 个训练实例和 2,468 个测试实例组成,属于 40 个对象类别。我们使用点云库的采样程序 [32] 从对象的网格表示中生成每个包含 100、1000 和 5000 个粒子的点云(x,y,z 坐标)。每个集合通过深度网络的初始层归一化,使得均值为零(沿各个轴)并且单位(全局)方差。表 1 比较了我们使用三个排列等变层的方法与竞争对手;详见附录 H。

Improved Red-shift Estimation Using Clustering Information

在宇宙学中,一个重要的回归问题是估计星系的红移,红移对应于星系的年龄以及它们距离我们的距离[33],基于光度观测。一种估计光度观测红移的方法是使用回归模型[34]对星系团进行建模。每个星系的预测值不会因为排列星系团的成员而改变。因此,我们可以将每个星系团视为一个“集合”,并使用 DeepSets 来估计单个星系的红移。更多详细信息见附录G。

对于每个星系,我们从红MaPPer星系团目录[35]中获得了17个光度特征,该目录包含了26,111个红色星系团的光度读数。这个目录中的每个星系团有约20至300个星系,即 x ∈ R^N(c)×17,其中 N(c) 是团的大小。目录还为这些星系的一个子集提供了精确的光谱红移估计。

我们将数据随机分为90%的训练团和10%的测试团,并最小化可用的光谱红移预测的平方损失。正如宇宙学文献中的惯例,我们报告平均散度 |zspec-z| / (1+zspec),其中 zspec 是精确的光谱测量值,z 是光度估计值,详见表2。

回顾节中的de Finetti定理,我们考虑一组观测值的边缘概率,边缘概率允许用一个非常简单的度量来评分要添加到X的额外元素。换句话说,这允许我们通过以下分数进行集合扩展s(xX)=logp(X∪{x}∣α)−logp(Xα)p({x}∣α) 注意,s(xX)是x和X之间的点互信息。此外,由于可交换性,不管元素的顺序如何,我们都有 S(X)=∑m=1Ms(xm​∣{xm−1​,…,x1​})=logp(Xα)−∑m=1M​logp({xm​}∣α) 当推断集合时,我们的目标是找到初始查询词组{x1​,…,xm​}的集合补全{xm+1​,…,xM​},使得聚合集合是一致的。这是贝叶斯集合算法[36](详见附录D)的关键思想。使用DeepSets,我们可以以更广泛的方式解决这个问题,因为我们可以放弃数据属于某个指数族的假设。

为了学习分数s(xX),我们采用带结构损失函数[37]的大边际分类,以获得相对损失目标 l(x,x’​∣X)=max(0,s(x'∣X)−s(xX)+Δ(x,x'​)) 换句话说,我们希望确保当x应该被添加且x'不应该被添加到X时,有s(xX)≥s(x'∣X)+Δ(x,x'​)。

阅读论文并总结重点 第5篇

一个函数f将其定义域X转换到值域Y。通常,输入域是一个向量空间R^d,输出响应范围要么是一个离散空间,例如分类的情况下是{0, 1},要么是回归的情况下的连续空间R。现在,如果输入是一个集合X={x1, ..., xM},xm ∈ X,也就是说输入域是幂集X=2^X,那么我们希望函数的响应对元素的顺序“不关心”。换句话说,

属性1:作用在集合上的函数f : 2^X → Y必须对集合中对象的顺序是排列不变的,即对于任意排列π:f({x1, ..., xM}) = f({xπ(1), ..., xπ(M)})。

在监督学习的设置中,给定N个示例X(1), ..., X(N)以及它们的标签y(1), ..., y(N),任务是在变量数量的预测器上进行分类/回归,同时对预测器是排列不变的。在无监督学习的设置中,任务将是给有效集合分配高分,给不可能的集合分配低分。然后,这些分数可以用于集合扩展任务,例如计算广告领域的图像标签或受众扩展。在转导学习的设置中,每个实例x(mn)都有一个关联的标签y(n)m。那么,目标将是学习一个排列等变的函数f : XM → YM,当输入实例的排列变化时,输出标签也跟着变化,即对于任意排列π:

我们想要研究集合上函数的结构。一般来说,它们的研究是极其困难的,所以我们逐个案例进行分析。我们首先分析不变的情况,其中X是一个可数集合,Y = R,下一个定理描述了它的结构。

定理2:一个在集合X上操作的函数f(X),该集合X的元素来自一个可数的宇宙,是一个有效的集合函数,即对X中实例的排列是不变的,当且仅当它可以分解为形式ρ,对于合适的变体 φ和ρ。

当X是不可数的,比如X = R时,我们只能证明对于固定大小的集合,f(X) =ρ成立。在处理不可数的情况时的证明和困难在附录A中进行了讨论。然而,我们仍然猜想在一般情况下确切的等式成立。

接下来,我们分析当X = Y = R并且f被限制为一个神经网络层的等变情况。标准的神经网络层表示为fΘ(x) = σ(Θx),其中Θ ∈ RM×M是权重向量,σ : R → R是一个非线性函数,如sigmoid函数。以下的引理阐述了这种函数中排列等变性的必要和充分条件。

引理3:上述定义的函数fΘ : RM → RM是排列等变的,当且仅当Θ的所有非对角线元素都绑定在一起,并且所有对角线元素也都相等。也就是说,Θ = λI + γ (11T),λ, γ ∈ R,1 = [1, . . . , 1]T ∈ RM,I ∈ RM×M是单位矩阵。

这个结果可以轻易地扩展到更高的维度,即X = Rd,当λ, γ可以是矩阵时。

定理2的一般形式与不同领域的重要结果密切相关。在这里,我们简要回顾其中的一些联系。

de Finetti定理。一个相关的概念是贝叶斯统计中的可交换模型,它由de Finetti的定理支持,该定理指出任何可交换模型都可以分解为 p(Xα,M0​)=∫m=1Mp(xm​∣θ)p(θα,M0​), 其中θ是某个潜在特征,α, M0是先验的超参数。为了看到这与我们的结果如何匹配,让我们考虑具有共轭先验的指数族,其中我们可以解析地计算(2)的积分。在这种特殊情况下,p(xθ)=exp(⟨ϕ(x),θ⟩−g(θ)),p(θα,M0​)=exp(⟨θ,α⟩−M0​g(θ)−h(α,M0​))。现在,如果我们边缘化θ,我们得到一个看起来完全类似于定理2的形式p(Xα,M0​)=exp(⟨α+∑mϕ(xm​),M0​+M⟩−h(α,M0​)).

表示定理和核机器。支持分布机器使用f(p)=∑iαiyiK(pi​,p)+b作为预测函数[8, 10],其中pi​,p是分布,αi​,b∈R。在实践中,pi​,p分布通常不会明确给出,通常只有这些分布的.样本集是可用的,因此我们需要使用这些样本来估计核K(p,q)。一种流行的方法是使用K^(p,q)=MM0​1​∑i,jk(xi​,yj​),其中k是另一个在样本{xi​}i=1M​∼p和{yj​}j=1M0​​∼q上操作的核。现在,这些预测函数可以看作是符合我们定理的结构。

谱方法。多项式分解的一个后果是,谱方法[11]可以被看作是映射ρϕ(X)的一个特殊情况:在这种情况下,人们可以计算多项式,通常只计算到相对较低的次数(例如k=3),以对分布的统计性质进行推断。统计量在数据中是可交换的,因此它们可以用上述映射来表示。

阅读论文并总结重点 第6篇

我们研究了在集合上定义的机器学习任务的模型设计问题。与传统的在固定维度向量上操作的方法不同,我们考虑在集合上定义的目标函数,这些函数对排列是不变的。这类问题广泛存在,从人口统计数据的估计[1],到堤坝的压电计数据中的异常检测[2],再到宇宙学[3, 4]。我们的主要定理刻画了排列不变函数,并提供了一组函数,任何排列不变的目标函数都必须属于这组函数。这组函数有一个特殊的结构,使我们能够设计一个能够操作集合的深度网络架构,并且可以在包括无监督和有监督学习任务在内的各种场景中部署。我们还推导出了深度模型中排列等价的必要和充分条件。我们演示了我们的方法在人口统计估计、点云分类、集合扩展和离群值检测等方面的适用性。

显示全文

注:本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即后台留言通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意

点击下载文档

文档为doc格式

发表评论

评论列表(7人评论 , 39人围观)

点击下载
本文文档