Let’s think step by step
最近large language model 非常火,而CoT(Chain of Thought)作为一种和LLM模型交互的方式一经提出就引发了广泛的关注。这篇文章就主要介绍了通过CoT的方法来使用大模型解决推理任务的一些范式。)本文参考视频(链接)
背景知识
这篇文章中说,只要在每个答案之前加上一句“Let’s think step by step”,就可以立即在两个比较困难的数学问题数据上涨点,而且涨点非常明显。由于这个方法比较简单,只是加了一句话就能够非常明显地涨点,所以立即引发了大家对于这一领域的关注,也就是“ AI 是不是也需要鼓励来获得更好的表现”。
语言模型的本质是对任意一段文本序列的概率进行建模如果将语言模型看成一个大黑盒的话,它的输入是一段文本序列,输出也是一段文本序列,通过训练语言模型,就能使得给定的文本序列和输出的文本序列拼接起来所组成的一整段文本序列的概率尽可能比较大的。
方法如何用 GPT-3 这类的大语言模型来做零样本、单样本和少样本学习?
对于 GPT-3 来说,也就是图中的 transformer decoder,无论是在零样本、单样本还是少样本的情况下 ...
Token Merging Your ViT But Faster
Transformer 乘着最近大模型的井喷又火了一把,在NLP领域的统治地位好像已经无可撼动了,Transformer 模型使用了 Self-Attention 机制,不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。记得几年前接触CV里面的Transformer结构DETR和Vit,惊讶于他们的效果的同时始终觉得将图片tokens化的方式太不美观了,同时所需要的训练资源太大了,学生党根本尝试不了。最近看到一篇论文,提出了一种无需训练即可加速 ViT 模型,提高吞吐量的方法 Token Merging (ToMe)。ToMe 通过一种轻量化的匹配算法,逐步合并 ViT 内部的相似的 tokens,实现了在基本不损失性能的前提下,大幅提升 ViT 架构的吞吐量。
背景与卷积神经网络 (CNN) 相比,视觉 Transformer 模型 (ViT) 有一系列优良的性质,比如:
Transformer 模型的 Attention 模块和 MLP 模块主要有矩阵乘法这种可以加速的操作构成。
Transformer 支持一些性能强大的自监督学习任务 (掩码图像建模 M ...
《Bid Optimization by Multivariable Control in Display Advertising》阅读笔记
推荐与广告可以说是很多互联网公司的两个重要业务,其中推荐是为了 DAU 的增长,或者说流量的增长,而广告则是利用这些流量进行变现。两者的要解决的问题也很相似,都是在每条流量到来的时候,要从一个庞大的候选集中选出 topk 个候选返回,基本都采用 召回+精排 的架构,中间还可能插入粗排,本质上都是在效果与工程之间做 trade-off。
如果说两者技术上最大的 diff,我认为是出价,因为在广告场景中引入了广告主(advertiser)这一角色,因此我们除了考虑用户体验,还需要满足金主爸爸们的诉求(如跑量、成本等),才能带来持续的收入增长,而金主爸爸们表达其诉求的最直接的手段就是出价,其含义就是愿意为每个 click/convert 付出多少钱(truthful telling)。这带出来的就是 bidding 这一研究领域,关于这个领域在 rtb-papers 中有很多相关的 paper。
本文主要讲的是 2019 KDD 阿里的 Bid Optimization by Multivariable Control in Display Advertising,这篇 paper 解决了出 ...
Position bias
背景CTR预估模型的训练通常采用曝光点击数据,该数据是一种隐式反馈数据,所以会不可避免地产生各种偏差问题,其中,位置偏差对CTR的影响极大而备受关注。用户通常倾向于点击靠前位置的商品,并且CTR会随着曝光位置的增大而迅速下降。因此,直接在曝光数据上进行训练,模型会偏向于靠前位置的商品集合,造成位置偏差的问题。
现有方案尝试position作为特征这类方法比较简单,但是在训练、预测的时候还是有很多需要注意的细节,在特征中加入position特征通常有两种方式:
直接将position作为普通特征加入;
将position特征单独构建网络,如利用biasNet建模用户的position bias 然后concat到主网络,或者如YouTube的shallow tower的方式输出对应的logit然后和main tower的logit相加。另外,为了避免过度依赖位置特征,YouTube训练的时候在shallow tower设置drop-out rate 为10%。此时,无论在biasNet还是在shallow tower中,除了position bias信息,也可以额外增加如设备信息等, ...
混排到底该怎么排?
混排,往往是的推荐系统的最后一个环节,在这个阶段,自然内容(后面简称item)需要与营销内容(后面简称 ad)进行混合,生成最终推送给用户的 list
如果以 Long Term Value(LTV)的视角来看,这是个在 LT 和 V 之间做 trade-off 的过程,ad 如果出得过多,必然会挤压 item 的数量和位置,进而影响用户体验和留存即 LT,但相应的广告收入,或者说 Average revenue per user(ARPU) 会提升,反之亦然。
所以业界往往的做法是定一个用户体验的约束,在这个约束下尽可能优化 ad 的效率,即达到收入最大化,因此很自然可以把这个建模成一个最优化问题,LinkedIn 在 2020 年的这篇 paper就是这么做的,Ads Allocation in Feed via Constrained Optimization
直观地看混排这个问题,有 2 个子问题需要解决(1)怎么计算每个 item 或 ad 在每个位置上的价值:因为 item 和 ad 是各自排序的,目标不同,最终的值的量纲也不同,这么把两者的 scale 拉到可比范围是一个 ...
U-Net in U-Net for Infrared Small Object Detection
最近看到一篇文章比较有意思,是对在图像分割领域的”常青树”u-net做的改进,由于自己之前在实验室做过图像分割的项目,曾经也魔改了一版u-net,所以对相关的工作还是比较感兴趣的。这篇论文的题目就很吸引眼球,UIU-Net,在u-net里面套了一个u-net,话不多说,让我们来看看具体是怎么做的。
背景本文旨在研究红外小目标检测问题,并提出一种基于深度学习的U-net in U-net 方法来提高检测性能,在这一部分,作者首先介绍了红外小目标检测的背景和相关研究。
红外小目标检测是一项重要的研究领域,在许多应用中都具有重要的研究价值,如军事侦查、目标跟踪、航空航天和安防等。与可见光相比,红外图像具有更高的对比度和更强的穿透力,可以穿越烟雾、雾霾等环境,且不受光线干扰。因此,红外图像可以更好地获取目标的信息,特别是在夜间和恶劣天气的条件下。
然而,红外小目标检测是一项具有挑战性的任务。由手红外小目标的特征不明显,目标尺寸小、形态不规则,加之背景复杂多变,对检测算法的要求较高。传统的基手特征工程的方法通常需要人工设计特征,此难以达到最佳效果。近年来,深度学习技术的发展为红外小目标检测带来 ...
猜你想去?
最近在使用滴滴打车,突然发现一个功能——”猜你想去“,试着点了一下发现准确的猜到了我想去的地点,突然觉得这个功能还挺有趣的(虽然感觉有点不适- -!),上网查了下发现在2017年滴滴就在KDD上发表相关论文了(链接),读了一些还挺有意思的。这篇论文主要为了解决两个问题,第一个是出租车调度的问题,即出租车订单的全局分配,文章针对全局最优分配进行了优化,这部分就不展开了。第二个问题就是目的地预测了。
背景目的地预测系统是滴滴出行APP端的一个用户体验优化。 当APP打开时,就可以相对准确预测出目的地这将会比较好的优化用户的体验。 过去的尝试主要基于多层神经网络的分类模型, 但此模型的问题在于有可能预测出一些不相关的地点,或者地点别名。这种结果发生时,客户依旧需要手工输入目的地名称。
由此, 作者提出一个给予客户历史打车记录的目的地,给予贝叶斯模型来预测目的地概率列表,为客户提供候选。
方法作者通过观察发现几个重要的pattern, (1)同一个人经常在同样的时间去同样的地方;(2)通常而言, 同一个人经常去的候选目标是个固定的集合。 (3)订单地点和目标高度相关。 基于这些观察, 作者提出 ...
Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising
今天介绍一篇阿里出品的广告序列投放算法 链接,这篇文章通过考虑用户在端上的长期价值,并且通过将序列投放问题建模为动态背包问题,最后给出了近似解。总得来说是比较有意思的解决问题的方式,但是我不太认为在线上环境能够取得很不错的效果,原因后面分析。
背景现在的电商平台中,通过在一定预算约束下去优化GMV,也就是提高广告主的ROI是广告主的核心诉求之一。现有的绝大多数出价策略将一段时间的GMV优化问题拆解为:对每次用户的请求进行独立优化,并且认为这些独立优化汇总结果可以等同于这一段时间的GMV最优化。事实上,这类策略得到解可能只是次优解,因为他们以孤立的视角把消费者和广告限定在了单次交互中,而忽略了一段时间内多次交互可能产生的其他影响。
上面一段话可能有点绕,作者在这里举了一个例子,首先,同一个消费者在一段时间内(比如3天)会多次访问淘宝,并且随机地在淘宝不同场景出现(例如首页、购后),这为同一个广告和同一个消费者在不同场景多次接触创造了机会;其次,大量的成交并非发生在消费者和广告的初次接触中,而是发生在第二次或者以后更多次的接触中,通过ab实验,作者发现广告和消费者的前序接触会影响消费者对该 ...
A Survey of Multi-Domain model
在实际的业务中,数据往往由多个 domain 组成,以广告为例,往往会存在多个转化目标,在 ctr、cvr 的预估时也要考虑不同转化目标的影响,因为在不同转化目标下,ctr、cvr 的分布(如均值、方差)往往是不一致的。
解决这个问题最直观的思路是加 domain 相关特征或根据 domain 拆模型,前者属于隐式的方法,需要特征的区分性足够强、能被模型学到,但这个足够强没有一个量化的标准,基本只能看实验效果;后者则存在维护成本过高的问题,比如说有 n 个 domain 就要拆成 n 个模型。
本文着重讲如何通过一个模型 serve 多个 domain 的方法,主要是在业界验证有收益且公开发表的工作,基本上可以分为 3 类:
multi-head 结构
LHUC 机制
GRL 机制
MMOE在一个模型中根据多个 domain 拆成多个 head(每个 head 代表一个 domain),通过每个 head 的参数学习特定 domain 的分布,是一种比较直观和常见的做法。这类方法的代表是 MMOE: Modeling Task Relationships in Multi-task ...
Learning Representations for Counterfactual Inference
最近工作中用到因果推理相关知识,发现自己基础太弱,读读论文填充一下。首先介绍一篇经典的论文。这篇文章提出了一种利用领域适应和深度神经网络表示学习的框架方法来进行反事实结果推理
公式化反事实推理问题为领域适应问题,更具体一点,转化为协变量转变问题。
利用深度神经网络表示,线性模型和变量选择来进行反事实推理。
利用reweighting samples的方法使treatment和control groups distribution balanced
Abstract
Observational studies are rising in importance due to the widespread accumulation of data in fields such as healthcare, education, employment and ecology. We consider the task of answering counterfactual questions such as, “Would this patient have lower bloo ...