10, 7月, 2020
外媒聚焦疫情下孩子带给我们的暖新闻

外媒聚焦疫情下孩子带给我们的暖新闻

参考消息网3月23日报道 随着全球疫情升温,所有群体都不可避免地成为受害者。而如何帮助儿童这个特殊的群体理解危机、渡过危机就显得非常重要。

据美国《华盛顿邮报》网站3月22日报道,英国首相鲍里斯·约翰逊21日表示,该国一名7岁女童约瑟芬选择待在家里,取消自己的生日派对,为全国人民树立了榜样。

在海滨小镇朱尼耶的街道上,18岁的克里斯托弗·易卜拉欣正在给一名定制了送花服务的少年发信息,让他把家人带到阳台上。易卜拉欣把一枝玫瑰插在无人机下面悬吊的圆环里,然后让无人机升空,把花送到接收者的手中。

3、CodeBERT在自然语言代码搜索和代码文档生成两个任务中都达到了SOTA性能,此外作者在实验中还建立了一个数据集来研究NL-PL预训练模型的探测能力,方便了以后跟进的研究人员。

另外,还有一个学习生成器用来检测一个词是否为原词,其背后原理是一个二进制分类器,这里与GAN不同的是,如果生成器碰巧产生正确的Token,则该Token的标签是“real”而不是“fake”。

目标二:替换Token检测。在这部分有两个数据生成器,分别是NL生成器和PL生成器,这两个生成器都用于随机掩码位置集(randomly masked positions)生成合理的备选方案。

 如前面提到,微软的 Bing 在2018年便已经上线了代码搜索功能,可以预期,基于预训练的代码功能也将很快落实到 Bing 的产品当中,从而提供能加优质的服务。同时我们也可以期待,该项工作能够在近期开源,以让更多研究人员快速跟进这一工作。

报道称,约瑟芬写信给约翰逊,称她最近的生日派对很可能因疫情而取消。这名小学生写道,她不介意取消派对,因为她希望“所有人都安全”。

除“牙仙”以外,阿根廷还规定关键的农业和出口行业的工作人员也免于隔离,同时允许人们上街购买食品杂货和药品以及紧急就医。

针对这个任务,CodeBERT也基本上都取得了SOTA结果,特别是相较于之前的ROBERTa模型,更是有显著的提高。 值一提的是,CodeBERT有一大亮点,即尽管它只在Ruby、JavaScript、Go、Python、Java、PHP等代码语言上进行了预训练,但预训练的模型却可以泛化到其他代码语言任务上,例如C#语言。  

 模型训练的最后一步是模型微调,具体操作是在NL-PL任务中使用不同的CodeBERT设置。例如在自然语言代码搜索中,会使用与预训练阶段相同的输入方式。而在代码到文本的生成中,使用编码器-解码器框架,并使用CodeBERT初始化生成模型的编码器。

在编程语言上进行预训练的模型的性能优于ROBERTa 

 这部分研究代码到文档的生成问题,并在六种编程语言中研究了生成任务在Code Search Net Corpus上的结果。 另外,为了证明CodeBERT在代码到NL生成任务中的有效性,作者采用了各种预训练的模型作为编码器,并保持了超参数的一致性。  实验结果如下:

约瑟芬听从了约翰逊的劝告,即使这意味着不能吃蛋糕以及和朋友一起庆祝生日。她写道:“我想让你知道今天是我的生日,但我还是待在家里,因为你让我这样做。”她鼓励约翰逊继续履行保护社会的职责,还问他是否记得洗手。

从这个结果可以看出,相较于RoBERTa,CodeBERT能够更好地推广到其他编程语言。不过值得注意的是,模型的效果略低于code2seq,作者认为原因可能是code2seq使用其抽象语法树AST中的组合路径,而CodeBERT仅将原始代码作为输入。

 作者做了四个实验,分别是:1)将CodeBERT应用到自然语言代码搜索任务上,并与传统方法进行对比;2)进行NL-PL Probing实验,考察CodeBERT在预训练阶段到底学习了什么知识;3)将CodeBERT应用到生成任务当中;4)考察CodeBERT预训练模型的泛化能力,发现效果非常之好。 

她们用实际行动完美展现了巾帼英雄们的坚毅、博爱、担当、美丽和蓬勃向上的新女性风采;她们牢记入党誓言,践行使命担当、冲锋在前、英勇奋战,展现出强劲的巾帼力量。在这个不平凡的三八妇女节,向奋战在抗疫一线的女性工作者致敬!

雷锋网原创文章,。详情见转载须知。

1、据作者表示,CodeBERT也是目前已知的首个大型的NL-PL(自然语言-编程语言)预训练模型;

该预训练模型能够处理NL-PL 的普遍问题,例如用自然语言搜索代码、自动生成代码等。 所谓自然语言代码搜索,所要解决的问题是,如何通过自然语言query查找到所需的代码块,这和我们常用的搜索引擎(通过自然语言query来查找所需网页)类似。

(雷锋网(公众号:雷锋网))

易卜拉欣说,除了给居家隔离的母亲们加油,这种特殊的送花服务还为了支持抗击疫情的医务工作者。他说:“我们从这个项目中获得的收益都会交给红十字会。”

而另一方面,代码文档生成任务,是未来能够极大节省程序员工作量的极具前景的一个研究方向。如下图所示,

疫情之下,复工复产必须科学管控精准施策,尤其要压实企业主体责任。鉴于部分企业对疫情危害性认识不足,甚至有企业采取的防控措施不严,政府有必要加强防疫安全生产检查指导,督促企业落实员工如实申报疫区旅居史、接触史、健康状况,做到无病上岗;为员工配齐口罩等防护物品,保障工作区域消杀用品;对可封闭工作区实施封闭管理等,以超出管控居民小区的规格严阵以待,确保复工复产不出现聚集性传染事件。

 在模型的整体架构上,CodeBERT并未脱离BERT和Roberta的思想。和大多数工作类似,作者使用了多层双向Transformer。更为具体一点,作者使用的模型架构与Roberta-base完全相同,即都有12层,每层有12个自注意头,每个头的大小是64,隐藏尺寸为768,前馈层的内部隐藏尺寸为3072。

约翰逊21日在自己的推特上公开了写给约瑟芬的亲笔信。他祝她生日快乐,并对她取消派对表示非常遗憾,但很高兴知道她待在家里。

但是上述提到的模型基本上都是面向自然语言处理,例如掩蔽语言建模、从未标记文本学习上下文表示。 相比以往的Bert的应用场景,作者另辟蹊径,推出双模态预训练模型,即兼顾NLP任务和Python、Java等编程语言。 

约翰逊20日接受记者采访时说:“我们希望你们尽可能待在家里,这样我们才能保护国民保健制度,并拯救生命。”

万紫千红“巾帼志”,舍生去“疫”只为春。寒冬过后,春暖花开。我们会永远记得防控第一线和各条战线的妇女同胞们,她们如花一般美丽,如火一样朝气蓬勃。我们能切身感受到全国亿万妇女为打赢疫情防控人民战争、总体战、阻击战贡献的智慧和力量。我们会永远记得奋战在一线、全力以赴救治患者的女医护人员的“天使白”;我们会永远记得,参与社区摸底排查、防疫宣传、心理疏导的巾帼志愿者的“志愿红”;我们会永远记得,坚守岗位、守护群众安全的“警花蓝”;我们会永远记得复工复产女企业家在统筹推进疫情防控和经济社会发展中勇立潮头、慷慨奉献的“火热橙”;这些一位位在抗击疫情中无私奉献的美丽女性,用如花的色彩,绚烂了这个春天!

具体来说,CodeBERT抓住了自然语言和编程语言之间的语义联系,能够支持自然语言代码搜索等NL-PL理解任务以及一系列像代码生成这样的生成任务。 

性能相比于之前的SOTA模型ROBERTa取得了显著的提高。  

数据集统计 训练CodeBERT所使用的数据集是Husain等人在2019年提供的最新数据集,里面包括 2.1M双模数据和6.4M 单码数据,其中双模码数据是指自然语言-代码对的并行数据,单码是指“未成对”的数据。 另外一些数据来自开源Nonfork GitHub仓库。对这些数据的处理是采用了一些约束和规则进行过滤。

2、本文提出了一个混合学习目标,能够支持使用双模数据NL-PL,且能够很容易地应用到单模数据中(例如没有自然语言文本的编程代码);

一小时后,费尔南德斯在推特上回复男孩的母亲:“牙仙可以留下对掉牙的奖励,因为他不在被隔离之列……”

在微调阶段,设置学习率为1e-5,批量大小为64,最大序列长度为200,最大微调周期为8,并使用Adam来更新参数,并从开发集中选择出表现最好的模型,并用于测试集上进行评估。 结果如下表所示: 

据路透社3月21日报道,为阻止新冠病毒传播,阿根廷实行全国“封城”,但有一种神奇的生物获得了豁免:牙仙。按照传说,牙仙会取去幼儿脱落并放在床边的乳牙,并在原处留下一枚钱币。

BERT作为一种双向Transformer的编码器,其对预训练方法的创新深受业界和学术界的喜爱,虽然其他大规模的预训练模型例如ELMo、GPT等已经能够在各种NLP任务中提升SOTA。 

针对自然语言代码搜索,在这篇论文里,作者在 CodeSearchNet语料库上对CodeBERT进行了预训练并做微调,这是一个包含了 6 种较为普遍的代码语言(分别为Ruby、JavaScript、Go、Python、Java、PHP)的语料库。如下图所示,他们在自然语言代码搜索任务中取得了SOTA的结果:

目标一:掩码语言建模。将NL-PL对作为输入,随机为NL和PL选择位置进行掩码,然后用特殊的掩码Token进行替换。注意,掩码语言建模的任务是预测出被掩码的原始Token。 

弯弓战“疫”赴一线,不破“凶疫”誓不休。“妈妈要去武汉了,你要乖乖的听话,好好照顾自己。”“老公我要去武汉支援重症监护室,家里靠你了……”她们也是母亲、是妻子、是女儿,她们更是“疫场”的女战士,战“疫”中的巾帼英雄。在老百姓恐慌的阴霾时刻,她们用如水温柔,滋润人心。她们在人手吃紧的艰难时刻,不怕劳累深入卡点,走进社区,书写报道,用无私奉献,用一言一行,驱散了阴霾,温暖了人心。在疫情期间,广大党员干部、公安民警、疾控工作人员、社区工作人员、新闻工作者、志愿者等中的妇女同胞们忠诚履职、顽强拼搏,做了大量艰苦工作,用实际行动为疫情防控斗争作出了重要贡献。大疫当前,我们的巾帼英雄们用一腔热血,在昂扬的旋律中忙碌着奉献着,成为这场战“疫”不可或缺的中流砥柱,顶起了疫情防控的“半边天”。

我们用几句话来总结这项工作的意义: 

虽然作者也按照一定的顺序通过遍历AST的树结构来训练CodeBert,但并不会带来生成任务的改进。这种结果意味着结合AST来改进codebert是潜在方向。

上周早些时候,阿总统阿尔韦托·费尔南德斯下令,除一些特殊岗位的工作人员外,所有人都应待在家中,不要上街。但在收到一名7岁男孩母亲发来的信息后,他不得不修改了不受此禁令限制人员的名单。

 这部分实验主要研究在不更改参数的的情况下,Code BERT能够学习哪些类型的知识。目前学界还没有针对NL-PLProbing的工作,所以在这部分实验中,作者自行创建了数据集。 给定NL-PL对,NL-PL Probing的目标是测试模型的正确预测能力。模型比较结果如下图所示: 

上表显示了正确预测实例的数量与全部实例数量的比例。可以看出,在各个变成语言的预测上,CodeBERT基本都取得了最高的分数。但由于不同编程语言的数据集非常不平衡,因此用累计的数据进行比较更为恰当,在PL和NL的probing中,CodeBERT的结果都要比RoBERTa高10~20个百分点。 也可以用一个具体的案例来对比下。下图案例中分别掩盖了NL和PL中的“min”:

1、自然语言代码搜索

学习器的损失函数 经过调整后,损失函数优化如下:

归根结底,疫情防控还没有结束,政府要时刻绷紧临战状态这根弦,发挥法治作用和人性关怀,督促企业履行安全生产主体责任,疏导企业和员工积极配合防控工作,形成强大的联防联控力量。需要提醒的是,复工复产再忙,都要牢记“不聚集、戴口罩、勤洗手、多通风”“防火防盗防同事”的自救金句,才能让科学管控精准施策得到更好的落实。

给定一段自然语言作为输入,代码搜索的目标是从一组代码中找到语义上最相关的代码。为了进行比较,作者选择了Husain 等人在2019年发布的 CodeSearchNet 语料库进行训练。这个语料库框架如下图所示,共包含6中常见的编程语言(Python、JavaScript、Java、Ruby、PHP、Go)。 

在预训练阶段,作者首先对每种语言的数据集进行了训练。数据集分割如下: 

疫情也许给黎巴嫩今年的母亲节蒙上了阴影,但三名学生推出了一项新服务,既能庆祝母亲节,又不违反保持社交距离的规定。

一个NL-PL对,其中红线框中的是NL文本,黑色框是PL文本。 为了利用Nl-PL对的双模实例(bimodal instances)以及大量可用的单模代码(unimodal codes),作者使用了混合目标函数来训练CodeBERT,包括标准掩码语言建模和可替换Token检测。

在具体的训练过程,作者用了六种编程语言在多语言BERT的设置中训练模型。 我们首先来看下CodeBERT的模型框架。

且把“白衣”做战甲,“逆行”无悔上鄂州。在疫情来势汹汹,她们扛起党旗,肩挑责任,“逆行”而上,驰援湖北;她们剪去了美丽的长发,穿上了厚重的防护服;她们在最危重的重症监护室,不怕脏不怕累,直面病毒;她们中有73岁的老院士,她们中也有刚刚二十出头的小护士,她们如花般美丽,但是却以无比勇敢的姿态冲锋在疫情最前线!习近平总书记指出,新冠肺炎疫情发生后,广大女医务工作者义无反顾、日夜奋战,坚守在疫情防控第一线,展现了救死扶伤、医者仁心的崇高精神。当疫情来势汹汹,广大女医务工作者秉承“巾帼不让须眉”的工作精神,勇担使命,冲锋在前,充分展现了新时代女性医务工作者的责任与担当。她们无疑是这个春天,最美丽的风景线。

面对复工复产潮流,各地因地应制宜各显神通,提出了各种策略来贯彻落实中央要求,始终把牢守住了人民身体健康和生命安全这条红线,循序渐进推动复工复科学管控精准施策,为稳定经济运行和社会发展赢得时间。

这名母亲在推特上问总统:“我想知道,牙仙也在免于隔离的名单上吗?华金刚掉了第一颗牙……我们不想给牙仙惹麻烦,也不想让警察拘留他。”

论文链接:https://arxiv.org/pdf/2002.08155.pdf这篇论文提出了一个被称为「CodeBERT」的双模预训练模型,据作者介绍,这也是目前已知的第一个大型 NL-PL(自然语言-编程语言)预训练模型。

可替换Token检测目标图解 在模型训练的设计上,其主要包括两个目标,其一是掩码语言建模,其二是可替换Token检测。在第二个目标中,作者进一步使用了大量的单模码数据。 

在复工复产号召下,勤劳质朴的国人,即使深知疫情风险巨大,仍然意气风发投入生产经营中。据报道,除湖北省外,其余省份不同程度开启复工复产。虽然大家都把“复产防疫两不误”挂在嘴边,但落实过程中总有新状况。疫情肆虐的当口,企业不能独善其身,政府不会袖手旁观,需要双方联防联控,投入更多防疫智慧。在这个紧要关头,政府还需要释放更多重商扶商的善意,帮助企业解决招工难、融资难、生产资料调配难等问题,推动企业迅速步入正常生产轨道,为抢抓生产赢得时间,为疫情防控赢得尊重。

模型参数的总数为125M。 在预训练阶段,总共设计了两部分输入,一个是自然语言文本,另一个是编程语言的代码。对于自然语言文本将其视为单词序列,并拆分为WordPiece。对于编程代码,将其看做Token序列。 CodeBERT的输出也包括两个部分:1、聚合序列表示;2、有标记的上下文向量(contextual vector)。 

这名戴着浅蓝色口罩的工程专业学生说:“今天是母亲节,所有的商店都关门了。”于是他想出了用无人机送玫瑰的点子。

据法新社3月21日报道,3月21日是黎巴嫩的母亲节。在该国一个因疫情而封闭的安静小镇里,一架无人机蜂鸣着飞向一个阳台,为一位惊喜的母亲送上一枝红色玫瑰。

Posted in 未分类