embedding层的作用及原理是什么（中文embedding训练）

用户投稿 • 2023年 2月 21日下午2:20 • 科技资讯 • 阅读 362

众所周知，一直以来嵌入都是非常受欢迎的，原因是什么呢？接下来，就让我们从相关背景中窥探一二。所有机器学习模型都要求输入数据是数字。不幸的是，实际中的数据都是数值和分类值的混合（考虑结构化数据）。

分类数据的示例如下所示：

原始数据

其中，我们有两个分类变量（此处忽略用户Id），最喜欢的颜色（FC）和T恤大小（TS）。我们可以使用以下方法来表示我们的输入数据：

标签编码（Label Encoding）

将FC表示为整数值是不正确的。为什么呢？如果我把red相加两次（1 + 1），它的相加结果会是blue（2）吗？不，这是没有意义的，这样做，只会将有关这个变量的完整信息稀释掉。

将TS表示为数值也是不正确的。为什么呢？如果我将all和medium相加（1 + 2），它的相加结果会是large（3）吗？不，再次这样做将会导致丢失关于这个变量的信息。

标签编码

独热编码（One Hot Encoding）

使用独热编码可能算是一个更好的注意。它是一种将分类数据表示为稀疏向量的简单方法。例如下面的这个示例：

独热编码

用独热编码来表示FC是一个好主意。我们将Red表示为{1,0,0}，Blue表示为{0,1,0}，Green表示为{0,0,1}。这意味着每个等级（Red、Green和Blue）彼此之间距离相等。

但是用同样的方式来表示TS并不是一个好主意，我们都知道，all<medium<large。如果这样做的话，订购信息将会丢失。这个变量中的所有等级都被处理为彼此之间距离相等。另外，如果我们有1000个等级而不是3个，将会发生什么呢？这将使我们的矩阵大而稀疏。

嵌入（Embedding）

可以说，我们想用将具有三个等级的输入变量表示为二维数据。使用嵌入层，底层自微分引擎（the underlaying automatic differentiation engines，例如Tensorflow或PyTorch）将具有三个等级的输入数据减少为二维数据。

输入数据

用标签编码表示输入数据

嵌入式数据

输入数据需要用索引表示。这一点可以通过标签编码轻松实现。这是你的嵌入层的输入。

最初，权重是随机初始化的，它们使用随机梯度下降得到优化，从而在二维空间中获得良好的数据表示。可以说，当我们有100个等级时，并且想要在50个维度中获得这个数据的表示时，这是一个非常有用的主意。

罗斯曼挑战赛

这个策略已经被很多Kaggle参赛者使用，用以使得他们的分类数据集能够获得好的表示。（提出此想法的队伍在本次比赛中排名第三）。

你可以观察到，在对输入数据进行一次独热编码之后，他们将其嵌入到来自不同分类变量的较低维度中。

这些嵌入的输出被连接并馈送到两层神经网络中。

变量状态的嵌入表示

周变量的嵌入表示

从上面我们可以看到，在二维环境下，周变量的嵌入表示。

令人惊讶的是，嵌入是如何设法找出周末的销售与工作日的销售之间的不同的。

状态变量的嵌入表示几乎等同于世界地图上的实际表示。

图：unsplash

原文来源：arxiv

作者：Krishna

「雷克世界」编译：嗯~阿童木呀

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 2305938578@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

用户投稿作家

0 0

h是什么意思？有什么用（h硬件加密百科）

上一篇 2023年 2月 21日下午2:10

计算机发展史分为几个阶段及图片（发明人是谁及四个发展阶段）

下一篇 2023年 2月 21日下午2:30

科技资讯

hdmi外接显示器没有声音怎么办（hdmi只输出视频不输出音频怎么解决）

HDMI既可以输出视频，也能输出音频，但是最近有一个用户反映，使用HDMI接口的时候，却没有声音只有视频，这是怎么回事呢？HDMI只有视频没有声音该如何解决？请看下文具体介绍。问…

用户投稿
2023年 12月 11日
0067
科技资讯

笔记本没有声音了怎么解决怎么恢复扬声器（电脑无声音故障如何恢复正常）

本次以win7系统、台式机为例。电脑由软件系统和硬件系统组成。电脑出现故障一般用排除法。软件程序出问题会导致没有声音、硬件故障同样会导致没有声音，我们从易到难来检查。方法一、检查…

用户投稿
2023年 4月 6日
00180
科技资讯

CPU使用100%怎么处理（电脑啥也没干cpu占用率极高怎么解决）

不知道各位朋友有没有遇到过cpu使用率达到100%的情况?当电脑cpu占用率达到100%时，就会出现电脑卡顿发烫的情况。这时候，我们使用起来就会非常缓慢，玩个游戏都像是幻灯片一卡一…

用户投稿
2023年 12月 19日
0052
科技资讯

电脑参数在哪里查看（新买的笔记本怎么看配置）

如今，电脑成为人们生活工作的必需品，对于多数人来说电脑只是用来上网查资料、看视频等，而对于=电脑的详情配置了解甚少！下文就介绍5种快速了解自己电脑的配置方法，希望对大家有所帮助！ …

用户投稿
2023年 11月 22日
0085
科技资讯

苹果恢复出厂设置怎么操作（iphone卖掉前清理彻底的方法）

当iPhone出现内存严重不足、莫名黑屏重启、卡死闪退等问题时，很多用户都会想到使用恢复出厂设置，来解决设备的这些非硬件问题。关于iPhone的恢复出厂设置操作及相关注意事项，牛…

用户投稿
2023年 8月 11日
00185
科技资讯

excel财务报表制作流程（电脑上简单的记账表格怎么做）

你好，今天我要教你如何用Excel制作一个财务报表。财务报表是一种展示企业或个人的财务状况和经营成果的重要工具，它可以帮助我们分析收支情况，制定预算和计划，优化资产配置，提高效率和…

用户投稿
2023年 9月 4日
00240
科技资讯

电脑没声音了怎么一键恢复正常（笔记本没声音了如何恢复扬声器）

笔记本电脑在使用的过程中，突然没有声音的话，对于人们来说会很麻烦。那么笔记本电脑没有声音了怎么恢复呢?下面小编为大家整理了笔记本电脑没有声音的恢复方法，一起来看看吧。 ws10系…

用户投稿
2024年 1月 29日
0045
科技资讯

win7怎么自己重装系统（u盘安装win7系统教程图解）

一、重新安装操作系统前的准备工作 1、在其它分区新建一个文件夹，取名“备份”，最好选择可用空间最大的那个分区，比如E盘、F盘。 2、把当前桌面上的重要文件，全都**，然后粘贴到刚才…

用户投稿
2024年 2月 4日
0057
科技资讯

笔记本及台式电脑的用处作用是什么（手机能代替电脑吗）

现在智能手机越来越普及。一部智能手机就相当于一部微型电脑。几乎电脑能做的，它们都能做。有些电脑不能做的，它也能做，比如打电话。电脑那么，电脑除了智能手机的作用，还有什么用…

用户投稿
2023年 3月 3日
00210
科技资讯

酷冷至尊机箱700怎么样（电脑主机箱哪个牌子好）

一、前言：酷冷推出全新HAF 700 机箱中的“青春版”旗舰此前我们快科技曾评测过酷冷至尊HAF 700 EVO，可以说是酷冷最顶级的机箱了，将散热、灯效、扩展等各方面都做到了极…

用户投稿
2023年 9月 22日
00111

发表回复

登录后才能评论