知识表示学习研究论文总结

January 4, 2019 自然语言处理本文总阅读量次

表示学习的目的：将研究对象的语义信息表示为低维稠密向量，计算两个对象向量之间的语义相似度

表示学习的应用：

E：实体 R：关系 S: $ERE$ 3元组

模型名称	简述	特点、注释、缺点	损失函数
距离模型	每个实体用d纬向量表示，所有实体投影到d维向量空间	将头向量和尾向量通过关系r的两个矩阵投影到r空间中再计算向量距离	$f_r(h,t) =	M_{r,1}l_h-M_{r,2}l_t	_{L_1}$
单层神经网络模型	采用单层神经网络的非线性操作来减轻距离模型无法协同精确刻画实体与关系的语义联系问题	将双重模型的改进模板，提供了微弱的联系，确引入了更高的计算复杂度
能量模型	每个实体和关系都用低维向量表示	两个评分函数：线性+双线性
双线性模型	刻画实体和关系之间的二阶联系，双线性评分函数	通过简单的方法刻画了实体和关系的语义联系，协同性较好，计算复杂度低	$f_r(h,t)={l_h}^tM_rl_t$
张量神经网络模型	用双线性张量取代传统神经网络中的线性变换层，在不同的纬度下将头、尾实体向量联系起来。	注：实体向量是该实体中所有单词向量的平均值。计算复杂度高、系数上结果差
矩阵分解模型
翻译模型	词向量空间存在平移不变现象	捕捉单词之间的隐含语义关系，简单有效，在大规模稀疏知识图谱上，性能惊人	$C(king)-C(queen) \approx C(man)-C(woman)$
全息表示模型	刚刚提出，效果未验证、值得关注	注：比较详细见论文

翻译模型（TransE）：处理复杂关系时性能显著降低（1-N、N-1、N-N）

美国-总体-奥巴马美国-总统-布什 TransE将会把奥巴马与布什的向量变的相同

让一个实体在不同的关系下拥有不同的表示

对于关系r，同时用平移向量l_r和超平面法向量w_r来表示它。

一个实体是多种属性的综合体，不同关系关注实体的不同属性。

不同的关系拥有不同的语义空间、对每个三元组，将实体投影到对应的关系空间中，然后再建立从头实体到尾实体的翻译关系。

缺点：

利用2个投影向量构建投影矩阵，解决TransR模型参数过多问题

将损失函数改成马氏距离，并为每一纬学习不同的权重

利用CBOW或者CNN根据实体描述文本得到实体表示，再用于TransE的目标函数学习

CBOW：将文本中的词向量简单相加

CNN：能够考虑文本中的次序信息

可以利用TransE学习知识库中的知识表示，同时利用维基百科正文中的链接信息，让文本实体对应的词表示与知识库中的实体表示尽可能相近。