2018.11.10-11.30学习总结

总结

  • 概率图书籍
  • 自然语言处理书籍
  • HMM模型
  • CRF
  • gStore
  • Speech and Language Processing
  • CFG
  • 分布式学习相关论文

11.12-11.16

11.12

统计自然语言处理到6.6部分。

11.13

1.看自然语言处理昨天的内容复习,以及后续的6.7-6.9。

2.学习概率图书籍第3章。

3.看完了数学之美剩余章节,里面通过例子简明易懂的讲了贝叶斯,隐马尔可夫,条件随机场,维比特算法,EM算法等与概率图这章节相关的内容。还有一些布隆过滤器、加密等一些不太相关的内容涉及。

11.14

1.概率图书籍第4章挑选一部分看了。2.写文档总结用于周会讲解

11.15

1.学习baum-Welch算法。

2。学习hmm 3种不同条件缺失对应的算法,完善概率图笔记。

11.16

18年9月23日新出的第三版里面的HMM章节,把周会没讲好的数学推导基本看懂。以及学习了一下对应算法的伪代码写法。

11.19-11.23

11.19

1.学习汉语分词的歧义切分与未登陆词问题,几种汉语分词方法。其中两大主流方法,基于词的n元语法模型针对词典词效果好,基于字的序列标注模型对未登录词效果好。以及两种模型的结合方法。(还有其他一些方法)

2.学习基于CRF的命名实体识别,原理与基于字的汉语分词方法一致。将命名实体看作序列标注问题。

3.解python题目。

明天打算继续看后续的内容,以及找开源的上周学习内容的代码实现,学习一下。

11.20

1.学习了命名实体的另一种方法以及词性标注相关内容。

2.学习HMM的代码实现

11.21

1.回顾这前两天的内容,推导公示,写文档准备周会。

2.准备政治社会实践报告

11.22

1.周会讨论。

2.看之前发的论文

11.23

1.学习自然语言处理第8章内容

2.学习cs231n课程中的tensorflow使用教程

11.26-11.30

11.26

1.从github上clone了最新的gStore版本,在编译处理的时候有一些问题,它这个软件仅提供ubuntu和centos的支持。我在mac上编译出了一点问题,尝试解决暂时无果,我在它的主页面提交了一个issue等待作者回复。

所以只看了一些api和文档的内容,还没有实际跑起来代码。

2.初步学了一遍“自然语言处理”句法分析章节的8.1-8.6部分,包括上下文无关文法,基于PCFG的词汇化短语结构分析方法和非词汇化句法分析器(PCFG-LA)以及一些其他改进算法、评价指标。

在学习这一块的时候,感觉自己对语法中的NP,S,VP,PP这种表示的是什么有点模糊,准备之后看一下“英文版本的自然语言处理”中的10章节英语语法,11章节句法分析,12章节统计分析详细学习。

3.刷了一些python题。

11.27

学习“Speech and Language Processing ”中的第10章与第11章部分。搞懂了英语的语法和句法树。CFG产生的歧义问题的解决,以及CNF标准形式和其他非二分叉的语法如何转成CNF。

11.28 周三

学习“Speech and Language Processing ”中的第12章前半部分。主要是提出了基于概率的CFG(即PCFG)。PCFG的两个主要应用及数学证明。通过矩阵图的方法理解PCFG。PCFG的两个缺点。

11.29

学习“Speech and Language Processing ”中的第12章后半部分。

做ppt准备周会讲解。

11.30

1.开周会

2.补缺周会的内容