本文写于 2018 年，文中涉及的工具与版本可能已过时，思路仍可参考。

正文

最初接触到fasttext做文本分类是在去年7月份做webshell检测时，后来还是选择了CNN Text Classification。当时关于fasttext的介绍已经有一部分了。关于原理什么的在这就不讲了，之前的文章里应该有。

由于没有GPU，所以在做完自动化威胁列表之后，决定尝试下使用fasttext对文本进行分类。

具体项目参见这里,包含了使用说明。
采用了360netlab提供的公开数据集，以及一份alexa top 100millon。

经过250个epoch之后可以达到很好的准确度。为1，但是模型太大，可以采用quantize进行训练，压缩。但是会导致精度下降，cutoff值越大，精度越低，模型越小。

其他

上周发现了集团内部的一个平台存在着较为严重的数据泄露，随机直接联系了那个项目的负责人，告诉他，大量敏感数据集泄露(分别是来自不同平台推送的训练数据集)。然后这个人，这个技术专家就直接在前端改了下，完了…今天，再去测，还是存在路径遍历，可以越权读到所有数据。本身情况下非该应用用户是不能下载的，而且该应用用户间也不能随便下别人的数据集。后来谈着没两句，居然给我说到了月饼事件，说起了价值观。这尼玛的专家，真是呵呵呵。

就算大部分人知道正确的价值观，也不代表他们会做价值观正确的事情。更何况其他心怀不轨的呢。而且事事上升到价值观并不是个好事。

使用fasttext进行DGA检测

正文

其他

资源