大数据背景下的最佳异常检测算法

发布时间：2021-02-01 11:14:56 所属栏目：动态来源：互联网

导读：除了微信豆，针对视频号直播的新功能还有连麦和美颜，至此，直播功能三件套完成了。其中，连麦包括视频和语音两种方式，该功能上线后，张小龙就第一时间与视频号博主阿禅尝鲜体验了一把，由此可见，微信对直播这一板块的重视。另外，这次更新针对视频号原本

除了微信豆，针对视频号直播的新功能还有连麦和美颜，至此，直播功能三件套完成了。其中，连麦包括视频和语音两种方式，该功能上线后，张小龙就第一时间与视频号博主阿禅尝鲜体验了一把，由此可见，微信对直播这一板块的重视。另外，这次更新针对视频号原本的属性也发生了一些变化，比如视频号的推荐列表变成了暗黑模式的信息流，操作逻辑与某音完全一致;“发现”页面中的视频号功能被单拎出来单独展示;个人名片中多了视频号入口;“附近的人”变成了“附近的直播和人”等等。

需要注意的是，iOS端充值的微信豆与Android端不互通，也就是说仅能在iOS端微信上使用。另外，因为苹果是会抽成30%的，而Android则不会抽成，所以1元7个微信豆这样的充值比例也可能是仅针对iOS平台，当然具体情况还要等到Android端微信更新之后才能知晓。经过实测发现，向主播打赏7个微信豆(相当于1元)后，主播选择提现，微信给出的税前收入为0.35元，相当于微信再抽成了50%。

在这种情况下，第一个模型比第二个更好，因为它能更好地处理垃圾邮件分类。第二个模型更容易把将普通文档归类为垃圾邮件，这样就会有更多的非垃圾邮件文档将被划为垃圾邮件，这非常糟糕。

其他需要考虑的是与产出有关的重要事宜。某些情况下，如果资源和时间有限，选择一个简便的模型会助你一臂之力。前提是模型的性能仍然良好，并且与较复杂的模型没有太大区别。

切莫混淆数据

数据显然是影响模型性能的重中之重。因此，在项目执行之初就必须一丝不苟地建立一个详备的数据集，包括需要提取的信息类型、注释指南、各个数据类别之间的平衡以及视需求而定的其它重要事项。

如果使用标注工具(annotator)来构建数据集，特别是对于NLP模型，则要确保技术和语言学两方面认知的同步。有时候，语言学人员不明白某个特定的标注方法对现有的模型是否可行。同样地，工程师有时候也不理解语言学的内容。

需要注意的是，并不是数据越多越好。如果不能有效地反映所有的真实情况，再多的数据训练也是白费功劳。除此之外，数据标签的不一致也是个大问题。

另外，每次实验，训练、验证以及测试数据的结构和比例必须相同，特别是当数据逐渐增多时。为了确保模型的性能，还必须考虑案例类型的分布。如果有专门的测试数据再好不过，这有助于添加训练数据后比较模型性能。

把步骤衔接起来

能够构建端到端系统是作为机器学习工程师必备的另一项重要技能。更重要的是，如果同时处理多个模型，那么使用管线(pipeline)会方便很多。加载数据集、预处理和特征提取、训练和评估模型，以及做出预测都可以简化到只使用单个指令。

不要指望一次就能得到满意的结果。此外，长时间重复做某事确实会有压力。因此，使机器学习工作流程自动化非常重要，这样能节省时间、减轻压力。

其他框架和工具

笔者也会因为出现错误而大呼小叫。在把系统部署到生产环境这一步骤出错后，笔者再一次陷入懊恼。因此，了解一些可用于部署的实用框架和有效工具十分有必要。可以把一些接触过的框架和工具拿来做个比较，再根据需要选出最适合的。

对于笔者来说，Docker在部署中非常重要。它帮助笔者在容器中部署多个模块。除此之外，Tensorflow Serving也非常好用，它可以很方便地使训练好的模型应用于预测请求。

使人人都可以理解

写文档不仅是为了自己，也是为了他人。如果其他工程师想要继续试验，或者只是想使用你的程序，你创建的文档都能帮上他们。如果文档也方便专业之外的人员阅读和理解，那就更好了。

一份好的文档通常包含超参数(hyperparameter)的配置、时期(epoch)、方法、数据和分数等信息。此外，提供自动化的脚本来运行程序对其他工程师很有帮助，这样就不必先阅读整个代码了。

诚然，笔者还有许多东西需要学习。但最应该明白的是，不要害怕失败。因为研究和试验本身就是一个尝试、失败、再尝试的过程。

（编辑：鞍山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!