大数据背景下的最佳异常检测算法
除了微信豆,针对视频号直播的新功能还有连麦和美颜,至此,直播功能三件套完成了。其中,连麦包括视频和语音两种方式,该功能上线后,张小龙就第一时间与视频号博主阿禅尝鲜体验了一把,由此可见,微信对直播这一板块的重视。另外,这次更新针对视频号原本的属性也发生了一些变化,比如视频号的推荐列表变成了暗黑模式的信息流,操作逻辑与某音完全一致;“发现”页面中的视频号功能被单拎出来单独展示;个人名片中多了视频号入口;“附近的人”变成了“附近的直播和人”等等。 需要注意的是,iOS端充值的微信豆与Android端不互通,也就是说仅能在iOS端微信上使用。另外,因为苹果是会抽成30%的,而Android则不会抽成,所以1元7个微信豆这样的充值比例也可能是仅针对iOS平台,当然具体情况还要等到Android端微信更新之后才能知晓。经过实测发现,向主播打赏7个微信豆(相当于1元)后,主播选择提现,微信给出的税前收入为0.35元,相当于微信再抽成了50%。 在这种情况下,第一个模型比第二个更好,因为它能更好地处理垃圾邮件分类。第二个模型更容易把将普通文档归类为垃圾邮件,这样就会有更多的非垃圾邮件文档将被划为垃圾邮件,这非常糟糕。 其他需要考虑的是与产出有关的重要事宜。某些情况下,如果资源和时间有限,选择一个简便的模型会助你一臂之力。前提是模型的性能仍然良好,并且与较复杂的模型没有太大区别。 切莫混淆数据 数据显然是影响模型性能的重中之重。因此,在项目执行之初就必须一丝不苟地建立一个详备的数据集,包括需要提取的信息类型、注释指南、各个数据类别之间的平衡以及视需求而定的其它重要事项。 如果使用标注工具(annotator)来构建数据集,特别是对于NLP模型,则要确保技术和语言学两方面认知的同步。有时候,语言学人员不明白某个特定的标注方法对现有的模型是否可行。同样地,工程师有时候也不理解语言学的内容。 需要注意的是,并不是数据越多越好。如果不能有效地反映所有的真实情况,再多的数据训练也是白费功劳。除此之外,数据标签的不一致也是个大问题。 另外,每次实验,训练、验证以及测试数据的结构和比例必须相同,特别是当数据逐渐增多时。为了确保模型的性能,还必须考虑案例类型的分布。如果有专门的测试数据再好不过,这有助于添加训练数据后比较模型性能。 把步骤衔接起来 能够构建端到端系统是作为机器学习工程师必备的另一项重要技能。更重要的是,如果同时处理多个模型,那么使用管线(pipeline)会方便很多。加载数据集、预处理和特征提取、训练和评估模型,以及做出预测都可以简化到只使用单个指令。 不要指望一次就能得到满意的结果。此外,长时间重复做某事确实会有压力。因此,使机器学习工作流程自动化非常重要,这样能节省时间、减轻压力。 其他框架和工具 笔者也会因为出现错误而大呼小叫。在把系统部署到生产环境这一步骤出错后,笔者再一次陷入懊恼。因此,了解一些可用于部署的实用框架和有效工具十分有必要。可以把一些接触过的框架和工具拿来做个比较,再根据需要选出最适合的。 对于笔者来说,Docker在部署中非常重要。它帮助笔者在容器中部署多个模块。除此之外,Tensorflow Serving也非常好用,它可以很方便地使训练好的模型应用于预测请求。 使人人都可以理解 写文档不仅是为了自己,也是为了他人。如果其他工程师想要继续试验,或者只是想使用你的程序,你创建的文档都能帮上他们。如果文档也方便专业之外的人员阅读和理解,那就更好了。 一份好的文档通常包含超参数(hyperparameter)的配置、时期(epoch)、方法、数据和分数等信息。此外,提供自动化的脚本来运行程序对其他工程师很有帮助,这样就不必先阅读整个代码了。
诚然,笔者还有许多东西需要学习。但最应该明白的是,不要害怕失败。因为研究和试验本身就是一个尝试、失败、再尝试的过程。 (编辑:鞍山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |