尽快修复M1处理器Bug 解决超宽屏兼容问题
同样在2021年,TensorFlow 2.0和PyTorch将成为企业和社区的"首选"库。拥有现有TensorFlow代码库或想要使用Collab Notebook的公司应使用TensorFlow 2.0。深度学习新手或想要继续使用Juypter Notebook的公司或个人应选择PyTorch。 9. 数据存储:一种尺寸不会填充全部 现代数据库环境充满了选择和广泛的变化。我们有经典的SQL数据库,主要是四大数据库:MySQL,Oracle,MS-SQL,PostgreSQL。我们还有NoSQL数据库,它主要包括数据库系列:文档数据库,键值数据库,宽列数据库,时间序列数据库,搜索数据库,图形数据库。还有许多其他类型的数据存储。 最近,我们看到了所谓的全球分布式ACID事务数据库或NewSQL数据库的热潮。Google凭借其Google Spanner(首个水平可读写ACID兼容水平数据库)在这里处于领先地位。亚马逊还具有可水平扩展且符合ACID要求的数据库Amazon Aurora,该数据库提供几乎所有SQL功能,但不提供水平写入扩展。在超大规模云提供商之外,CockroachDB还是一个非常杰出的NewSQL或分布式SQL数据库。 到2021年,数据存储生态系统将保持不变,并具有许多选择。不会有可以满足所有目的的Master数据库。同样在2021年,经过仔细考虑,选择正确的数据库将是一项非常具有挑战性的任务。 许多流行的数据库已更改其许可证(MongoDB,Cassandra,Redis,Kafka),因为超大规模云提供商(尤其是亚马逊)滥用了其创新技术并赚了钱而没有偿还。这一趋势将在2021年持续下去,其他初创公司或创新型公司将使用限制性更强的许可证来保护自己免受恶意云提供商的侵害。 10. 数据密集型计算:Spark将继续保持领先地位 仅在几年前,Hadoop是数据密集型计算或分布式批处理作业的默认选择。Apache Spark当前是首选的供应商中性分布式批处理作业平台,在大多数情况下几乎替代了Hadoop。 这一趋势将在2021年持续下去,Spark将被用作数据密集型计算的首选平台。Spark是一个基于JVM的系统,占用大量资源,您将获得巨额的Cloud费用。但不幸的是,目前还没有资源节约型的Spark强大和成熟的框架。 所有主要的云提供商都拥有自己的Cloud Native解决方案,以进行数据密集型计算。我的两分钱建议是在2021年使用Spark over Cloud特定解决方案,以避免供应商锁定。 11. 实时流:Flink将是显而易见的选择 近年来,随着企业抛弃传统的Lambda体系结构,转而支持实时流处理框架,实时流变得越来越流行。 另外,这里存在两种类型的框架。一个是由Spark Streaming领导的基于Micro-Batch的平台。另一个是由Apache Flink领导的低延迟流处理平台。 对于需要实时流传输的场景(欺诈检测,异常检测,基于规则的警报,实时数据的临时分析),Apache Flink排除了Spark Streaming。 所有Hyperscale云提供商都提供自己的解决方案。我建议您在2021年选择基于Spark的Flink或专有的云解决方案,因为它在实时流处理方面具有无与伦比的功能。 12. 数据平台:其他玩家将跟随Snowflake
现代数据架构非常复杂。它包含数据源,ETL管道,数据仓库,数据湖,数据分析工具以及许多其他组件。这是企业数据平台(ABM AMRO的数据平台)的示例使用案例: (编辑:鞍山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |