随着IT互联网信息技术的快速发展和进步。 目前,大数据产业也越来越受欢迎,导致国内大数据人才的极度缺乏。 以下是有关在Hadoop环境中管理大数据存储的一些提示。

  如今,随着IT互联网信息技术的快速发展和进步。 目前,大数据产业也越来越受欢迎,导致国内大数据人才的极度缺乏。 以下是有关在Hadoop环境中管理大数据存储的一些提示。

  1,分布式存储

  传统的集中存储已存在一段时间了。 但是大数据并不适合集中存储架构。  Hadoop旨在使计算更接近数据节点,同时使用HDFS文件系统的大规模横向扩展功能。

  虽然Hadoop管理其自身数据效率低下的常用解决方案是将Hadoop数据存储在SAN上。 但它也导致了自身性能和规模的瓶颈。 现在,如果您通过集中式SAN处理器处理所有数据,则与Hadoop的分布式和并行化功能相反。 您可以将不同数据节点的多个SAN或所有数据节点管理到一个SAN中。

  但Hadoop是一个应该在分布式存储上运行的分布式应用程序,因此存储保留了与Hadoop本身相同的灵活性,但它还需要采用软件定义的存储解决方案并在商业服务器上运行。  Hadoop自然比瓶颈更有效。

  这里还是推荐我自己的大数据学习交流小组:529867072,小组正在学习大数据开发,如果你正在学习大数据,小编欢迎你加入,大家都是软件开发方,不定期共享干货(仅限相关的 大数据软件开发),包括我自己编译的新的大数据高级数据和高级开发教程。 欢迎来到希望深化大数据的高级和小型合作伙伴。

  2,超级融合VS分布式

  注意不要混淆超融合和分布。 一些超融合解决方案是分布式存储,但通常这个术语意味着您的应用程序和存储保存在同一计算节点上。 这是试图解决数据本地化的问题,但它会导致太多的资源争用。 这个Hadoop应用程序和存储平台将争夺相同的内存和CPU。  Hadoop在专有应用层上运行,分布式存储在专有存储层上运行得更好。 然后,使用缓存和分层来解决数据本地化并补偿网络性能损失。

  3.避免控制器瓶颈(ControllerChokePoint)

  实现的一个重要方面

4,重量和压缩

  掌握大数据的关键是减重和压缩技术。 通常,大数据集中70%到90%的数据被简化。 就PB容量而言,它可以节省数万美元的磁盘成本。 现代平台提供内联(与后处理相比)加权和压缩,大大降低了存储数据的能力。

  5,合并Hadoop发行版

  许多大型企业都有多个Hadoop发行版。 可能是开发人员需要或企业部门已适应不同的版本。 在任何情况下,通常都需要维护和操作这些集群。 一旦大量数据真正开始影响业务,多个Hadoop发行版可能会导致效率低下。 我们可以通过创建单个可解码和压缩的数据湖来提高数据效率

  6,虚拟化Hadoop

  虚拟化席卷了企业市场。 现在,许多地区80%以上的物理服务器都已虚拟化。 但由于性能和数据本地化问题,仍有许多公司避免虚拟化Hadoop。

  7,营造灵活的数据湖泊

  创建数据湖并不容易,但大数据存储可能是?%


评论(0条)

请登录后评论
admin

admin

0

0

0

( 此人很懒并没有留下什么~~ )