HDFS

优势

  • 高可靠性:hadoop底层维护多个副本数据,所以即使hadoop某个datanode出现故障,也不会导致数据丢失
  • 高扩展性:能够方便的扩展数以千计的机器到集群
  • 高效性:在MapReduce的思想下,hadoop是并行工作的,以加快任务处理速度
  • 高容错性:能够自动将失败的任务重新分配

架构

  • NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的datanode等
  • DataNode:在本地文件系统存储文件块数据,以及块数据的校验和
  • Secondary NameNode:每隔一段时间对namenode元数据备份

MapReduce

Yarn