到目前为止,Hadoop已经开发了10多年,并且该版本已经更新和迭代了无数次。当前,行业中的每个人都将Hadoop的主要版本分为Hadoop1.0,Hadoop2.0和Hadoop3.0三个版本。
1. Hadoop简介首次发布Hadoop版本时,它要解决两个问题:一个是如何存储海量数据,另一个是如何计算海量数据。 Hadoop的核心设计是HDFS和Mapreduce。
HDFS解决了如何存储海量数据的问题,而Mapreduce解决了如何计算海量数据的问题。 HDFS的全名:HadoopDistributedFileSystem。
2.分布式文件系统Picture HDFS实际上可以理解为分布式文件系统。如图1所示,假设每台服务器都有自己的文件系统,那么这四台服务器是否有自己的文件系统可以存储数据。
存储空间存储10G数据。假设数据量较小,则可以存储10G数据。
当数据量大于服务器的存储空间时,单个服务器是否无法存储数据?我们可以在服务器中部署Hadoop以便构建集群(超级计算机)吗?这样,存储了4 * 10 = 40G的数据,因此当我们面对用户时,是否只有一台相当于分布式文件系统的超大型计算机? HDFS是一种主从架构,主节点只有一个NemeNode。该节点中有多个DataNode。
3. HDFS架构图假设我们这里有5台服务器,并且每台服务器都部署在Hadoop上,我们随机选择一台服务器来部署NameNode,其余服务器来部署DataNode。客户端上载文件时,假设文件大小为129M。
HDFS的默认拆分大小为128M。此时,将生成2个blkNameNodes来通知DataNode上载文件(这里有某种策略),我们假设这些文件分别存储在4个服务器上。
为什么我们需要分别存储它们?假设DataNode服务器突然停运一天。我们是否仍可以通过DataNode4或2和3读取数据,以防止数据丢失? NameNode管理元数据信息(文件目录树):文件与块,块和DataNode主机之间的关系NameNode是为了快速响应用户操作,因此将元数据信息加载到内存中,DataNode存储数据,而上传的数据为分成固定大小的文件在Hadoop 2.73之前,块在64M之后更改为128M。
为了确保数据安全性,每个文件默认为三个副本。 SecondaryNamenode会定期从NameNode节点提取Edtis和fsimage文件,并将这两个文件添加到中。
然后将内存添加到内存中,以合并这两个文件以生成新的fsimage并将其发送到NameNode。 4. HDFS写入数据过程客户端将向文件节点发送写入请求和文件路径,并通过RPC与NameNode建立通信。
NameNode检查目标文件并返回是否可以上传。客户端请求将第一个块传输到哪个DataNode服务器; NameNode根据副本数和副本放置策略分配节点,并返回到DataNode节点,例如:A,B,CClient请求节点A建立管道,A收到请求后将继续调用B,然后B将调用C建立整个管道。
完成后,该消息将逐级返回到客户端。客户端收到A返回的消息后,客户端开始将第一个块块上传到A。
该块块分为64K数据包,并在pepiline管道中从A到B连续传输,从B到C复制存储空间。块块的传输完成后,客户端再次请求NameNode上载第二块块的存储节点,并保持往复存储。
所有块块的传输完成后,客户端将调用FSDataOutputSteam的close方法以关闭输出流。调用FileSystem的完整方法来通知NameNode数据已成功写入。
5. HDFS读取数据的过程。客户端将首先向具有读取路径的NameNode发送读取请求,通过RPC与NameNode建立通信,然后NameNode检查目标文件以确定所请求的文件。
视具体情况而定,块块NameNode的位置信息将返回文件的部分或全部块块列表。对于每个块块,NameNode将返回包含该块副本的DataNode地址。
这些返回的DataNode地址将根据群集拓扑进行计算。然后按照两个规则对客户端的距离进行排序:在网络拓扑中最接近客户端的位置排名第一;心跳机制中超时机制报告的DN状态为STALE,排名较低;客户选择
公司: 深圳市捷比信实业有限公司
电话: 0755-29796190
邮箱: momo@jepsun.com
产品经理: 李经理
QQ: 2215069954
地址: 深圳市宝安区翻身路富源大厦1栋7楼

更多资讯
获取最新公司新闻和行业资料。
- TSS管与聚鼎PXXXX S系列比较分析 在电力电子领域中,TSS管(Transient Voltage Suppression Tube)是一种重要的保护器件,用于防止电压瞬变对电路造成损害。聚鼎科技作为一家专注于半导体防护器件的企业,其PXXXX S系列也是市场上的热门产品之一。本文将从技术参数...
- EBR铜块分流电阻技术参数与应用分析 在电力系统和电子设备中,分流电阻器是一种重要的元件,用于测量电流强度。EBR铜块分流电阻以其高精度、低温度系数和良好的热稳定性而著称,特别适用于需要高精度电流测量的应用场合。EBR铜块分流电阻通常由高导电性材...
- 聚鼎AMPB-H瞬态抑制二极管车规TVS管参数与应用解析 在现代汽车电子系统中,瞬态电压抑制(Transient Voltage Suppressor, TVS)二极管扮演着至关重要的角色,它们被广泛应用于保护车载电子设备免受静电放电(ESD)、电气快速瞬变(EFT)、雷击和其他电压瞬变的影响。聚鼎科技推出的...
- JMV-S积层压敏电阻技术参数与应用领域 JMV-S积层压敏电阻是一种用于电路保护的电子元件,它能够在电压超过预设阈值时导通,从而保护电路中的其他元件免受过电压的损害。这种压敏电阻具有体积小、响应速度快、可靠性高以及寿命长等优点,因此在各种电子设备...
- 功率电阻TR50-H TO220 50W参数及应用详解 在电子设备和电力系统中,功率电阻起着至关重要的作用,尤其是在需要消耗或测量高功率的应用场景下。今天,我们将聚焦于一款常见的功率电阻——TR50-H TO220 50W,这款电阻以其优良的性能和广泛的应用领域而受到工程师们的...
- JMV-S积层压敏电阻技术参数与应用领域详解 积层压敏电阻(JMV-S)是一种广泛应用在电子设备中的保护元件,主要用于防止过电压对电路造成损害。它由多层陶瓷材料和金属电极交替堆叠而成,具有体积小、响应速度快、耐热性好等优点。### 技术参数1. 工作电压范围:JMV...
- 光颉Viking陶瓷多层片式电感器CL-S系列参数与应用详解 在现代电子设备中,电感器作为重要的被动元件之一,其性能直接影响着电路的工作效率和稳定性。光颉科技推出的Viking陶瓷多层片式电感器CL-S系列凭借其卓越的性能,在众多应用领域中脱颖而出。该系列产品具有高Q值、低直流...
- 施耐德LC1-D系列交流接触器:可靠性能与优质服务 施耐德电气作为全球能效管理和自动化领域的专家,在电气领域有着卓越的表现。其产品线中的LC1-D系列交流接触器是工业控制领域中不可或缺的一部分。其中,LC1-D25型号接触器以其高质量和可靠性能著称,适用于多种工业场景...
- 聚鼎AMPA-H瞬态抑制二极管车规TVS管参数与应用 聚鼎科技推出的AMPA-H系列瞬态抑制二极管(TVS管)是专为汽车电子领域设计的产品,旨在提供卓越的保护性能,以应对各种瞬态电压冲击。在当前的汽车电子系统中,由于复杂的电气环境和高频率的电子设备使用,瞬态电压冲击...
- 数据传输线保护方法与技巧 在当今数字化时代,数据传输线作为连接设备与系统的重要纽带,其重要性不言而喻。为了确保数据传输的安全与稳定,采取有效的数据传输线保护措施显得尤为重要。以下是一些关于如何保护数据传输线的方法和技巧:1. 选择...
- S.J.X自动压力开关隔膜泵:高效稳定的流体传输解决方案 S.J.X自动压力开关隔膜泵是一种高效、耐用的流体传输设备,广泛应用于化工、制药、食品加工等行业。该泵采用先进的自动压力开关技术,能够根据系统的压力变化自动调节运行状态,有效防止过压或欠压情况的发生,从而保护...
- WAN7020L039M04参数配置详解及应用案例分析 在现代网络通信领域,各种型号的路由器和交换机层出不穷,其中WAN7020L039M04以其卓越的性能和稳定的运行深受广大用户青睐。本文将围绕WAN7020L039M04的技术参数、配置方法以及实际应用案例进行详细解析,旨在帮助用户更好地理...
- WAN8010F157M04参数配置详解与应用案例分析 在当今网络技术高速发展的背景下,路由器作为网络通信的重要组成部分,其性能和配置直接影响着网络服务的质量与稳定性。WAN8010F157M04作为一款高性能路由器,在企业级网络建设中扮演着至关重要的角色。本文将深入探讨WAN8...
- 如何提高系统安全性以防止数据泄露 在当今数字化时代,数据安全成为企业和个人必须重视的问题。数据泄露不仅会损害企业声誉,还可能导致严重的经济损失和法律问题。为了提高系统的安全性以防止数据泄露,可以采取以下几个措施:1. 强化访问控制:确保只...
- viking精密分流电阻参数及应用领域 在众多电子设备和系统中,精确测量电流是一项至关重要的任务,这不仅关系到设备的性能优化,还直接影响到系统的安全性和稳定性。Viking精密分流电阻作为这一领域的佼佼者,凭借其卓越的精度、稳定性和可靠性,在工业控...
- 霍尼韦尔WFS--H液体水流开关:工业应用中的高效监测解决方案 霍尼韦尔的WFS--H液体水流开关是一种高品质、可靠性的设备,广泛应用于需要监控液体流动情况的各种工业场合。该水流开关采用先进的技术设计,能够有效地检测管道内的水流状态,并在流体流量达到预设值时触发开关动作。...
- CLM3820 30A电源模块技术参数与应用案例分析 在现代电子设备和工业控制系统中,电源模块作为核心组件之一,其性能直接影响系统的稳定性和可靠性。CLM3820 30A电源模块以其高效能、高稳定性等特点,在众多应用场景中得到广泛应用。本文将围绕CLM3820 30A电源模块的技术参...
- 6/16V BF系列发动机技术参数与应用分析 在现代发动机技术中,6/16V BF系列因其独特的设计和卓越的性能而受到广泛关注。这一系列发动机主要用于大型船舶和工业设备中,其特点在于采用了双排16缸V型布局,能够提供强大的动力输出,同时通过优化燃烧效率来减少燃油...
- PCIe数据包交换器在高性能计算中的应用与优势 在现代高性能计算(HPC)领域,PCIe数据包交换器扮演着至关重要的角色。它是一种专门设计用于连接多个高速设备和处理器的互连解决方案,能够显著提升系统的整体性能和效率。相较于传统的PCIe架构,PCIe数据包交换器通过提...
- 光颉viking分流电阻器LRS系列参数与应用详解 在现代电子设备中,电阻器是不可或缺的基础元件之一,而光颉科技提供的Viking系列分流电阻器LRS系列因其出色的性能和稳定性,被广泛应用于各类电子电路设计中。LRS系列电阻器以其卓越的精度、低温度系数以及良好的长期稳...