Kāda ir problēma ar maziem failiem pakalpojumā Hadoop?
Kāda ir problēma ar maziem failiem pakalpojumā Hadoop?

Video: Kāda ir problēma ar maziem failiem pakalpojumā Hadoop?

Video: Kāda ir problēma ar maziem failiem pakalpojumā Hadoop?
Video: Hdfs Analysis for Small Files 2024, Novembris
Anonim

1) Neliela faila problēma iekšā HDFS : Uzglabā daudz mazi faili kas ir ārkārtīgi mazāks nekā bloka izmēru nevar efektīvi apstrādāt HDFS . Lasot cauri mazi faili ietver daudzus meklējumus un lielu lēcienu starp datu mezglu uz datu mezglu, kas ir neefektīva datu apstrāde.

Papildus tam, kuri faili nodarbojas ar nelielām failu problēmām programmā Hadoop?

1) HAR ( Hadoop Arhīvs) Faili ir iepazīstināts ar risināt mazo failu problēmu . HAR ir ieviesis slāni virsū HDFS , kas nodrošina saskarni failu piekļūstot. Izmantojot Hadoop arhīva komanda, HAR failus tiek izveidoti, kas darbojas a MapReduce darbs iepakot failus tiek arhivēts mazāks skaits HDFS faili.

Turklāt, vai HDFS var izmantot dažādus bloku izmērus vairākiem failiem? Noklusējums Izmērs no bloķēt ir 64 MB. tu var mainiet to atkarībā no jūsu prasībām. Nākot uz jūsu jautājumu, jā, jūs var izveidot vairākus failus mainot bloku izmēri bet reāllaikā šis gribu nedod priekšroku ražošanai.

Turklāt, kāpēc HDFS optimāli neapstrādā mazus failus?

Problēmas ar mazi faili un HDFS Katrs failu , direktoriju un bloķēt HDFS ir tiek attēlots kā objekts namenode atmiņā, katrs no tiem aizņem 150 baitus, kā īkšķis. Turklāt HDFS nav pielāgota efektīvai piekļuvei mazi faili : tas ir galvenokārt paredzēts liela izmēra straumēšanas piekļuvei failus.

Kāpēc Hadoop darbojas lēni?

Lēns Apstrādes ātrums Šis disks meklē aizņem laiku, tādējādi padarot visu procesu ļoti lēns . Ja Hadoop apstrādā datus nelielā apjomā, tas ir ļoti lēns salīdzinoši. Tas ir ideāli piemērots lielām datu kopām. Kā Hadoop pamatā ir pakešu apstrādes dzinējs, tā ātrums reāllaika apstrādei ir mazāks.

Ieteicams: