Satura rādītājs:

Kādi ir dažādi failu formāti pakalpojumā Hadoop?
Kādi ir dažādi failu formāti pakalpojumā Hadoop?

Video: Kādi ir dažādi failu formāti pakalpojumā Hadoop?

Video: Kādi ir dažādi failu formāti pakalpojumā Hadoop?
Video: What is a File Format? 2024, Maijs
Anonim

Par laimi, lielo datu kopiena pamatā ir izvēlējusies trīs optimizētus failu formāti lietošanai iekšā Hadoop kopas: optimizēta rindu kolonna (ORC), Avro un parkets.

Pēc tam var arī jautāt, kādi ir dažādie datu formātu veidi?

Ir trīs datu veidi kartēšana un ĢIS datu formāti . Katrs veids tiek apstrādāts atšķirīgi.

Datu formātu veidi

  • Failu bāzes - Shapefiles, Microstation Design Files (DGN), GeoTIFF attēli.
  • Uz direktoriju bāzes - ESRI ArcInfo Coverages, ASV skaitīšanas TIGER.
  • Datu bāzu savienojumi - PostGIS, ESRI ArcSDE, MySQL.

Turklāt, kurš faila formāts ir vislabākais stropā? RCFile ir kolonnu rinda faila formātā . Šī ir vēl viena forma Hive faila formāts kas piedāvā augstu rindu līmeņa saspiešanas līmeni. Ja jums ir nepieciešams vienlaikus veikt vairākas rindas, varat izmantot RCFile formātā.

Ņemot to vērā, kādi ir Hadoop izplatītākie ievades formāti?

InputFormat izveido Inputsplit

  • Visizplatītākie ievades formāti ir:
  • FileInputFormat - tā ir pamatklase visiem failiem balstītajiemInputFormat.
  • TextInputFormat - tas ir MapReduce noklusējuma ievades formāts.
  • KeyValueTextInputFormat- Tas ir līdzīgs TextInputFormat.
  • Izpildiet saiti, lai uzzinātu vairāk par InputFormat pakalpojumā Hadoop.

Kas ir orc faila formāts programmā Hadoop?

ORC faila formāts Optimizētās rindas kolonna ( ORC ) faila formātā nodrošina ļoti efektīvu Hive datu glabāšanas veidu. Tas bija paredzēts, lai pārvarētu citu Hive ierobežojumus failu formāti . Izmantojot ORC faili uzlabo veiktspēju, Hiveis lasot, rakstot un apstrādājot datus.

Ieteicams: