Kas ir RDD programmā Scala?
Kas ir RDD programmā Scala?

Video: Kas ir RDD programmā Scala?

Video: Kas ir RDD programmā Scala?
Video: Scala 3. OpenJDK vs Oracle JDK. Марсоход Чжужун и CopterPack. [MJC News #7] #ityoutubersru 2024, Maijs
Anonim

Elastīgas sadalītās datu kopas ( RDD ) ir Spark pamatdatu struktūra. Tā ir nemainīga izplatīta objektu kolekcija. RDD var saturēt jebkura veida Python, Java vai Scala objektus, tostarp lietotāja definētas klases. Formāli an RDD ir tikai lasāma, sadalīta ierakstu kolekcija.

Jautājums ir arī par to, kāda ir atšķirība starp RDD un DataFrame?

RDD – RDD ir izkliedēta datu elementu kolekcija, kas izplatīta daudzās iekārtās iekš klasteris. RDD ir Java vai Scala objektu kopa, kas attēlo datus. DataFrame – A DataFrame ir sadalīta datu kolekcija, kas sakārtota nosauktās kolonnās. Konceptuāli tas ir vienāds ar tabulu iekšā relāciju datu bāze.

Turklāt, kā tiek izplatīts RDD? Elastīgs Izplatīts Datu kopas ( RDD ) Tie ir a izplatīts objektu kolekcija, kas tiek glabāta atmiņā vai dažādu klastera mašīnu diskos. Viens RDD var sadalīt vairākos loģiskajos nodalījumos, lai šos nodalījumus varētu glabāt un apstrādāt dažādās klastera iekārtās.

kā darbojas spark RDD?

RDD iekšā Dzirkstele ir ierakstu kolekcija, kas satur nodalījumus. RDD iekšā Dzirkstele ir sadalīti nelielos loģiskos datu gabalos - zināmos kā nodalījumi, kad darbība tiek izpildīta, katrā nodalījumā tiks palaists uzdevums. Starpsienas iekšā RDD ir paralēlisma pamatvienības.

Kurš ir ātrāks RDD vai DataFrame?

RDD - Veicot vienkāršas grupēšanas un apkopošanas darbības RDD API ir lēnāka. DataFrame - veicot pētniecisko analīzi, veidojot apkopotu statistiku par datiem, datu rāmji ir ātrāk . RDD - Ja vēlaties zema līmeņa transformācijas un darbības, mēs izmantojam RDD . Arī tad, kad mums ir vajadzīgas augsta līmeņa abstrakcijas, mēs izmantojam RDD.

Ieteicams: