Viac

Ako načítať geografické údaje do Hadoopu (Hive) a potom na nich vedieť vyvolať priestorové funkcie?


Potrebujem načítať nejaké geografické údaje do Hadoopu (Hive) a potom, aby som na nich mohol pomocou Hive volať nejaké priestorové funkcie.

Môj formát vstupných údajov je ESRI shapefiles (ale môže to byť iný formát, ktorý by som mohol v prípade potreby transformovať).

Viem, že ESRI vydal veľmi základný rámec pre prácu s priestorovými dátami v rámci Hadoopu cez Hive, GIS Tools for Hadoop od ESRI, ale zdá sa, že musím mať svoje dáta v ESRI JSON a nemám nástroje ESRI na prevod moje údaje do tohto formátu.

Existuje nejaký alternatívny spôsob načítania geodát do Hadoopu alebo existuje spôsob, ako previesť moje súbory tvarov ESRI na ESRI JSON?


ST_Geometry for Hive v GIS Tools for Hadoop, môže načítať údaje z niekoľkých rôznych formátov: Well-Known Text (WKT), Well-Known Binary (WKB), GeoJSON, Esri JSON a súradnice ako zoznam čísel. V dokumentácii nájdete funkcie konštruktora.

Pokiaľ ide o tvarový súbor, môže byť užitočná java knižnica na čítanie tvarových súborov od Mansour Raada.


Funkcie GDAL ogr2ogr (http://www.gdal.org/) vám umožnia prevádzať tvarové súbory do ľubovoľného počtu formátov vrátane JSON a WKT. Použil som ho iba na priamy prechod na server SQL Server Spatial, takže neviem presné príkazy. Môžete ísť priamo na GDAL: alebo môžete vyskúšať QGIS (http://www.qgis.org/en/site/) a získať ArcMap ako UI, z ktorého by ste mohli pracovať priamo, ale našiel som že najlepšie výsledky konverzie dosahujem pomocou programu OSGeo4W Shell (https://trac.osgeo.org/osgeo4w/) na písanie príkazov.

Môže záležať na tom, aké tvary používate. Úspešne som importoval polygóny priamo do SQL pomocou programu ogr2ogr, ale použitie QGIS na prevod na WKT alebo JSON môže často skrátiť zložité polygóny.


HDFS je primárne distribuované úložisko používané aplikáciami Hadoop. Klaster HDFS pozostáva primárne z NameNode, ktorý spravuje metadáta súborového systému, a DataNodes, ktoré ukladajú skutočné údaje. Sprievodca architektúrou HDFS podrobne popisuje HDFS. Táto používateľská príručka sa primárne zaoberá interakciou používateľov a správcov s klastrami HDFS. Diagram architektúry HDFS zobrazuje základné interakcie medzi NameNode, DataNodes a klientmi. Klienti kontaktujú NameNode so žiadosťou o metadáta súboru alebo úpravy súboru a vykonajú skutočné I / O súbory priamo s DataNodes.

Nasleduje niekoľko dôležitých funkcií, ktoré by mohli zaujímať mnohých používateľov.

Hadoop, vrátane HDFS, je vhodný na distribuované úložisko a distribuované spracovanie pomocou komoditného hardvéru. Je odolný voči chybám, škálovateľný a jeho rozšírenie je mimoriadne jednoduché. MapReduce, dobre známy pre svoju jednoduchosť a použiteľnosť pre veľkú skupinu distribuovaných aplikácií, je neoddeliteľnou súčasťou Hadoop.

HDFS je vysoko konfigurovateľný s predvolenou konfiguráciou vhodnou pre mnoho inštalácií. Konfiguráciu je väčšinou potrebné vyladiť iba pre veľmi veľké klastre.

Program Hadoop je napísaný v prostredí Java a je podporovaný na všetkých hlavných platformách.

Hadoop podporuje príkazy podobné škrupine pre priamu interakciu s HDFS.

NameNode a Datanodes majú zabudované webové servery, ktoré uľahčujú kontrolu aktuálneho stavu klastra.

V systéme HDFS sú pravidelne implementované nové funkcie a vylepšenia. Nasleduje podmnožina užitočných funkcií v HDFS:

Povolenia súborov a autentifikácia.

Povedomie o racku: zohľadnenie fyzického umiestnenia uzla pri plánovaní úloh a prideľovaní úložiska.

Safemode: administratívny režim pre údržbu.

fsck: pomôcka na diagnostiku stavu súborového systému, na vyhľadanie chýbajúcich súborov alebo blokov.

fetchdt: pomôcka na načítanie DelegationToken a jeho uloženie do súboru v lokálnom systéme.

Balancer: nástroj na vyváženie klastra, keď sú údaje nerovnomerne rozdelené medzi DataNodes.

Upgrade and rollback: after a software upgrade, it is possible to rollback to HDFS & # x2019 state before the upgrade for neočakávaných problémov.

Sekundárny NameNode: vykonáva periodické kontrolné body menného priestoru a pomáha udržiavať veľkosť súboru obsahujúceho protokol úprav HDFS v určitých medziach v NameNode.

Uzol kontrolného bodu: vykonáva pravidelné kontrolné body menného priestoru a pomáha minimalizovať veľkosť protokolu uloženého v NameNode, ktorý obsahuje zmeny v HDFS. Nahrádza rolu predtým vyplnenú sekundárnym menným uzlom, aj keď ešte nie je vylepšená. NameNode umožňuje súčasne viac uzlov Checkpoint, pokiaľ v systéme nie sú zaregistrované žiadne záložné uzly.

Záložný uzol: Rozšírenie uzla Checkpoint. Okrem kontrolného bodu prijíma tiež prúd úprav z NameNode a udržiava svoju vlastnú pamäťovú kópiu priestoru mien, ktorá je vždy synchronizovaná s aktívnym stavom priestoru mien NameNode. S NameNode môže byť naraz zaregistrovaný iba jeden Záložný uzol.


Metódy a techniky GIS

1.11.2.2 Iskra

Apache Spark ( Obr ) je výpočtový rámec v pamäti na spracovanie rozsiahlych údajov.

Obr. Ekosystém Apache Spark.

Spark využíva veľké množstvo pamäte vytvorením štruktúry zvanej Resilient Distributed Dataset (RDD). RDD umožňuje transparentné ukladanie údajov v pamäti a v prípade potreby môže uložené údaje uchovať na disku. V porovnaní s Hadoop dosiahol Spark výrazné zlepšenie výpočtového výkonu elimináciou častého čítania a zápisu na disk. Ďalšou výhodou programu Spark je to, že stav pridelených výpočtových prostriedkov výpočtovej úlohe sa zachováva až do dokončenia úlohy, čo sa líši od stavu Hadoop, kde sú zdroje často poskytované a uvoľňované dokonca aj pre rovnakú úlohu. V analýze priestorových údajov, kde sa vyžaduje reťazec viacerých analýz, má Spark zjavnú výhodu oproti Hadoopu kvôli rozdielnym výpočtovým zdrojom a mechanizmom procesu. Aj pre priestorové analýzy, ktoré majú iterácie, môže Spark jasne prekonať Hadoop. Ďalšou silnou stránkou programu Spark je to, že do rámca zahrnul aj podporu streamovacích procesov, strojového učenia a grafického spracovania. Preto je Spark pre priestorovú analýzu v reálnom čase ideálnou platformou. Rámec má navyše rozhrania pre viac programovacích jazykov, ako sú Python a R.


2.3 Rámec spracovania obrazu Oracle Big Data Spatial Hadoop Image pre spracovanie rastrových údajov

Rámec Oracle Spatial Hadoop Image Processing Framework umožňuje vytvárať nové kombinované obrázky, ktoré sú výsledkom série fáz spracovania paralelne s nasledujúcimi funkciami:

Úložisko obrázkov HDFS, kde je každé rozdelenie veľkosti bloku uložené ako samostatný obrázok

Podmnožina a užívateľom definované operácie spracovávané paralelne pomocou rámca MapReduce

Možnosť transparentným spôsobom pridať vlastné triedy spracovania, ktoré sa majú vykonávať paralelne

Rýchle spracovanie georeferencovaných obrázkov

Podpora formátov GDAL, viacpásmových obrázkov, DEM (modely s digitálnou výškou), hĺbky viacerých pixelov a SRID

Rámec na spracovanie obrazu Oracle Spatial Hadoop sa skladá z dvoch modulov, nakladača a procesora, z ktorých každý predstavuje úlohu Hadoop bežiacu na rôznych stupňoch klastra, ako je znázornené v nasledujúcom diagrame. Obrázky môžete tiež načítať a spracovať pomocou webovej aplikácie Image Server.

Informácie o inštalácii a konfigurácii nájdete na stránke:

2.3.1 Image Loader

Image Loader je úloha Hadoop, ktorá načíta konkrétny obrázok alebo skupinu obrázkov do HDFS.

Počas importu je obrázok vykachličkovaný a uložený ako blok HDFS.

GDAL sa používa na obkladanie obrázka.

Každá dlaždica je načítaná iným mapovačom, takže čítanie je paralelné a rýchlejšie.

Každá dlaždica obsahuje určitý počet prekrývajúcich sa bajtov (vstup používateľa), takže oblasť pokrytia dlaždice tvorí susedné dlaždice.

Úloha MapReduce používa mapovač na načítanie informácií pre každú dlaždicu. Počet mapovačov je „n“ v závislosti od počtu dlaždíc, rozlíšenia obrázka a veľkosti bloku.

Jedna fáza redukcie na obrázok spojí všetky informácie načítané mapovačmi a obrázky uloží do špeciálneho formátu .ohif, ktorý obsahuje rozlíšenie, pásma, posuny a obrazové údaje. Takto je známy offset súboru, ktorý obsahuje každú dlaždicu a umiestnenie uzla.

Každá dlaždica obsahuje informácie o každom pásme. To je užitočné, keď je potrebné spracovať iba niekoľko dlaždíc, potom sa načítajú iba príslušné bloky.

Nasledujúci diagram predstavuje proces načítania obrázkov:


Popis ilustrácie image_loader_job.png

2.3.2 Obrazový procesor

Obrazový procesor je úloha Hadoop, ktorá filtruje dlaždice, ktoré sa majú spracovať na základe vstupu používateľa, a paralelne vykonáva spracovanie, aby vytvorila nový obrázok.

Spracuje konkrétne dlaždice obrázka identifikované používateľom. Môžete identifikovať jednu, nulu alebo viac tried spracovania. Po vykonaní tried spracovania sa vykoná mozaiková operácia na prispôsobenie pixelov do výsledného výstupného formátu požadovaného používateľom.

Mapovač načíta údaje zodpovedajúce jednej dlaždici, čím šetrí lokalitu údajov.

Po načítaní údajov mapovač filtruje pásma požadované používateľom.

Filtrované informácie sú spracované a odoslané každému mapovačovi vo fáze redukcie, kde sú spojené bajty a výsledný spracovaný obraz je uložený do HDFS alebo bežného súborového systému v závislosti od požiadavky používateľa.

Nasledujúci diagram predstavuje úlohu obrazového procesora:


Popis ilustrácie image_processor_job.png

2.3.3 Obrazový server

Image Server je webová aplikácia, ktorá vám umožňuje načítať a spracovávať obrázky z rôznych a rôznych zdrojov, najmä zo systému súborov Hadoop File System (HDFS). Tento server Oracle Image Server má dve hlavné aplikácie:

Rastrové spracovanie obrazu na vytvorenie katalógov zo zdrojových obrázkov a ich spracovanie do jednej jednotky. Môžete si tiež pozrieť miniatúry obrázkov.

Konfigurácia konzoly Hadoop, server aj konzola. Pripojí sa ku klastru Hadoop na načítanie obrázkov do HDFS na ďalšie spracovanie.


Načítavajú sa údaje Avro do novej tabuľky

Údaje Avro môžete načítať do novej tabuľky nasledujúcimi spôsobmi:

  • Používanie cloudovej konzoly.
  • Použitie príkazu bq load v nástroji príkazového riadku bq.
  • Volanie metódy API jobs.insert a konfigurácia úlohy načítania.
  • Používanie knižníc klientov.

Postup načítania údajov Avro z cloudového úložiska do novej tabuľky BigQuery:

Konzola

V cloudovej konzole otvorte stránku BigQuery.

V Prieskumník panel, rozbaľte svoj projekt a vyberte množinu údajov.

Rozbaliť more_vert Akcie možnosť a kliknite na Otvorené.

Na paneli podrobností kliknite na ikonu Vytvorte tabuľku add_box.

Na Vytvorte tabuľku stránke na stránke Zdroj časť:

Pre Vytvoriť tabuľku z, vyberte Cloudové úložisko Google.

V poli zdroja vyhľadajte alebo zadajte identifikátor URI cloudového úložiska. Upozorňujeme, že do cloudovej konzoly nemôžete zahrnúť viac identifikátorov URI, ale zástupné znaky sú podporované. Vedro cloudového úložiska musí byť na rovnakom mieste ako množina údajov, ktorá obsahuje tabuľku, ktorú vytvárate.

Pre Formát súboru, vyberte Avro.

Na Vytvorte tabuľku stránke na stránke Destinácia časť:

Pre Názov množiny údajov, vyberte vhodný súbor údajov.

Overte si to Typ stola je nastavený na Natívna tabuľka.

V Názov tabuľky do poľa zadajte názov tabuľky, ktorú vytvárate v nástroji BigQuery.

V Schéma časti nie sú potrebné žiadne kroky. Schéma je sama opísaná v súboroch Avro.

(Voliteľné) Ak chcete rozdeliť tabuľku, vyberte možnosti v priečinku Nastavenia oddielov a klastrov. Ďalšie informácie nájdete v časti Vytváranie rozdelených tabuliek.

(Voliteľné) Pre Filter rozdelenia, kliknite na ikonu Vyžadovať filter oddielov políčko vyžadujúce od používateľov, aby zahrnuli klauzulu WHERE, ktorá špecifikuje oblasti, ktoré sa majú dotazovať. Vyžadovanie filtra oddielov môže znížiť náklady a zvýšiť výkon. Ďalšie informácie nájdete v téme Dotazovanie na rozdelené tabuľky. Táto možnosť nie je k dispozícii, ak Žiadne rozdelenie je vybratá.

(Voliteľné) Na zoskupenie tabuľky v priečinku Poradie zoskupenia do poľa zadajte jeden až štyri názvy polí.

(Voliteľné) Kliknite Pokročilé nastavenia.

  • Pre Napíšte preferenciu, odísť Napíš, ak je prázdne vybraný. Táto možnosť vytvorí novú tabuľku a načíta do nej vaše údaje.
  • Pre Neznáme hodnoty, odísť Neznáme hodnoty ignorujte vyčistený. Táto možnosť sa vzťahuje iba na súbory CSV a JSON.
  • Pre Šifrovanie, kliknite Kľúč spravovaný zákazníkom používať kľúč služby Cloud Key Management Service. Ak opustíte Kľúč spravovaný Googlom nastavenie BigQuery zašifruje údaje v pokoji.

Kliknite Vytvorte tabuľku.

Po vytvorení tabuľky môžete aktualizovať vypršanie platnosti, popis a štítky tabuľky, nemôžete však pridať vypršanie platnosti oddielu po vytvorení tabuľky pomocou služby Cloud Console. Ďalšie informácie nájdete v časti Správa tabuliek.

Použite príkaz bq load, zadajte AVRO pomocou príznaku --source_format a zahrňte URI cloudového úložiska. Môžete zahrnúť jeden URI, zoznam URI oddelený čiarkami alebo URI obsahujúci zástupný znak.

(Voliteľné) Zadajte príznak --location a nastavte hodnotu pre svoje umiestnenie.

Medzi ďalšie voliteľné príznaky patrí:

  • --time_partitioning_type: umožňuje časové rozdelenie na stôl podľa času a nastaví typ oddielu. Možné hodnoty sú HODINA, DEŇ, MESIAC a ROK. Tento príznak je voliteľný, keď vytvárate tabuľku rozdelenú na stĺpce DATE, DATETIME alebo TIMESTAMP. Predvolený typ oddielu pre rozdelenie podľa času je DAY.
  • --time_partitioning_expiration: celé číslo, ktoré určuje (v sekundách), kedy má byť časovo rozdelený oddiel vymazaný. Čas vypršania platnosti sa vyhodnotí k dátumu UTC oddielu plus celočíselná hodnota.
  • --time_partitioning_field: stĺpec DATE alebo TIMESTAMP použitý na vytvorenie rozdelenej tabuľky. Ak je rozdelenie podľa času povolené bez tejto hodnoty, vytvorí sa rozdelená tabuľka podľa času.
  • --require_partition_filter: Ak je táto možnosť povolená, vyžaduje táto možnosť, aby používatelia zahrnuli klauzulu WHERE, ktorá určuje oddiely, ktoré sa majú dotazovať. Vyžadovanie filtra oddielov môže znížiť náklady a zvýšiť výkon. Ďalšie informácie nájdete v téme Dotazovanie na rozdelené tabuľky.
  • --clustering_fields: Čiarkami oddelený zoznam až štyroch názvov stĺpcov použitých na vytvorenie zoskupenej tabuľky.

--destination_kms_key: Kľúč Cloud KMS na šifrovanie údajov tabuľky.

Viac informácií o rozdelených tabuľkách nájdete na:

Ďalšie informácie o zoskupených tabuľkách nájdete na tejto stránke:

Ďalšie informácie o šifrovaní tabuľky nájdete na stránke:

Ak chcete načítať údaje Avro do nástroja BigQuery, zadajte nasledujúci príkaz:

  • poloha je vaša poloha. Príznak --location je voliteľný. Napríklad ak používate BigQuery v oblasti Tokia, môžete nastaviť hodnotu vlajky na # asia-severovýchod1. Predvolenú hodnotu pre umiestnenie môžete nastaviť pomocou súboru .bigqueryrc.
  • formát je AVRO.
  • dataset je existujúci dataset.
  • table je názov tabuľky, do ktorej načítavate údaje.
  • path_to_source je plne kvalifikovaný identifikátor URI cloudového úložiska alebo zoznam URI oddelený čiarkami. Podporované sú aj zástupné znaky.

Nasledujúci príkaz načíta dáta z gs: //mybucket/mydata.avro do tabuľky s názvom mytable v mydataset.

Nasledujúci príkaz načíta údaje z gs: //mybucket/mydata.avro do rozdelenej tabuľky s časom príchodu s názvom mytable v mydataset.

Nasledujúci príkaz načíta dáta z gs: //mybucket/mydata.avro do rozdelenej tabuľky s názvom mytable v mydataset. Tabuľka je rozdelená na stĺpce mytimestamp.

Nasledujúci príkaz načíta údaje z viacerých súborov v gs: // mybucket / do tabuľky s názvom mytable v mydataset. Identifikátor URI cloudového úložiska používa zástupný znak.

Nasledujúci príkaz načíta údaje z viacerých súborov v gs: // mybucket / do tabuľky s názvom mytable v mydataset. Príkaz obsahuje zoznam oddelených identifikátorov URI cloudového úložiska so zástupnými znakmi.

Vytvorte úlohu načítania, ktorá ukazuje na zdrojové údaje v Cloud Storage.

(Voliteľné) Zadajte svoje umiestnenie vo vlastnosti location v sekcii jobReference prostriedku úlohy.

Vlastnosť zdrojových identifikátorov URI musí byť úplná vo formáte gs: // bucket / object. Každý URI môže obsahovať jeden zástupný znak & # 39 & # 42 & # 39.

Zadajte formát údajov Avro nastavením vlastnosti sourceFormat na AVRO.

Ak chcete skontrolovať stav úlohy, zavolajte na jobs.get (job_id *), kde job_id je ID úlohy vrátenej pôvodnou požiadavkou.

  • Ak status.state = HOTOVO, úloha bola úspešne dokončená.
  • Ak je vlastnosť status.errorResult k dispozícii, požiadavka zlyhala a tento objekt bude obsahovať informácie popisujúce, čo sa stalo. Ak požiadavka zlyhá, nevytvorí sa žiadna tabuľka a nenačítajú sa žiadne údaje.
  • Ak status.errorResult chýba, úloha sa úspešne dokončila, aj keď sa mohli vyskytnúť niektoré nezávažné chyby, napríklad problémy s importom niekoľkých riadkov. Nezávažné chyby sú uvedené vo vlastnosti vráteného objektu úlohy & # 39s status.errors.

Zaťažovacie úlohy sú atómové a konzistentné, ak zlyhajú pri načítaní, nie sú k dispozícii žiadne údaje a ak je načítanie úspešné, sú k dispozícii všetky údaje.

Ako najlepší postup vygenerujte jedinečné ID a pri volaní jobs.insert ho odovzdajte ako jobReference.jobId, aby ste vytvorili úlohu načítania. Tento prístup je odolnejší voči zlyhaniu siete, pretože klient môže dopytovať alebo skúsiť znova so známym ID úlohy.

Volanie jobs.insert na danom ID úlohy je idempotentné. Môžete to skúsiť toľkokrát, koľkokrát chcete, na rovnakom ID úlohy a maximálne jedna z týchto operácií bude úspešná.

Node.js

Pred vyskúšaním tejto ukážky postupujte podľa pokynov na nastavenie Node.js v Rýchlom spustení BigQuery pomocou klientskych knižníc. Ďalšie informácie nájdete v referenčnej dokumentácii rozhrania BigQuery Node.js API.

Python

Pred vyskúšaním tejto ukážky postupujte podľa pokynov na nastavenie Pythonu v Rýchlom spustení BigQuery pomocou klientskych knižníc. Ďalšie informácie nájdete v referenčnej dokumentácii rozhrania BigQuery Python API.


Načítavajú sa vnorené a opakované údaje JSON

BigQuery podporuje načítanie vnorených a opakovaných údajov zo zdrojových formátov, ktoré podporujú objektové schémy, ako sú JSON, Avro, ORC, Parquet, Firestore a Datastore.

V každom riadku musí byť jeden objekt JSON vrátane akýchkoľvek vnorených alebo opakovaných polí.

Nasledujúci príklad ukazuje vzorové vnorené / opakované údaje. Táto tabuľka obsahuje informácie o ľuďoch. Skladá sa z nasledujúcich polí:

  • id
  • krstné meno
  • priezvisko
  • dob (dátum narodenia)
  • adresy (vnorené a opakované pole)
    • addresses.status (súčasný alebo predchádzajúci)
    • adresy.adresa
    • adresy.mesto
    • adresy.štát
    • adresy.zip
    • addresses.numberOfYears (roky na adrese)

    Dátový súbor JSON bude vyzerať nasledovne. Všimnite si, že pole adresy obsahuje pole hodnôt (označené symbolom []).

    Schéma pre túto tabuľku by vyzerala takto:

    Informácie o zadávaní vnorenej a opakovanej schémy nájdete v časti Zadanie vnorených a opakovaných polí.


    2.4 Načítanie obrázka do Hadoopu pomocou Image Loader

    Prvým krokom pri spracovaní obrázkov pomocou rámca na spracovanie obrázkov Oracle Spatial a Graph Hadoop je skutočne mať obrázky v HDFS, po ktorých nasleduje ich rozdelenie na inteligentné dlaždice. Toto umožňuje spracovateľskej úlohe pracovať osobitne na každej dlaždici samostatne. Aplikácia Image Loader umožňuje paralelný import jedného obrázka alebo ich súboru do systému HDFS, čo skracuje dobu načítania.

    Image Loader importuje obrázky zo súborového systému do HDFS, kde každý blok obsahuje údaje o všetkých pásmach obrazu, takže ak je na konkrétnych pozíciách potrebné ďalšie spracovanie, je možné informácie spracovať na jednom uzle.

    2.4.1 Úloha načítania obrázkov

    Úloha načítania obrázka má svoj vlastný vstupný formát, ktorý rozdelí obrázok na súvisiace rozdelenia obrázkov. Rozdelenia sa počítajú na základe algoritmu, ktorý číta štvorcové bloky obrazu pokrývajúce definovanú oblasť, ktorú určuje

    area = ((blockSize - metadata bytes) / number of band) / bytes per pixel.

    Pre tie kúsky, ktoré nepoužívajú celú veľkosť bloku, sa zvyšné bajty znovu naplnia nulami.

    Rozdelenia sú priradené rôznym mapovačom, kde sa každá priradená dlaždica číta pomocou GDAL na základe informácií ImageSplit. Vo výsledku sa vytvorí a v kontexte uloží inštancia ImageDataWritable.

    Metadáta nastavené v inštancii ImageDataWritable používajú triedy spracovania na nastavenie dlaždicového obrázka, aby s ním mohli manipulovať a spracovať ho. Pretože zdrojové obrázky sa načítajú z viacerých mapovačov, načítanie sa vykonáva paralelne a rýchlejšie.

    Po dokončení čítania mapovačov reduktor vezme dlaždice z kontextu a spojí ich, aby uložil súbor do HDFS. Na spätné načítanie obrázka je potrebný špeciálny proces čítania.

    2.4.2 Vstupné parametre

    Nasledujúce vstupné parametre sa dodávajú do príkazu Hadoop:

    • SOURCE_IMGS_PATH je cesta k zdrojovým obrázkom alebo priečinkom. Pre viac vstupov použite oddeľovač čiarok. Táto cesta musí byť prístupná cez NFS ku všetkým uzlom v klastri.
    • HDFS_OUTPUT_FOLDER je výstupný priečinok HDFS, kde sú uložené načítané obrázky.
    • OVERLAPPING_PIXELS je voliteľný počet prekrývajúcich sa pixelov na okrajoch každej dlaždice, ak tento parameter nie je zadaný, použije sa predvolená hodnota dvoch prekrývajúcich sa pixelov.
    • GDAL_LIB_PATH je cesta, kde sa nachádzajú knižnice GDAL.
    • GDAL_DATA_PATH je cesta, kde sa nachádza priečinok s údajmi GDAL. Táto cesta musí byť prístupná cez NFS do všetkých uzlov v klastri.
    • THUMBNAIL_PATH je voliteľná cesta na uloženie miniatúry načítaných obrázkov. Táto cesta musí byť prístupná cez NFS do všetkých uzlov v klastri a musí mať povolenie na zápis pre používateľov priadze.
    • -expand kontroluje, či cesta HDFS načítaného rastra rozširuje cestu zdroja vrátane všetkých adresárov. Ak nastavíte túto hodnotu na hodnotu false, súbor .ohif sa uloží priamo do výstupného adresára (zadaného pomocou možnosti -o) bez toho, aby sa táto cesta k adresáru & rsquos zahrnula do rastra.
    • -extractLogs určuje, či sa majú protokoly spustenej aplikácie extrahovať do dočasného systémového adresára. Predvolene nie je povolená. Extrakcia nezahŕňa protokoly, ktoré nie sú súčasťou tried Oracle Framework.
    • -logFilter & ltLINES_TO_INCLUDE_IN_LOG & gt je reťazec oddelený čiarkami, ktorý uvádza všetky vzory, ktoré sa majú zahrnúť do extrahovaných protokolov, napríklad na zahrnutie balíkov vlastných tried spracovania.

    Napríklad nasledujúci príkaz načíta všetky georeferencované obrázky do priečinka s obrázkami a pridá prekrytie 10 pixelov na každé možné ohraničenie. Výstupný priečinok HDFS je ohiftest a miniatúry načítaného obrázka sa uložia do priečinka processtest.

    V predvolenom nastavení sú mapovače a reduktory nakonfigurované na získanie 2 GB JVM, ale používatelia môžu toto nastavenie alebo iné vlastnosti konfigurácie úlohy prepísať pridaním súboru vlastností imagejob.prop do rovnakého umiestnenia priečinka, z ktorého sa vykonáva príkaz. Tento súbor vlastností môže obsahovať zoznam všetkých konfiguračných vlastností, ktoré chcete prepísať. Napríklad,

    Pamäť haldy Java (vlastnosti java.opts) musí byť rovnaká alebo menšia ako celková pamäť pridelená mapovačom a reduktorom (mapreduce.map.memory a mapreduce.reduce.memory). Ak teda zvýšite haldu pamäte Java, možno budete musieť zvýšiť pamäť aj pre mapovače a reduktory.

    2.4.3 Výstupné parametre

    Reduktor generuje dva výstupné súbory na každý vstupný obrázok. Prvým z nich je súbor .ohif, ktorý sústreďuje všetky dlaždice pre zdrojový obrázok, každú dlaždicu môže spracovať mapovač spracovania ako samostatnú inštanciu. Interne je každá dlaždica uložená ako blok HDFS, bloky sú umiestnené vo viacerých uzloch, jeden uzol môže obsahovať jeden alebo viac blokov konkrétneho súboru .ohif. Ak nebol príznak & ndashexpand použitý, súbor .ohif je uložený v priečinku zadanom používateľom s príznakom -out pod / user / & ltUSER_EXECUTING_JOB & gt / OUT_FOLDER / & ltPARENT_DIRECTORIES_OF_SOURCE_RASTER & gt. V opačnom prípade bude súbor .ohif umiestnený na / user / & ltUSER_EXECUTING_JOB & gt / OUT_FOLDER / a súbor bude možné označiť ako original_filename.ohif.

    Druhým výstupom je súvisiaci súbor metadát so zoznamom všetkých častí obrázka a súradníc, ktoré každý z nich pokrýva. Súbor je umiestnený v HDFS pod umiestnením metadát a jeho názov je generovaný hašovaním pomocou názvu súboru ohif. Tento súbor je určený iba na interné použitie Oracle a obsahuje zoznam dôležitých metaúdajov zdrojového rastra. Niekoľko príkladov riadkov zo súboru metadát:

    Ak bol zadaný príznak -thumbnail, miniatúra zdrojového obrázka sa uloží do súvisiaceho priečinka. Toto je spôsob, ako vizualizovať preklad súboru .ohif. K protokolom vykonania úlohy je možné pristupovať pomocou príkazu yarn logs -applicationId & ltapplicationId & gt.


    101 Big Data Terms: The Big Data Glossary

    Každá oblasť má svoju vlastnú terminológiu, a preto existuje veľké množstvo pojmov veľkých dát, ktoré je potrebné poznať pri začatí kariéry v oblasti veľkých dát. Keď sa oboznámite s týmito pojmami a definíciami veľkých dát, budete pripravení podrobne sa ich naučiť. V tomto článku definujeme 101 termínov veľkých dát, ktoré by ste mali vedieť, aby ste mohli zahájiť kariéru v oblasti veľkých dát.

    A

    1. Algoritmus

    V informatike a matematike je algoritmus účinnou kategorickou špecifikáciou toho, ako vyriešiť zložitý problém a ako vykonať analýzu údajov. Skladá sa z niekoľkých krokov na použitie operácií s údajmi s cieľom vyriešiť konkrétny problém.

    2. Umelá inteligencia (AI)

    Populárny pojem Big Data, umelá inteligencia, je inteligencia demonštrovaná strojmi. AI je vývoj počítačových systémov na vykonávanie úloh, ktoré majú bežne ľudskú inteligenciu, ako je rozpoznávanie reči, vizuálne vnímanie, rozhodovanie a jazykoví prekladatelia atď.

    3. Automatická identifikácia a zber údajov (AIDC)

    Automatická identifikácia a zber dát (AIDC) je pojem veľkých dát, ktorý označuje metódu automatickej identifikácie a zhromažďovania dátových objektov pomocou výpočtového algoritmu a ich následného ukladania do počítača. Napríklad rádiofrekvenčná identifikácia, čiarové kódy, biometria, optické rozpoznávanie znakov, magnetické prúžky zahŕňajú algoritmy na identifikáciu zachytených dátových objektov.

    4. Avro

    Avro je rámec pre serializáciu údajov a vzdialené volanie procedúr vyvinuté pre projekt Hadoop. Používa JSON na definovanie protokolov a dátových typov a potom serializuje údaje v binárnej forme. Spoločnosť Avro poskytuje oboje

    • Formát serializácie pre trvalé údaje
    • Drátový formát pre komunikáciu medzi uzlami Hadoop a od zákazníckych programov k službám Hadoop.

    B

    5. Analýza správania

    Behaviorálna analýza je nedávny pokrok v obchodnej analýze, ktorý predstavuje nový pohľad na správanie klientov na platformách elektronického obchodu, webových / mobilných aplikáciách, online hrách atď. Umožňuje marketingovým pracovníkom dávať správne ponuky správnym zákazníkom v pravý čas.

    6. Business Intelligence

    Business Intelligence je súbor nástrojov a metodík, ktoré umožňujú analyzovať, spravovať a dodávať informácie, ktoré sú pre podnik relevantné. Zahŕňa nástroje na tvorbu prehľadov / dotazov a dashboard, ktorý sa nachádza v analytike. Technológie BI poskytujú predchádzajúce, súčasné a nadchádzajúce pohľady na obchodné operácie.

    7. Vedec veľkých dát

    Big Data Scientist je osoba, ktorá dokáže získať štruktúrované a neštruktúrované dátové body a na ich usporiadanie využiť svoje impozantné schopnosti v štatistike, matematike a programovaní. Využíva všetku svoju analytickú silu (kontextové porozumenie, priemyselné znalosti a pochopenie existujúcich predpokladov) na odhalenie skrytých riešení pre rozvoj podnikania.

    8. Biometria

    Biometrics je technológia Jamesa Bondisha spojená s analytikou na identifikáciu ľudí podľa jedného alebo viacerých fyzických znakov. Napríklad biometrická technológia sa používa na rozpoznávanie tváre, rozpoznávanie odtlačkov prstov, rozpoznávanie dúhovky atď.

    C.

    9. Kaskádové

    Kaskádovanie je vrstva pre abstrakciu softvéru, ktorá poskytuje vyššiu úroveň abstrakcie pre Apache Hadoop a Apache Flink. Je to open source framework, ktorý je k dispozícii pod licenciou Apache. Slúži na umožnenie vývojárom ľahko a rýchlo spracovať komplexné údaje v jazykoch založených na JVM, ako sú Java, Clojure, Scala, Rubi atď.

    10. Analýza podrobností záznamu hovoru (CDR)

    CDR obsahuje metadáta, t. J. Údaje o údajoch, ktoré telekomunikačná spoločnosť zhromažďuje o telefónnych hovoroch, ako napríklad dĺžka a čas hovoru. Analýza CDR poskytuje podnikom presné podrobnosti o tom, kedy, kde a ako sa uskutočňujú hovory na účely fakturácie a vykazovania. Metadáta CDR poskytujú informácie o

    • Keď sa uskutočňujú hovory (dátum a čas)
    • Ako dlho hovor trval (v minútach)
    • Kto komu volal (kontaktné číslo zdroja a miesta určenia)
    • Typ hovoru (prichádzajúci, odchádzajúci alebo bez poplatkov)
    • Koľko stojí hovor (na základe sadzby za minútu)

    11. Cassandra

    Cassandra je distribuovaný a otvorený systém správy databáz NoSQL. Je naplánované na správu veľkého množstva distribuovaných údajov cez komoditné servery, pretože poskytuje vysokú dostupnosť služieb bez bodu zlyhania. Pôvodne ho vyvinul Facebook a potom bol štruktúrovaný do formy kľúč - hodnota pod základom Apache.

    12. Údaje mobilného telefónu

    Dáta z mobilných telefónov sa objavili ako jeden z veľkých zdrojov dát, pretože generujú obrovské množstvo dát a veľa z nich je k dispozícii na použitie v analytických aplikáciách.

    13. Cloud Computing

    Cloud computing je jedným z povinne známych termínov veľkých dát. Jedná sa o nový výpočtový systém paradigmy, ktorý ponúka vizualizáciu výpočtových zdrojov, ktoré bežia na štandardnom vzdialenom serveri na ukladanie údajov, a poskytuje IaaS, PaaS a SaaS. Cloud Computing poskytuje IT služby, ako napríklad infraštruktúru, softvér, platformu, databázu, úložisko atď., Ako služby. Medzi jeho služby patrí flexibilné škálovanie, rýchla pružnosť, združovanie zdrojov, samoobsluha na požiadanie.

    14. Klastrová analýza

    Klastrová analýza je pojem veľkých dát súvisiaci s procesom zoskupovania navzájom podobných objektov v spoločnej skupine (klastri). Robí sa to na pochopenie podobností a rozdielov medzi nimi. Dôležitou úlohou prieskumnej ťažby údajov a bežných stratégií je analýza štatistických údajov v rôznych oblastiach, ako je analýza obrazu, rozpoznávanie vzorov, strojové učenie, počítačová grafika, kompresia údajov atď.

    15. Chukwa

    Apache Chukwa je open source rozsiahly systém zhromažďovania protokolov na monitorovanie veľkých distribuovaných systémov. Je to jeden z bežných termínov veľkých dát týkajúcich sa Hadoop. Je postavený na vrchole systému Hadoop Distributed File System (HDFS) a rámci Map / Reduce. Zdedí robustnosť a škálovateľnosť spoločnosti Hadoop. Program Chukwa obsahuje výkonnú a flexibilnú databázu nástrojov na monitorovanie, zobrazovanie a analýzu výsledkov, aby bolo možné zhromaždené údaje použiť najlepším možným spôsobom.

    16. Stĺpcová databáza / stĺpcovo orientovaná databáza

    Databáza, ktorá namiesto riadku ukladá údaje po stĺpcoch, je známa ako stĺpcovo orientovaná databáza.

    17. Komparatívna analyticky orientovaná databáza

    Comparative analytic je špeciálny typ technológie na dolovanie dát, ktorá porovnáva veľké súbory dát, viac procesov alebo iných objektov pomocou štatistických stratégií, ako je filtrovanie, analýza rozhodovacieho stromu, analýza vzorov atď.

    18. Komplexné spracovanie udalostí (CEP)

    Komplexné spracovanie udalostí (CEP) je proces analýzy a identifikácie údajov a ich kombinácie s cieľom odvodiť udalosti, ktoré sú schopné navrhnúť riešenie zložitých okolností. Hlavnou úlohou CEP je identifikovať / sledovať zmysluplné udalosti a reagovať na ne čo najskôr.

    D

    19. Dátový analytik

    Analytik údajov je zodpovedný za zhromažďovanie, spracovanie a vykonávanie štatistických analýz údajov. Analytik údajov objavuje spôsoby, ako je možné tieto údaje použiť na pomoc organizácii pri prijímaní lepších obchodných rozhodnutí. Je to jeden z termínov veľkých dát, ktoré definujú kariéru veľkých dát. Data analyst works with end business users to define the types of the analytical report required in business.

    20. Data Aggregation

    Data aggregation refers to the collection of data from multiple sources to bring all the data together into a common athenaeum for the purpose of reporting and/or analysis.

    The knowledge of one of the high-level programming languages is required to build a career in Big Data. Let’s check out which are the Top 3 Big Data Programming Languages for You!

    21. Dashboard

    It is a graphical representation of analysis performed by the algorithms. This graphical report shows different color alerts to show the activity status. A green light is for the normal operations, a yellow light shows that there is some impact due to operation and a red light signifies that the operation has been stopped. This alertness with different lights helps to track the status of operations and find out the details whenever required.

    22. Data Scientist

    Data Scientist is also a big data term that defines a big data career. A data scientist is a practitioner of data science. He is proficient in mathematics, statistics, computer science, and/or data visualization who establish data models and algorithms for complex problems to solve them.

    23. Data Architecture and Design

    In IT industry, Data architecture consists of models, policies standards or rules that control which data is aggregated, and how it is arranged, stored, integrated and brought to use in data systems. It has three phases

    • Conceptual representation of business entities
    • The logical representation of the relationships between business entities
    • The physical construction of the system for functional support

    24. Database administrator (DBA)

    DBA is the big data term related to a role which includes capacity planning, configuration, database design, performance monitoring, migration, troubleshooting, security, backups and data recovery. DBA is responsible for maintaining and supporting the rectitude of content and structure of a database.

    25. Database Management System (DBMS)

    Database Management System is software that collects data and provides access to it in an organized layout. It creates and manages the database. DBMS provides programmers and users a well-organized process to create, update, retrieve, and manage data.

    26. Data Model and Data Modelling

    Data Model is a starting phase of a database designing and usually consists of attributes, entity types, integrity rules, relationships and definitions of objects.

    Data modeling is the process of creating a data model for an information system by using certain formal techniques. Data modeling is used to define and analyze the requirement of data for supporting business processes.

    Looking for big data tools to start a big data career? Here are the Top 10 Open Source Big Data Tools in 2018.

    27. Data Cleansing

    Data Cleansing/Scrubbing/Cleaning is a process of revising data to remove incorrect spellings, duplicate entries, adding missing data, and providing consistency. It is required as incorrect data can lead to bad analysis and wrong conclusions.

    28. Document Management

    Document management, often, referred to as Document management system is a software which is used to track, store, and manage electronic documents and an electronic image of paper through a scanner. It is one of the basic big data terms you should know to start a big data career.

    29. Data Visualization

    Data visualization is the presentation of data in a graphical or pictorial format designed for the purpose of communicating information or deriving meaning. It validates the users/decision makers to see analytics visually so that they would be able to understand the new concepts. This data helps –

    • to derive insight and meaning from the data
    • in the communication of data and information in a more effective manner

    30. Data Warehouse

    The data warehouse is a system of storing data for the purpose of analysis and reporting. It is believed to be the main component of business intelligence. Data stored in the warehouse is uploaded from the operational system like sales or marketing.

    31. Drill

    The drill is an open source, distributed, low latency SQL query engine for Hadoop. It is built for semi-structured or nested data and can handle fixed schemas. The drill is similar in some aspects to Google’s Dremel and is handled by Apache.

    E

    32. Extract, Transform, and Load (ETL)

    ETL is the short form of three database functions extract, transform and load. These three functions are combined together into one tool to place them from one to another database.

    It is the process of reading data from a database.

    It is the process of conversion of extracted data in the desired form so that it can be put into another database.

    It is the process of writing data into the target database

    F

    33. Fuzzy Logic

    Fuzzy logic is an approach to computing based on degrees of truth instead of usual true/false (1 or 0) Boolean algebra.

    34. Flume

    Flume is defined as a reliable, distributed, and available service for aggregating, collecting, and transferring huge amount of data in HDFS. It is robust in nature. Flume architecture is flexible in nature, based on data streaming.

    G

    35. Graph Database

    A graph database is a group/collection of edges and nodes. A node typifies an entity i.e. business or individual whereas an edge typifies a relation or connection between nodes.

    You must remember the statement given by graph database experts –

    “If you can whiteboard it, you can graph it.”

    36. Grid Computing

    Grid computing is a collection of computer resources for performing computing functions using resources from various domains or multiple distributed systems to reach a specific goal. A grid is designed to solve big problems to maintain the process flexibility. Grid computing is often used in scientific/marketing research, structural analysis, web services such as back-office infrastructures or ATM banking etc.

    37. Gamification

    Gamification refers to the principles used in designing the game to improve customer engagement in non-game businesses. Different companies use different gaming principles to enhance interest in a service or product or simply we can say gamification is used to deepen their client’s relationship with the brand.

    H

    38. Hadoop User Experience (HUE)

    Hadoop User Experience (HUE) is an open source interface which makes Apache Hadoop’s use easier. It is a web-based application. It has a job designer for MapReduce, a file browser for HDFS, an Oozie application for making workflows and coordinators, an Impala, a shell, a Hive UI, and a group of Hadoop APIs.

    39. High-Performance Analytical Application (HANA)

    High-performance Analytical Application is a software/hardware scheme for large volume transactions and real-time data analytics in-memory computing platform from the SAP.

    40. HAMA

    Hama is basically a distributed computing framework for big data analytics based on Bulk Synchronous Parallel strategies for advanced and complex computations like graphs, network algorithms, and matrices. It is a Top-level Project of The Apache Software Foundation.

    Big Data Analytics is the field with a number of career opportunities. Let’s check out why is Big Data Analytics so important!

    41. Hadoop Distributed File System (HDFS)

    Hadoop Distributed File System (HDFS) is primary data storage layer used by Hadoop applications. It employs DataNode and NameNode architecture to implement distributed and Java-based file system which supplies high-performance access to data with high scalable Hadoop Clusters. It is designed to be highly fault-tolerant.

    42. HBase

    Apache HBase is the Hadoop database which is an open source, scalable, versioned, distributed and big data store. Some features of HBase are

    • Modular and linear scalability
    • Easy to use Java APIs
    • Configurable and automatic sharing of tables
    • Extensible JIRB shell

    43. Hive

    Hive is an open source Hadoop-based data warehouse software project for providing data summarization, analysis, and query. Users can write queries in the SQL-like language known as HiveQL. Hadoop is a framework which handles large datasets in the distributed computing environment.

    Ja

    44. Impala

    Impala is an open source MPP (massively parallel processing) SQL query engine which is used in computer cluster for running Apache Hadoop. Impala provides parallel database strategy to Hadoop so that user will be able to apply low-latency SQL queries on the data that is stored in Apache HBase and HDFS without any data transformation.

    K

    45. Key Value Stores / Key Value Databases

    Key value store or key-value database is a paradigm of data storage which is schemed for storing, managing, and retrieving a data structure. Records are stored in a data type of a programming language with a key attribute which identifies the record uniquely. That’s why there is no requirement of a fixed data model.

    L

    46. Load balancing

    Load balancing is a tool which distributes the amount of workload between two or more computers over a computer network so that work gets completed in small time as all users desire to be served faster. It is the main reason for computer server clustering and it can be applied with software or hardware or with the combination of both.

    47. Linked Data

    Linked data refers to the collection of interconnected datasets that can be shared or published on the web and collaborated with machines and users. It is highly structured, unlike big data. It is used in building Semantic Web in which a large amount of data is available in the standard format on the web.

    48. Location Analytics

    Location analytics is the process of gaining insights from geographic component or location of business data. It is the visual effect of analyzing and interpreting the information which is portrayed by data and allows the user to connect location-related information with the dataset.

    49. Log File

    A log file is the special type of file that allows users keeping the record of events occurred or the operating system or conversation between the users or any running software.

    M

    50. Metadata

    Metadata is data about data. It is administrative, descriptive, and structural data that identifies the assets.

    51. MongoDB

    MongoDB is an open source and NoSQL document-oriented database program. It uses JSON documents to save data structures with an agile scheme known a MongoDB BSON format. It integrates data in applications very quickly and easily.

    52. Multi-Dimensional Database (MDB)

    A multidimensional database (MDB) is a kind of database which is optimized for OLAP (Online Analytical Processing) applications and data warehousing. MDB can be easily created by using the input of relational database. MDB is the ability of processing data in the database so that results can be developed quickly.

    53. Multi-Value Database

    Multi-Value Database is a kind of multi-dimensional and NoSQL database which is able to understand three-dimensional data. These databases are enough for manipulating XML and HTML strings directly.

    Some examples of Commercial Multi-value Databases are OpenQM, Rocket D3 Database Management System, jBASE, Intersystem Cache, OpenInsight, and InfinityDB.

    54. Machine-Generated Data

    Machine generated data is the information generated by machines (computer, application, process or another inhuman mechanism). Machine generated data is known as amorphous data as humans can rarely modify/change this data.

    55. Machine Learning

    Machine learning is a computer science field that makes use of statistical strategies to provide the facility to “learn” with data on the computer. Machine learning is used for exploiting the opportunities hidden in big data.

    56. MapReduce

    MapReduce is a processing technique to process large datasets with the parallel distributed algorithm on the cluster. MapReduce jobs are of two types. “Map” function is used to divide the query into multiple parts and then process the data at the node level. “Reduce’ function collects the result of “Map” function and then find the answer to the query. MapReduce is used to handle big data when coupled with HDFS. This coupling of HDFS and MapReduce is referred to as Hadoop.

    57. Mahout

    Apache Mahout is an open source data mining library. It uses data mining algorithms for regression testing, performing, clustering, statistical modeling, and then implementing them using MapReduce model.

    N

    58. Network Analysis

    Network analysis is the application of graph/chart theory that is used to categorize, understand, and viewing relationships between the nodes in network terms. It is an effective way of analyzing connections and to check their capabilities in any field such as prediction, marketing analysis, and healthcare etc.

    59. NewSQL

    NewSQL is a class of modern relational database management system which provide the scalable performance same as NoSQL systems for OLTP read/write workloads. It is well-defined database system which is easy to learn.

    Want to extend your knowledge of Big Data? Here is the complete list of Big Data Blogs, just read and become a Big Data expert!

    60. NoSQL

    Widely known as ‘Not only SQL’, it is a system for the management of databases. This database management system is independent of the relational database management system. A NoSQL database is not built on tables, and it doesn’t use SQL for the manipulation of data.

    O

    61. Object Databases

    The database that stores data in the form of objects is known as the object database. These objects are used in the same manner as that of the objects used in OOP. An object database is different from the graph and relational databases. These databases provide a query language most of the time that helps to find the object with a declaration.

    62. Object-based Image Analysis

    It is the analysis of object-based images that is performed with data taken by selected related pixels, known as image objects or simply objects. It is different from the digital analysis that is done using data from individual pixels.

    63. Online Analytical Processing (OLAP)

    It is the process by which analysis of multidimensional data is done by using three operators – drill-down, consolidation, and slice and dice.

    • Drill-down is the capability provided to users to view underlying details
    • Consolidation is the aggregate of available
    • Slice and dice is the capability provided to users for selecting subsets and viewing them from various contexts

    64. Online transactional processing (OLTP)

    It is the big data term used for the process that provides users an access to the large set of transactional data. It is done in such a manner that users are able to derive meaning from the accessed data.

    65. Open Data Center Alliance (ODCA)

    OCDA is the combination of IT organizations over the globe. The main goal of this consortium is to increase the movement of cloud computing.

    66. Operational Data Store (ODS)

    It is defined as a location to collect and store data retrieved from various sources. It allows users to perform many additional operations on the data before it is sent for reporting to the data warehouse.

    67. Oozie

    It is the big data term used for a processing system that allows users to define a set of jobs. These jobs are written in different languages such as Pig, MapReduce, and Hive. Oozie allows users to link those jobs to one another.

    P

    68. Parallel Data Analysis

    The process of breaking an analytical problem into small partitions and then running analysis algorithms on each of the partitions simultaneously is known as parallel data analysis. This type of data analysis can be run either on the different systems or on the same system.

    69. Parallel Method Invocation (PMI)

    It is the system that allows program code to call or invoke multiple methods/functions simultaneously at the same time.

    70. Parallel Processing

    It is the capability of a system to perform the execution of multiple tasks simultaneously.

    71. Parallel Query

    A parallel query can be defined as a query that can be executed over multiple system threads in order to improve the performance.

    72. Pattern Recognition

    A process to classify or label the identified pattern in the process of machine learning is known as pattern recognition.

    73. Pentaho

    Pentaho, a software organization, provides open source Business Intelligence products those are known as Pentaho Business Analytics. Pentaho offers OLAP services, data integration, dashboarding, reporting, ETL, and data mining capabilities.

    74. Petabyte

    The data measurement unit equals to 1,024 terabytes or 1 million gigabytes is known as petabyte.

    Q

    75. Query

    A query is a method to get some sort of information in order to derive an answer to the question.

    Big Data world is steadily evolving with the time. Let’s have a look at the upcoming Big Data Trends in 2018.

    76. Query Analysis

    The process to perform the analysis of search query is called query analysis. The query analysis is done to optimize the query to get the best possible results.

    R

    77. R

    It is a programming language and an environment for the graphics and statistical computing. It is very extensible language that provides a number of graphical and statistical techniques such as nonlinear and linear modeling, time-series analysis, classical statistical tests, clustering, classification etc.

    78. Re-identification

    The data re-identification is a process that matches anonymous data with the available auxiliary data or information. This practice is helpful to find out the individual whom this data belongs to.

    79. Real-time Data

    The data that can be created, stored, processed, analyzed, and visualized instantly i.e. in milliseconds, is known as real-time data.

    80. Reference Data

    It is the big data term that defines the data used to describe an object along with its properties. The object described by reference data may be virtual or physical in nature.

    81. Recommendation Engine

    It is an algorithm that performs the analysis of various actions and purchases made by a customer on an e-commerce website. This analyzed data is then used to recommend some complementary products to the customer.

    82. Risk Analysis

    It is a process or procedure to track the risks of an action, project or decision. The risk analysis is done by applying different statistical techniques on the datasets.

    83. Routing Analysis

    It is a process or procedure to find the optimized routing. It is done with the use of various variables for transport to improve efficiency and reduce costs of the fuel.

    S

    84. SaaS

    It is the big data term used for Software-as-a-Service. It allows vendors to host an application and then make this application available over the internet. The SaaS services are provided in the cloud by SaaS providers.

    85. Semi-Structured Data

    The data, not represented in the traditional manner with the application of regular methods is known as semi-structured data. This data is neither totally structured nor unstructured but contains some tags, data tables, and structural elements. Few examples of semi-structured data are XML documents, emails, tables, and graphs.

    86. Server

    The server is a virtual or physical computer that receives requests related to the software application and thus sends these requests over a network. It is the common big data term used almost in all the big data technologies.

    87. Spatial Analysis

    The analysis of spatial data i.e. topological and geographic data is known as spatial analysis. This analysis helps to identify and understand everything about a particular area or position.

    88. Structured Query Language (SQL)

    SQL is a standard programming language that is used to retrieve and manage data in a relational database. This language is very useful to create and query relational databases.

    89. Sqoop

    It is a connectivity tool that is used to move data from non-Hadoop data stores to Hadoop data stores. This tool instructs Sqoop to retrieve data from Teradata, Oracle or any other relational database and to specify target destination in Hadoop to move that retrieved data.

    90. Storm

    Apache Storm is a distributed, open source, and real-time computation system used for data processing. It is one of the must-known big data terms, responsible to process unstructured data reliably in real-time.

    A big data certification validates your Big Data skills and helps you stand out of the crowd. Here is the list of best Big Data Certifications in 2018.

    T

    91. Text Analytics

    The text analytics is basically the process of the application of linguistic, machine learning, and statistical techniques on the text-based sources. The text analytics is used to derive an insight or meaning from the text data by application of these techniques.

    92. Thrift

    It is a software framework that is used for the development of the ascendable cross-language services. It integrates code generation engine with the software stack to develop services that can work seamlessly and efficiently between different programming languages such as Ruby, Java, PHP, C++, Python, C# and others.

    U

    93. Unstructured Data

    The data for which structure can’t be defined is known as unstructured data. It becomes difficult to process and manage unstructured data. The common examples of unstructured data are the text entered in email messages and data sources with texts, images, and videos.

    V

    94. Value

    This big data term basically defines the value of the available data. The collected and stored data may be valuable for the societies, customers, and organizations. It is one of the important big data terms as big data is meant for big businesses and the businesses will get some value i.e. benefits from the big data.

    95. Volume

    This big data term is related to the total available amount of the data. The data may range from megabytes to brontobytes.

    Ž

    96. WebHDFS Apache Hadoop

    WebHDFS is a protocol to access HDFS to make the use of industry RESTful mechanism. It contains native libraries and thus allows to have an access of the HDFS. It helps users to connect to the HDFS from outside by taking advantage of Hadoop cluster parallelism. It also offers the access of web services strategically to all Hadoop components.

    97. Weather Data

    The data trends and patterns that help to track the atmosphere is known as the weather data. This data basically consists of numbers and factors. Now, real-time data is available that can be used by the organizations in a different manner. Such as a logistics company uses weather data in order to optimize goods transportation.

    X

    98. XML Databases

    The databases that support the storage of data in XML format is known as XML database. These databases are generally connected with the document-specific databases. One can export, serial, and put a query on the data of XML database.

    Y.

    99. Yottabyte

    It is the big data term related to the measurement of data. One yottabyte is equal to 1000 zettabytes or the data stored in 250 trillion DVDs.

    Z

    100. ZooKeeper

    It is an Apache software project and Hadoop subproject which provides open code name generation for the distributed systems. It also supports consolidated organization of the large-sized distributed systems.

    101. Zettabyte

    It is the big data term related to the measurement of data. One zettabyte is equal to 1 billion terabytes or 1000 exabytes.

    Spodná čiara

    Big data is not only a buzz word but the broad term that has a lot to learn. So, we have enlisted and described these Big Data terms that will be helpful in your big data career. Not to mention, it is important to validate your big data skills and knowledge for the bright career. And big data certifications are meant to demonstrate your big data skills to the employers.

    Whizlabs, the pioneer in Big Data Certifications Training , is aimed to help you learn and get certified in big data technologies. Whether you are a Hadoop or Spark professional, Whizlabs Hadoop Admin (HDPCA), Spark Developer (HDPCD), and CCA Administrator certification online training will prepare you for a bright future!

    Have any questions regarding these Big Data terms? Just write here or put a comment below, we’ll be happy to answer!


    How to load geographic data into Hadoop (Hive) and then to be able to call spatial functions on them? - Geografické informačné systémy

    Количество зарегистрированных учащихся: 17 тыс.

    Участвовать бесплатно

    Spatial (map) is considered as a core infrastructure of modern IT world, which is substantiated by business transactions of major IT companies such as Apple, Google, Microsoft, Amazon, Intel, and Uber, and even motor companies such as Audi, BMW, and Mercedes. Consequently, they are bound to hire more and more spatial data scientists. Based on such business trend, this course is designed to present a firm understanding of spatial data science to the learners, who would have a basic knowledge of data science and data analysis, and eventually to make their expertise differentiated from other nominal data scientists and data analysts. Additionally, this course could make learners realize the value of spatial big data and the power of open source software's to deal with spatial data science problems. This course will start with defining spatial data science and answering why spatial is special from three different perspectives - business, technology, and data in the first week. In the second week, four disciplines related to spatial data science - GIS, DBMS, Data Analytics, and Big Data Systems, and the related open source software's - QGIS, PostgreSQL, PostGIS, R, and Hadoop tools are introduced together. During the third, fourth, and fifth weeks, you will learn the four disciplines one by one from the principle to applications. In the final week, five real world problems and the corresponding solutions are presented with step-by-step procedures in environment of open source software's.

    Получаемые навыки

    Spatial Analysis, Qgis, Big Data, Geographic Information System (GIS)

    Рецензии

    Great course which starts with basics, gets descriptive with examples, real life scenarios, usage of software. Definitely recommended.

    Love the course! Explained very detail about spatial. Hope I can land my dream job soon that is related to spatial analysis.

    Spatial DBMS and Big Data Systems

    The fourth module is entitled to "Spatial DBMS and Big Data Systems", which covers two disciplines related to spatial data science, and will make learners understand how to use DBMS and Big Data Systems to manage spatial data and spatial big data. This module is composed of six lectures. The first two lectures will cover DBMS and Spatial DBMS, and the rest of the lectures will cover Big Data Systems. The first lecture "Database Management System (DBMS)" will introduce powerful functionalities of DBMS and related features, and limitations of conventional Relational DBMS for spatial data. The second lecture "Spatial DBMS" focuses on the difference of spatial DBMS from conventional DBMS, and new features to manage spatial data. The third lecture will give learners a brief overview of Big Data Systems and the current paradigm - MapReduce. The fourth lecture will cover Hadoop MapReduce, Hadoop Distributed File System (HDFS), Hadoop YARN, as an implementation of MapReduce paradigm, and also will present the first example of spatial big data processing using Hadoop MapReduce. The fifth lecture will introduce Hadoop ecosystem and show how to utilize Hadoop tools such as Hive, Pig, Sqoop, and HBase for spatial big data processing. The last lecture "Spatial Big Data System" will introduce two Hadoop tools for spatial big data - Spatial Hadoop and GIS Tools for Hadoop, and review their pros and cons for spatial big data management and processing.

    Преподаватели

    Joon Heo

    Текст видео

    In the previous lecture, you studied Hadoop that was designed for big data processing, and you also learned that it has some limitations as well as big advantages, so it may need some improvement to overcome the lack of functionalities, particularly regarding user's convenience. Can you use Hadoop in a more convenient manner? We'll discuss the answers to the question in this lecture. Hadoop Ecosystem refers to the various components of Apache Hadoop software library, as well as to the Hadoop related tools to address particular needs to overcome limitations of Hadoop itself. The figure presents the notable tools in Hadoop Ecosystem such as Hive, Pig, Sqoop, and HBase, that you will learn in more detail. Those Hadoop tools in the ecosystem can be categorized based on its design objective. Among them, a column-based NoSQL solution, HBase, a scripting solution for workflow, Pig, a SQL-like solution for workflow, Hive, and a convergent tool between RDBMS and HDFS Sqoop will be introduced with examples of spatial big data processing and management. Hive is originally developed for data warehouse software to facilitate querying and managing large dataset in distributed storage. Main advantage of Hive is to provide SQL-like language, HiveQL, which uses basic SQL such as Select, From, Where, Join, Group By, and so on. It is a Hadoop-based solution, so MapReduce and HDFS is being used behind the scene. Also, Hive allows users to plug in traditional mappers and reducers, when it is inefficient to use HiveQL. Let's process the same example in the previous lecture - Filter and visualize taxi drop-offs near LaGuardia Airport. Remember, it can be done in traditional MapReduce using Java. And I mentioned that it is too much hassle to conduct a SQL-like operation in MapReduce environment. Now, you are looking at an alternative solution using Hive. All you have to do is to import the data sets NewYork Taxi Trajectory, query and get the results and visualize the results. Much simpler than MapReduce. You're looking at the visualization of the results same as the outcome of MapReduce. Pig is platform for analyzing large datasets which is composed of a high-level scripting language and an engine for executing data flows in parallel on Hadoop. It provides language, Pig Latin, that includes most of traditional data operators such as Join, Sort, Filter and the ability for users to develop their own function for reading, processing and writing data. Pig runs on Hadoop, and obviously makes use of Hadoop MapReduce and HDFS. It basically makes it easy to write MapReduce program. Pig can be used in interactive mode – shell scripting, which is a line by line processing as you are looking at. The Pig-based solution for the same spatial big data processing was implemented. In which, data loading, filtering and exporting the results were conducted line by line. Pig solution can be also implemented in a batch mode as you are looking at the example. The line by line script in the previous slide can be saved in a script file, and Pig can call the script and a batch processing can be done. The same results as Hive and MapReduce were retrieved - taxi drop-offs near LaGuardia Airport. MapReduce is powerful but it requires hard coding Java, Python or C++. Even though it is much simpler than MPI, still complex to master. As mentioned it, MapReduce needs some improvement for user's convenience and the outcome for the needs, are the two solutions of Hive and Pig, with which users could manage and analyze big data using Hadoop and HDFS in more convenient manner. Sqoop is a tool, which is designed to transfer data between HDFS and relational databases. You can use Sqoop to import the data from a Relational Database Management System such as PostgreSQL, MySQL or Oracle into the HDFS to transform the data in Hadoop MapReduce and then to export the data back into an RDBMS. Now you're looking at conversion from HDFS of which filename is "green_tripdata_2014-01.csv" to a RDBMS table in MySQL of which name is "testnewyork". In the bottom, another conversion from my MySQL to Hive. Import "testnewyork" table in MySQL to "mysql_test" table in Hive. Certainly, with Sqoop, the opposite conversion from RDBMS table to HDFS and from Hive to RDBMS are also possible. As discussed, HDFS is designed for distributed storage and distributed computation and very good for batch processing. However, no facilities for accessing or updating individual data. HBase is an alternative solution, which is a column-based distributed database and capable of random access read and write. Additionally, it is good for sparse data and flexible to add new columns. HBase is another relational database and it does not provide a structured query language like SQL. In fact, HBase applications are written in Java just like a typical MapReduce application. HBase is originated from Google's Bigtable, and it is suited for handling very large tables for example billions of rows and millions of columns. A smart idea HBase is to apply column based partitioning to such a large table and to enable distributed operation of random access, updating, deleting individual item and eventually it achieves a better data management capability than HDFS. In the data model of HBase, each row is composed of rowkey and column families. The 'rowkey' should be unique and sorted, in order to preserve consistency and efficiency. Columns are grouped into column families. Physically, all column family members are sorted together on file system. So tuning in storage specifications are managed at the column family level, all column family members have the same general access pattern and size characteristics. Now you're looking at an HBase example. The sample dataset Seoul Taxi trajectory, a similar dataset to New York Taxi trajectory. Our design is following Rowkey is a combined string of carID and Time and two column families are made based on access pattern and data size which are 'properties' and ɼoordinates'. Based on the design, we created a database with the two column families using Java code. The next Java code is to load Seoul Taxi trajectory data into each HBase database. HBase provides only basic data model operations, Get, Put, Scan and Delete. Put is used to either to add new rows to a table if rowkey is new or to update existing rows if the rowkey already existed. Here, Put operation was used to load the data into HBase table. HBase also provides shell script. Using shell, a data retrieval is conducted from a HBase table which was just created. Using Get operation, the coordinate column family - Latitude and Longitude, X and Y are retrieved. Certainly, we could see Scan and Delete for other data management which is not feasible with HDFS. In this lecture, you just reviewed four tools in Hadoop Ecosystem. Hive, Pig, Sqoop and HBase which facilitate Hadoop in a more convenient manner. There are many many other tools. Now our question is - Is there any Hadoop tool for spatial big data? We will discuss the issue in the next lecture.


    A Deep Dive into NoSQL Databases: The Use Cases and Applications

    4.3.1 Apache Spark

    Apache Spark is a next-generation batch processing framework with stream processing capabilities. Spark focuses primarily on speeding up batch processing workloads by offering full in-memory computation and processing optimization. Spark can be deployed as a standalone cluster by pairing with a capable storage layer or can hook into Hadoop's HDFS. Spark, in the beginning, loads the data into memory, processes all the data in memory, and at the end, persists the final results in the disk storage. All intermediate results are fully kept and managed in memory.

    We all know that in-memory computing accelerates data processing drastically. That is, when data get stored in system memory rather on disk storages, the processing happens at 3000 times speedier. Spark is relatively fast on disk-related tasks because Spark brings forth a series of optimizations by analyzing the complete set of tasks ahead of time. It achieves this by creating DAGs, which represent all of the operations that must be performed, the data to be operated on, as well as the relationships between them, giving the processor a greater ability to intelligently coordinate work.

    Resilient distributed datasets (RDDs)—To implement an in-memory batch computation, Spark uses this proven RDD model to work with data. These are immutable structures that exist within memory that represent collections of data. Operations on RDDs can produce new RDDs and each RDD can trace its lineage back through its parent RDDs and ultimately to the data on disk. Through the concept of RDDs, Spark is able to maintain the much-needed fault tolerance without needing to write back to disk after each operation. Precisely speaking, Spark started its golden innings by performing batch processing.

    Spark Streaming is a newly introduced API in the Apache Spark family in order to simplify and speed upstream processing. Spark implements an original concept of microbatches to facilitate stream processing. The idea is to treat streams of data as a series of very small batches that can be handled using the native semantics of the batch engine. Spark Streaming works by buffering the stream in subsecond increments and they are sent as small fixed datasets for batch processing. This method can lead to different performance guarantees. Spark through its in-memory computing capability is able to do justice for both batch as well as streaming analytics. Adapting the batch methodology for stream processing can lead to buffering the data as it enters the system. The buffer helps to handle a high volume of incoming data and increasing the overall throughput. The problem here is that the waiting period to flush the buffer leads to high latency and hence for real-time processing, Spark is not a good fit. Ultimately Spark will replace the Hadoop's MapReduce module.

    The Spark deployment and operational model are quite unique and versatile. That is, Spark can be deployed as a standalone cluster or integrated with an existing Hadoop cluster. That is, a single cluster can do both batch and stream processing. Because of its innate strength, Spark is on the right track by adding additional libraries such as machine learning (ML), etc. GraphX is the Apache Spark's API for graphs and graph-parallel computation. GraphX is capable of unifying ETL, exploratory analysis, and iterative graph computation within a single system. We can view the same data as both graphs and collections, transform and join graphs with RDDs efficiently, and write custom iterative graph algorithms using the Pregel API.

    The principal advantages of Spark—There are many benefits being accrued out of the advancements happening in the Spark domain.

    Faster processing—Apache Spark essentially takes MapReduce to the next level with a performance that is significantly faster. Spark has the ability to hold intermediate results in memory itself instead of writing it back to disk and reading it again.

    Speed—Spark can execute batch processing jobs 10–100 times faster than MapReduce. That does not mean it lags behind when data have to be written to and fetched from disk.

    Ease of use—Apache Spark has easy-to-use APIs for easily operating on large datasets.

    Unified engine—Spark can run on top of Hadoop making use of its cluster manager (YARN) and underlying storage (HDFS, HBase, etc.). Also, it can run independently of Hadoop by joining hands with other cluster managers and storage platforms such as Cassandra and Amazon S3.

    Choose from Java, Scala, or Python—Spark supports all the prominent and dominant programming languages.

    In-memory data sharing—Different jobs can share data within the memory and this makes an ideal choice for iterative, interactive, and event stream processing tasks.

    As the relatively expensive memory is being used for computation, Spark is to cost more. However, the increased processing speed means that tasks can be completed faster and resultingly the cost of computation is on the lower side. Precisely speaking, Spark emerges as the one-stop solution for big data analytics.


    This section provides detailed descriptions of new features for the Adapter for Teradata.

    Support for Wide ODBC API

    A new interface for Teradata is introduced that is based on the wide ODBC API. This interface supports Unicode and offers better performance on some platforms (for example, Windows and Linux x64/x86) compared to the Teradata ODBC interface that is not utilizing the wide API. This wide ODBC API interface is supported with TTU v.15.0 or higher.

    READONLY Fields in Extended Bulk Load

    Loading into Teradata using Extended Bulk Load is now supported even when the server metadata contains READONLY fields. Such fields will be skipped and remained unchanged during loading.

    Distinguishing Between Macros and Stored Procedures

    The following Access File attribute has been introduced to identify whether the synonym represents a Teradata Macro or Stored Procedure.

    Support for Version 15.10

    The Teradata CLI and ODBC adapters support Read/Write access to Teradata Version 15.10.


    Pozri si video: Географическая широта и географическая долгота. Географические координаты. Видеоурок по географии (Október 2021).