GIS und BigData – ESRI und Hadoop

Zum Thema Big Data und GIS hatte ich ja schon das ein oder andere berichtet. Ich bin mir nicht sicher, ob Esri diese Nische gerade als einziger GIS Anbieter besetzt, oder ob ich nur deren Infos zu dem Thema mitbekomme. Deshalb noch mal schnell bei Google nachgeschaut und… in der Tat, die anderen scheinen da weniger aktiv zu sein…Wie dem auch sei: Hier ein Beitrag zu Esri und Hadoop.

Ein paar viertelwissende Grundlagen zu BigData: Es gibt einerseits so genannte „in memory“ Ansätze, bei denen die Daten in einen Speicher geladen werden und so schnell verfügbar sind. Andererseits gibt es Hadoop – hier handelt es sich um eine verteilte Architektur, d.h. die Daten und Berechnungen werden auf mehrere Rechner verteilt. Eine einfache und gute Einführung zu Hadoop befindet sich hier bei der Computerwoche.

Nun also der Schwenk zum GIS. Esri hat mit den GIS Tools für Hadoop ein Open Source Toolkit bereitgestellt, das es erlaubt, Unmengen von räumlichen Daten in Hadoop auf Basis räumlicher Kriterien zu filtern und zu aggregieren. Oder Flächen zu definieren Punkt-in-Polygon Auswertungen durchzuführen. Wieder mit Unmengen von Daten. Man kann aber auch die Ergebnisse kartographisch darstellen. Hört sich spannend an, zumal es in ArcGIS 10.1 integriert werden kann.


Ein Gedanke zu „GIS und BigData – ESRI und Hadoop

  1. ESRI versucht momentan die BigData Scene zu erorbern. Hierfür stehen derzeit 3 Entwicklungsschwerpunkte im Vordergrund:
    Esri Geometry API for Java:

    Wozu diese Entwicklung? Völlig sinnlos, da es bereits eine Vielzahl von Spatial API(s) für JAVA existieren (vgl. JTS oder Geotools). Kann sein das ESRI diese Bibliothek benötigt um Ihre propriätere Software an Hadoop zu binden- mit was-natürlich wieder mit einem (neuen) ESRI like Format.
    Warum nicht ein WKT oder JSON-Wrapper für ESRI-Objekte bereitstellen und dann JTS oder Geotools nutzen?
    Und wer benutzt im professionellen Bereich ESRI Technologie? Zur Beantwortung von räumlichen Fragestellungen haben sich (Geo) Datenbanken oder objekt-relationelle Erweiterungen wie PostGRES (GIS) oder Oracle Spatial durchgesetzt.
    Es ergibt auch keinen Sinn erst Massendaten in igendeine ESRI Geodatabase zu laden um die ESRI Geometry API zum Objektwrapping zu nutzen. Entweder man hat Massendaten d.h. dann sind traditionelle DB keine Alternative also benötige ich auch keinen Wrapper oder man hat keine Massendaten- dann brauche ich den Wrapper wiederum auch nicht- weil dann gehts mit DB- Boardmitteln oder wer bunte Buttons braucht hat mit ESRI Techn..

    Spatial Framework for Hadoop:

    Gute Idee – eine UDF zu schreiben macht sicher Arbeit. Bei Massendaten ist es aber wichtig, performanten Code zu schreiben. Ich kenne keine wissenschaftliche Publikation, die für ein Spatial Join oder Punkt in Polygon Test einen Algorithmus unter Berücksichtigung von Hadoop (Backend für HIVE) vorgestellt haben.
    bspw.
    select * from usertable a within location = MBR
    Scanner ->Lexer -> Parser ->Interpreter
    Bezieht der Interpreter Indizies ein oder nicht? Welcher Code wird erzeugt. Im schlimmsten Fall wird jeder Datensatz in der BigData Table mit dem MBR verglichen und am Ende das Ergebnis ausgegeben. Ob man sich so Massendatenverarbeitung vorstellt?
    Kurz: Ein UDF Statement zu parsen ist die eine Seite wirklich performant in der Suche zu sein die andere.

    Geoprocessing Tools for Hadoop:

    „Enable the exchange of data between an ArcGIS Geodatabase and a Hadoop system, and Allow ArcGIS users to run Hadoop workflow jobs.“
    Sinnlos, siehe Antwort 1
    Wenn ich Massendaten auswerten möchte, lade ich diese nicht vorab in eine ArcGIS Geodatabase…..

    Und bisher wurde nur von diskreten Daten gesprochen- wie will ESRI denn kontinuierliche Daten behandeln? (kontinuierliche Daten= Datenströme fallen per Definition auch unter Massendaten)

    Ciao Jens

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.