Clusteranalyse - Verfahren um Daten besser zu verstehen

Teil 2: Beispiele für Verfahren zur Klassifikation von Daten

 

Im ersten Teil dieses Artikels haben wir schon einiges über das statistische Verfahren der Clusteranalyse berichtet. Nun werden wir an den schon vorgestellten Beispieldaten zwei Algorithmen testen, welche beide das Ziel haben große Datenmengen in verhältnismäßiger Zeit zu klassifizieren. Dabei werden wir sehen, dass die Ergebnisse dabei sehr unterschiedlich ausfallen können.

 

Der k-Means Algorithmus

Abbildung 2: Plot k-Means Algorithmus

 

Dieser Algorithmus basiert darauf, dass zuvor eine feste Anzahl k von Klassen festgelegt werden muss und sich jede Klasse über ihren Schwerpunkt bzw. Mittelwert (engl. Mean) von den anderen unterschiedet. Vor der Analyse sollte also die Anzahl der vorliegenden Klassen bekannt sein. Im ersten Schritt werden zufällig k Objekte als Startwerte ausgewählt. Diese repräsentieren zunächst die k Klassen. Die restlichen Objekte werden derjenigen Klasse zugeordnet, zu dessen Startpunkt sie die größte Ähnlichkeit vorweisen. Nach erfolgreicher Zuteilung aller Objekte, werden pro Klasse die Schwerpunkte berechnet. Vergleichbar ist diese Berechnung mit der einfachen Mittelwertbildung über alle Objekte in einem Cluster. Mit den neuen Schwerpunkten als Startwerte beginnt der k-Means Algorithmus erneut. Das wird so lange wiederholt, bis kein Objekt mehr in einem Durchlauf einer anderen Klasse zugeordnet wird wie im Durchlauf zuvor. Die finale Einteilung ist dann das Ergebnis der Clusteranalyse.

 

Leider ist dieses Verfahren sehr von den initialen Startwerten abhängig (siehe Abb. 2). Die Anwendung auf den Beispieldatensatz zeigt ein zwar mathematisch völlig korrektes, jedoch auch nicht optimales Ergebnis. Zwei der vorliegenden Cluster wurden beinahe richtig erkannt (rot und schwarz). Die grüne Klasse umfasst zwei der fünf Anhäufungen, weshalb die letzte Blase in die beiden blauen Cluster geteilt wurde. Hätte das Verfahren mit anderen Startwerten begonnen, hätten alle Cluster wie erwartet zugeordnet werden können oder aber es wäre ein weiteres falsch interpretierbares Ergebnis herausgekommen.

 

Verhindern lässt sich dieses Phänomen dadurch, den gesamten Algorithmus mehrmals hintereinander auszuführen und mit Hilfe einer Gütefunktion das „beste“ Ergebnis zu bestimmen. In den meisten Fällen wird dann die natürliche Struktur innerhalb der Datenmenge richtig erkannt. Jede weitere Ausführung des Algorithmus verlängert jedoch die Laufzeit erheblich.

 

Der BIRCH Algorithmus

Abbildung 3: Plot BIRCH Algorithmus

 

Der BIRCH-Algorithmus besteht grundsätzlich aus zwei Schritten. Zunächst werden die Daten mit Hilfe einer Baumstruktur „vorklassifiziert“. In unserem Beispiel werden die 1 Mio. Objekte schon zu etwa nur noch 2000 Gruppen von Klassen zusammengefasst. Aufgrund der Reduzierung des Umfangs kann dann eine klassische Clusteranalyse auf die Daten angewendet werden. Diese Verfahren beruhen darauf, dass am Anfang jedes Objekt eine eigene Klasse darstellt. In jedem Schritt werden dann die zwei Klassen zusammengefügt, welche die größte Ähnlichkeit zueinander aufweisen und das Ergebnis wird zwischengespeichert, solange bis die nur noch eine allumfassende Klasse vorhanden ist. Der Algorithmus wählt dann das Ergebnis aus, das die Ähnlichkeit innerhalb eines Clusters und Unterschiede zwischen den Clustern am besten beschreibt.

Im Gegensatz zum k-Means wird also auch die Anzahl an vorhandenen Klassen selbstständig erkannt und das Endergebnis entspricht in den meisten Fällen der tatsächlich vorliegenden Struktur (siehe Abb. 3). Die bessere Genauigkeit dieser clusteranalytischen Verfahren wird jedoch aus einer sehr viel höheren Komplexität gewonnen. Im Klartext heißt dies, um brauchbare Ergebnisse mit BIRCH zu erzielen, sind sehr viel mehr statistische Kenntnisse nötig, um die maximale Effizienz aus dem Verfahren herauszuholen.

 

Fazit

 

Die Clusteranalyse kann in vielen Fällen helfen sich einen Überblick über große Datenmenge zu verschaffen. Besonders im Big Data Bereich ist dies nötig, um so Ausreißer zu identifizieren oder die Daten zu segmentieren. Die beiden vorgestellten Verfahren bieten dabei zusammengefasst folgende Vor- und Nachteile:

 

k-Means

Vorteile:
  • Einfach anzuwenden
  • Von vielen Statistik Programmen standardmäßig implementiert
  • Liefert in vielen Fällen ein brauchbares Ergebnis
NachteilE:
  • Klassenanzahl muss vorher bekannt sein
  • Ergebnis kann, abhängig von den Startwerten, eine andere Struktur als die natürliche Struktur wiedergeben
  • Erhöhte Genauigkeit erfordert sehr viel mehr Laufzeit

 

BIRCH

Vorteile:
  • In den meisten Fällen wird die natürliche Struktur erkannt
  • Variable Einstellung, um auf unterschiedliche Datenbeschaffungen einzugehen
  • Sehr schnelle Laufzeit, auch bei großen Datenmengen
  • Klassenanzahl wird selbstständig erkannt
Nachteile:
  • Verfahren nicht weit verbreitet in gängigen Statistikprogrammen
  • Hohes Maß an statistischen Wissen nötig
  • Durch die Vorklassifizierung geht Information verloren

 

Neben den beiden vorgestellten Algorithmen gibt es natürlich noch eine Vielzahl weiterer Methoden, die sich mit der gleichen Fragestellung befassen und die je nach Fall bessere und schlechtere Ergebnisse liefern können. Jedoch haben wir die Erfahrung gemacht, dass bereits diese beiden Verfahren ausreichen, um aus großen Datenmengen tiefgehende Erkenntnisse zu ziehen. Aus unserer Sicht ist die Clusteranalyse ein verhältnismäßig einfaches Verfahren, das statistisch verlässliche Insights liefert und damit ein fester Bestandteil im Repertoire eines Analysten sein sollte.  

 

 

 

 

 

 

 

Clusteranalyse - Verfahren um Daten besser zu verstehen

Teil 1: Was ist eine Clusteranalyse – Ein kleiner Einblick

Die Arbeit mit Datenmengen ist im Bereich Digital Analytics nicht wegzudenken. Neben dem Erfassen, Aufbereiten und Reporten sind auch vor allem spezifische Analysen der Daten ein wichtiger Bestandteil dieser Arbeit. Heute wollen wir ein ganz bestimmtes statistisches Verfahren vorstellen, die Clusteranalyse.

Das Ziel einer Clusteranalyse liegt darin, in einer Datenmenge Ähnlichkeiten und/oder Unterschiede festzustellen und auf dieser Grundlage die Objekte in Klassen (bzw. Cluster) einzuteilen. Dabei können die Verfahren die Datenmenge in eine vorher vorgegebene Anzahl von Klassen unterteilen oder auch komplett selbstständig Klassen identifizieren. Die in den Daten vorliegende Klasseneinteilung, welche von der Analyse erkannt werden soll, wird dabei natürliche Struktur genannt.

Zunächst klingt es nicht nach einer Herausforderung, aber gerade bei sehr großen Datenmengen oder bei Daten mit mehr als drei Merkmalen ist mit dem bloßen Auge das Auffinden von natürlichen Strukturen nicht mehr möglich. Insbesondere Daten im dreidimensionalen Raum können schlicht und einfach leicht erfasst werden und benötigen eine besondere Visualisierung.

 

Was bringt eine Klassifikation von Daten?

 Durch die Analyse sollen Hypothesen, welche im Voraus auf Grundlagen der Datenmenge getroffen wurden, mathematisch gestützt oder verworfen werden. Mit Hilfe der gefundenen Klassen können dann neue Aussagen über die Verteilung der Datenobjekte gemacht oder Vermutungen bestätigt werden. Oft erbringen Analysen auf den bereits klassifizierten Daten tiefere Erkenntnisse, als wenn sie auf der gesamten Datenmenge durchgeführt worden wären.

An einem Beispiel aus dem Alltag wird der Nutzen klarer. Stehen wir morgens vor dem Kleiderschrank können wir uns meisten mit wenig Handgriffen ein in den meisten Fällen tragbares Outfit zusammenstellen. Dies ist aber nur möglich, wenn wir unsere Klamotten vorher nach bestimmten Kategorien sortiert haben. Viele Menschen versuchen dabei zum Beispiel Hosen, Pullover, Socken etc. auf einem Stapel anzuordnen. Andere gehen sogar soweit die Kleider nach Farbe oder Jahreszeit zu ordnen. Je größer die Anzahl an Kleidungstücken dabei ist, umso mehr Sinn macht dabei eine feinere Sortierung. Denn die wenigstens haben wahrscheinlich Lust jeden Morgen aus einem riesigen Haufen Klamotten ein Paar passender Socken zu suchen.

Es gibt jedoch auch Sortierungen, welche weniger sinnvoll sind, beispielweise nach Gewicht und Preis. Ebenso gibt es bei Clusteranalysen mehr und weniger erkenntnisreiche Ergebnisse.

Dieses Prinzip lässt sich leicht auch auf technische Fälle anwenden. Angenommen es existiert eine Webseite, welche Waren aus verschiedenen Kategorien zum Verkauf anbietet. Interessant wäre es zu wissen, ob Besucher der Seite aufgrund ihres Verhaltens in verschiedene Käufer-Typen eingeordnet werden können. Typische Fragen wären hierbei, welches Verhalten bei Besuchern eher zu einem Kaufabschluss oder im Vergleich zu einem höheren Umsatz führt. Oder aber, ob bestimmte Produkte bevorzugt im Einkaufswagen landen, bevor es zu einem Kaufabschluss kommt. Diese Fragestellungen könnten durch eine Clusteranalyse z.B. auf Basis der Seitenaufrufe in den einzelnen Produktkategorien und des Umsatzes pro Kunde beantwortet werden.

 

Wie funktioniert die Mathematik dahinter?

Mathematisch werden zwei Bedingungen bei der Clusteranalyse an die entstehenden Klassen gestellt. Zum einen sollen Objekte aus gleichen Klassen untereinander ähnlich sein und andererseits sollen Objekte aus verschiedenen Clustern unähnlich zueinander sein. Dies hört sich zunächst trivial an, benötigt jedoch eine genaue mathematische Definition. Nach einer erfolgreichen Clusteranalyse sollte idealerweise jede gefundene Gruppe ganz bestimmte Strukturen aufweisen, sodass ein Cluster durch seine Eigenschaften oder eventuell durch die Wahl eines Repräsentanten direkt Aufschluss über seine enthaltenen Objekte gibt und eine mögliche Interpretation zulässt. Klassen mit wenigen Objekten können hierbei meist als Ausreißer-Klasse identifiziert werden. In jedem Fall sollte die Analyse eine leichter überschaubare und übersichtlichere Struktur vorweisen.

Es gibt verschiedene statistische Herangehensweisen für eine Klassifizierung der Daten. Die Auswahl des Verfahrens hängt dabei von der Beschaffenheit der Daten und in hohem Maße von dem Ziel, welches erreicht werden soll, ab. Die verschiedenen Verfahren unterscheiden sich primär durch den mathematischen Algorithmus, welcher zur Analyse verwendet wird. Es existieren auch verschiedenste Möglichkeiten die Ähnlichkeit bzw. Unähnlichkeit von zwei Objekten bzw. zwei Klassen zu beschreiben. Ein erfahrener Analyst hat in vielen Fällen sofort ein Gespür dafür, welche Berechnungen sich für die vorliegenden Beobachtungen besonders eignen. Vor der Auswahl ist aber eine genaue Voruntersuchung und eventuelle Aufbereitung der Daten unbedingt notwendig. Andernfalls können Ergebnisse entstehen, die gar keine oder eine falsche Interpretation zulassen.

 

Die Herausforderung „Big Data“

Typischerweise sind die Datenmengen, die in digitalen Bereichen (z.B. Website Tracking, App Tracking, etc.) erhoben werden, sehr groß. Daher sind eine schnelle Rechenlaufzeit und sparsame Speicherverwaltung grundlegende Anforderungen an jedes statistische Verfahren. Viele klassische clusteranalytische Verfahren, welche zwar gut darin sind Klassenstrukturen aufzudecken, scheiden daher schon von vornherein aus. Die Durchführung solcher Verfahren würde bei Umfängen, wie sie im Big Data Bereich vorkommen, meist mehrere Tage oder Wochen beanspruchen. Wir wollen daher zwei spezielle Verfahren vorstellen. Zum einen den verbreiteten k-Means Algorithmus und zum anderen den weniger bekannteren BIRCH Algorithmus. Hierbei werden wir ein kleines Stückchen tiefer in die Mathematik hinter den Algorithmen steigen, um die Unterschiede und Vor- und Nachteile herauszuarbeiten. Mit Hilfe dieser beiden Verfahren, können bereits viele Erkenntnisse über die natürliche Struktur innerhalb der Daten gewonnen werden.

Als Beispieldatensatz betrachten wir fiktiven Daten mit 1 Mio. Objekten, die je drei Merkmale aufweisen (siehe Abb. 1). Wir können die Daten also in einem dreidimensionalen Koordinatensystem visualisieren.

 

Abbildung 1: Plot fiktiver Datensatz

In diesem Beispiel kann die natürliche Struktur der Daten durch bloßes Hinsehen erkannt werden. Die Objekte lassen sich in fünf verschiedene „Anhäufungen“ oder „Blasen“ einteilen. Trotzdem ist nicht bekannt welches einzelne Objekt im Datensatz welcher der fünf Klassen zugeordnet werden kann. Bei 1 Mio. Objekten ist die händische Zuteilung auch schon nicht mehr in verhältnismäßiger Zeit möglich. Daher werden wir die Zuteilung über die Algorithmen vornehmen. In der Realität ist jedoch die Trennung zwischen den Klassen meist wesentlich weniger eindeutig.

Im zweiten Teil dieses Artikels werden wir die zwei Verfahren vorstellen, welche das Problem mit unterschiedlichen Herangehensweisen lösen. Dabei werden wir sehen, dass je nach Beschaffenheit der Daten, beide Verfahren mal besser und mal schlechter Ergebnisse liefern und im schlimmsten Fall kann auch eine völlig ungeeignete Klassifizierung berechnet werden kann.

Die Fortsetzung finden Sie hier: https://www.e-dynamics.de/blog/clusteranalyse-teil2.html.

Verwaltung von Werbekampagnen mit OME

Wie messe ich den Erfolg meiner Kampagnen?

Als Marketing Abteilung eines Unternehmens mit Internetauftritt arbeitet man häufig mit vielen Marketing Agenturen, Dienstleistern und weiteren Toolanbietern zusammen. Man fährt online Kampagnen, schaltet Werbung, verschickt e-Mails und druckt Flyer mit Barcode. Das kostet in der Regel Zeit und Geld. Doch wie messe ich den Erfolg der verschiedenen Kampagnen, Werbungen und Investitionen? Wie behalte ich den Überblick bei den vielen Accounts? Es wird zum Beispiel mit Google AdWords gearbeitet, auf der Website selbst sind Marketing Pixel einer Agentur implementiert und einen Newsletter gibt es auch.

 

Open Media Exchange (OME) – das Tool

Es ist kein Geheimnis, dass man an die URL des Unternehmens leicht einen Code anhängen kann, um zu verfolgen, woher der Besucher gerade kommt. Einen URL-Parameter. Jedes größere Analytics Tool kann anhand dieses Codes bewerten, wie gut die Quelle oder das Medium ist, über das der Kunde gekommen ist.

Die Pflege dahinter kann aber aufwändig sein. An dieser Stelle wird das e-dynamics Tool Open Media Exchange (OME) eingesetzt. Es verfügt über Schnittstellen zu den verschiedensten Tools. Dazu gehören AdWords, BingAds und viele mehr. Diese Schnittstellen werden regelmäßig abgefragt und die Kampagnen mit allen gewünschten Informationen in das Tool übernommen. Der Nutzer kann auch manuell Kampagnen für den internen Gebrauch anlegen oder einer Agentur Zugriff geben. Diese kann, bei größeren Mengen an Kampagnen, Excel-Dateien über das Webinterface hochladen, um Kampagnen zu erstellen oder zu pflegen.

Beim Erstellen der Kampagne gibt OME eine URL mit einem URL-Parameter zurück, der in der Kampagne benutzt werden sollte. Diese wird anhand der einzelnen Kampagnenparameter erstellt oder einfach hochgezählt. Das kann der Benutzer des Tools frei entscheiden. Für die Google Suite wird hier das Standard Kampagnentracking gewählt. Statt viele Parameter an die URL anzuhängen, reicht es also, einen einzigen hinzuzufügen. Die Zuordnung von URL-Paramtern zur Kampagnendaten übernimmt OME automatisch.

 

Graphik 1&2: Anlegen einer neuen Kampagne in OME

 

Der Prozess von der Kampagnenerstellung bis hin zur Erfolgsmessung im Analytics-Tool ist so vollständig automatisiert und weniger fehleranfällig. Zusätzlich gibt es eine einzelne Quelle mit allen im Unternehmen erstellten Online Kampagnen. Ein echter Mehrwert bei der Organisation und Qualität des Kampagnen Trackings.

 

OME in der Anwendung

Ein einfaches Anwendungsbeispiel könnte folgendermaßen aussehen:

Das Tool müsste mit wenigen Eingaben gefüttert werden:

Das Ergebnis der Ziel-URL kann in diesem Fall zum Beispiel so aussehen: https://www.e-dynamics.de/?cid=DSGVO_NEW_INT oder https://www.e-dynamics.de/?cid=12

Auf diese Weise generiert das Tool einen standardisierten URL-Paramter für das Analytics Tool. OME überträgt die Daten, wie Kampagnen Eigenschaften und den dazugehörigen URL-Parameter an das genutzte Analytics Tool. Dies geschieht in der Regel automatisiert per FTP Upload einer Classification Datei und wird für Webtrekk und Adobe bereits unterstützt.

Somit können wunderbar Auswertungen über einzelne Kampagnen und deren Eigenschaften erstellt werden, ohne selbst URL’s zu basteln und im Analytics Tool zu pflegen.

Darüberhinaus können viele Agenturen und Mitarbeiter gleichzeitig daran arbeiten. Lästige Excellisten werden auf diese Weise erfolgreich abgelöst.

 

Haben Sie Interesse am e-dynamics Tool Open Media Exchange (OME)?

Dann einfach unser Kontaktformular ausfüllen und wir melden uns dann direkt.

 

BigQuery - Eigenschaften und Fähigkeiten

Was ist BigQuery?

BigQuery ist eine cloudbasierte Datenbank aus dem Hause Google, in der man verschiedenste Datensätze speichern, verknüpfen, aufrufen und abfragen kann.
Dabei ist die Datenbank aufgrund verschiedenster Logiken & Entwicklungen seitens Google sehr performant – selbst größere Datenmengen können binnen Sekunden abgefragt und prozessiert werden. An dieser Stelle wollen wir uns jedoch nicht allzu sehr in technischen Details verlieren, sondern einem anderen großen Vorteil von Google BigQuery Tribut zollen. Denn jeder mit einem Google Account und etwas SQL Kenntnissen kann das Tool nutzen. Im Gegensatz zu anderen Datenbanken werden keine Ressourcen benötigt, um das System zu verwalten oder die Rechenressourcen zu dimensionieren.

Ganz im Gegenteil: Über bigquery.cloud.google.com kann BigQuery von jedem Ort mit einer Internetverbindung aufgerufen werden. Die Frage, wie das Tool von wem mit welcher Absicht bedient wird, liegt natürlich in unserer Hand – um alles andere kümmert sich Google.

Wie teuer ist es?

Den Vorteil der nicht nötigen Datenbankverwaltung und -skalierung lässt Google sich natürlich bezahlen – hier halten sich die Kosten allerdings in Grenzen.

Um sich anfangs mit dem Tool auseinander setzen zu können, bietet Google einen Testaccount mit großzügigen Konditionen an. Mit einer Laufzeit von 12 Monaten und einem freien Budget von 300$ lassen sich einige Terabytes an Daten abfragen und speichern.

Zudem ist der Account nicht nur auf BigQuery limitiert, sondern umfasst auch andere Google Cloud Platform Produkte.

 

Sollte dieser Freibetrag tatsächlich irgendwann aufgebraucht oder das Jahr vergangen sein, greifen folgende Preise:

 

Speicherung von Daten:

0,02$ pro GB pro Monat (die ersten 10 GB im Monat sind kostenlos)

 

Abfragen von Daten:

5$ pro 1 TB (das erste TB ist pro Monat kostenlos)

 

Dabei ist es wichtig zu wissen, dass nur erfolgreiche Abfragen berechnet werden. Sollte die Abfrage einen Fehler auswerfen, berechnet Google keinen Cent.

 

Alles in allem heißt das, dass sich die Kosten bei kleineren Datenmengen in einem überschaubaren Rahmen bewegen und keinesfalls im Verhältnis dazu stehen, was ausgegeben werden müsste, um die gleiche Qualität mit einer eigenen Datenbank zu bewerkstelligen. Für Firmen mit größerem Datenvolumen bietet Google zudem Pauschalpreise an.

Details zu den Preisen: https://cloud.google.com/bigquery/pricing

 

Hinzu kommt, dass es mehrere Sicherheitsmechanismen gibt, die verhindern, dass ein bestimmtes Budget überschritten wird.

Details: https://cloud.google.com/bigquery/docs/custom-quotas

 

Wie benutzt man es?

BigQuery enthält ein integriertes Abfragemodul, in dem die Abfragen direkt gestellt und die Daten entsprechend ausgegeben werden können.

 

Abfragen werden in SQL verfasst.

Quelle: https://bigquery.cloud.google.com/table/bigquery-public-data:google_analytics_sample.ga_sessions_20170801?pli=1

 

In Bezug auf die SQL Nutzung innerhalb von BigQuery gibt es allerdings einen wichtigen Unterschied.

Es existiert sowohl der ältere “Legacy SQL” Dialekt, der eine Google spezifische Adaption des normalen SQL ist, als auch der im Juni 2016 eingeführte “Standard SQL” Dialekt.

 

Beide Dialekte sind aktiv und können verwendet werden. Bisher hat Google keine Anzeichen von sich gegeben, das teils sehr beliebte Legacy SQL abzuschaffen.

Wer braucht BigQuery? Und wofür?

Fälschlicherweise wird BigQuery oft nur im Zusammenhang mit Google Analytics gesehen.

Häufig wird es als eine Art Feature von Google Analytics 360 verstanden – damit tut man dem Tool allerdings unrecht.

BigQuery ist eine eigenständige Datenbank, die zwar mit der sehr einfach umzusetzenden Verbindung zu Google Analytics einen großen Vorteil in der Analyse der Google Analytics Daten mit sich bringt, doch zusätzlich noch eine Menge weiterer Vorteile vorweisen kann.

 

Der Data Lake ist in aller Munde – BigQuery ist hier eine mögliche Alternative mehrere Datenquellen zusammengeführen und sie zentral zu speichern.

Verschiedene Datensätze können entsprechend im Tool gespeichert und über einfache JOIN Abfragen miteinander verknüpft werden. Wie man es von Google gewohnt ist, ist die Verknüpfung mit hauseigenen Programmen sehr einfach gestaltet – beispielsweise wird ein Data Transfer Service für AdWords, DoubleClick oder auch YouTube angeboten.

Ein großer Vorteil ist zudem, dass Datensätze, die im Google Cloud Storage, in Cloud BigTable oder auch in Google Drive gespeichert wurden, abgefragt werden können, ohne, dass diese dupliziert und als weiterer Datensatz innerhalb von BigQuery abgelegt werden müssen.  

 

Die Ergebnistabelle kann dann wiederum als Basis für ein Reporting dienen, das mehrere Datenquellen darstellt. Alle gängigen Visualisierungstool verfügen mittlerweile über eine vordefinierte Schnittstelle zu BigQuery, über die die Daten kinderleicht und ohne Programmierkenntnisse ihren Weg in das entsprechende Tool finden.

 

Wer sollte BigQuery nutzen?

Alle, die möglichst heute noch in das Datenbankthema einsteigen, aber kein großes Budget in die Hand nehmen wollen, um eine eigene Datenbank aufzubauen, sind bei BigQuery richtig aufgehoben.

Durch die einfache und sehr performante Bedienung lässt sich der Fokus auf die Abfrage, Verknüpfung und Analyse der Daten richten.

 

Vorteile bietet das Tool auch als zusätzliche Datenbank, um vorhandene Datenquellen wie zum Beispiel Google Analytics, Adwords & Co. zu verknüpfen oder mit anderen Daten aus dem Data Warehouse anzureichern. Durch den Vorteil, dass es – bis auf die sehr geringen Kosten der Speicherung – keine laufenden Kosten gibt, eignet sich das Tool sehr gut als Zweit-Datenbank.

 

Für alle Google Analytics 360 Nutzer bietet BigQuery zudem den Vorteil, dass Limitationen, die im Interface vorhanden sind, umgangen und größere Mengen an Daten abgefragt und verarbeitet werden können.

 

Insgesamt hat Google mit BigQuery eine sehr performante Alternative zu anderen Datenbanken geschaffen, bei der die Einstiegsschwelle sehr niedrig und die Kosten verhältnismäßig gering sind. Sowohl für Datenbankanfänger als auch für Fortgeschrittene bietet BigQuery das richtige Setup und kann mit der Anbindung zu zahlreichen anderen Produkten ein Einstieg in die Welt der Google Cloud sein.