Zum Inhalt

CortexStarter App mit Taxi-Daten aus New York

Übersicht

Der vorliegende Datenbestand enthält Informationen über Taxifahrten aus New York. Bei diesen Daten handelt es sich um einen Auszug aller verfügbaren Daten der Taxi & Limousine Commission New York. Diese Daten beinhalten Angaben zu jeder einzelnen Taxifahrt innerhalb eines bestimmten Zeitraums.

Durch die CortexStarter App erfolgt automatisch ein Login im Uniplex ohne Eingabe von Nutzernamen und Passwort. Sie haben hier die Wahl zwischen Admin und User.

Cortex-IP Starter Edition

Die Cortex-IP SE enthält zwei vordefinierte Nutzer und festgelegte Einstellungen zur Datennutzung. Sie ist dadurch auf einen lokalen Arbeitsplatz beschränkt und ermöglicht keinen Einsatz in produktiven Umgebungen (On-Premises) oder für Cloud-Anwendungen.

Beim Wechseln zwischen den beiden Konten werden Sie nach einem Passwort gefragt: Benutzername und Passwort lauten beide admin, wenn Sie mit einem Nutzerkonto ohne administrative Rechte arbeiten möchten, lauten Benutzername sowie Passwort user.

Nach dem Start öffnet der Uniplex mit den integrierten Taxi-Daten auf der rechten Seite den Tab für die Übersicht der enthaltenen Datensatztypen. Diese Liste zeigt die Anzahl der Datensätze pro Datensatztyp. Hier ist erkennbar, dass in diesem Datenbestand circa 3 Millionen Taxifahrten (Ride) und 265 Taxizonen (Zone) enthalten sind.

First screen after Login

Enthaltene Informationen

Beispiel Mit einem Klick auf die Datensatzzeile Ride öffnet sich in der linken Bildschirmhälfte die Ansicht der Informationen des ersten Datensatzes aller hier verfügbaren Taxifahrten. Die Datensatzansicht in der linken Bildschirmhälfte zeigt die Details einer Taxifahrt in einzelnen Feldern und pro Feld einen entsprechenden Wert an. Zu weiteren Datensätzen gelangt man über die Pfeiltasten im rechten Tab.

First screen after Login

Wenn Sie eine Taxifahrt anwählen, erhalten Sie nicht nur Informationen wie Abfahrtsuhrzeit (tpep_pickup_datetime), Abfahrtsort (PULocationID) und der Taxiart (taxi_type). Tipp: Fahren Sie mit dem Cursor langsam über die einzelnen Informationen, dann werden Ihnen weitere Details angezeigt.

Beispiel Um zusätzliche Einblicke zu erhalten, können Sie das gewünschte Feld, z.B. total_amount, auswählen und im Pop-up-Fenster links die Option Feldinhaltsliste öffnen anklicken. Dadurch öffnet sich rechts ein zweiter Tab, der Ihnen eine Liste aller Werte dieses Feldes (total_amount) über alle Datensätze hinweg präsentiert. Sie erhalten so einen umfassenden Überblick über die gespeicherten Werte (in diesem Fall die zu zahlenden Fahrpreise) und deren Häufigkeit.

Info

Die Liste wird beim Öffnen nur eine Sekunde lang geladen. Je nachdem, wie stark das System ausgelastet ist, kann es erforderlich sein, den Ladevorgang für die verbleibenden Daten fortzusetzen. Klicken Sie einfach auf den Pfeil-Button am unteren Ende der Statuszeile.

Einfache Analysen

Die oben beschriebene Feldinhaltsliste zeigt unter Anzahl die Menge an Datensätzen, die den nebenstehenden Wert (hier: total_amount) beinhalten. Über den Scroll-Balken rechts können Sie sich einen schnellen Überblick über niedrige und hohe Werte verschaffen. Mit einem Klick auf eine der schwarzen Spaltenüberschriften öffnet sich ein Pop-up Fenster, das Ihnen die Möglichkeit einer direkten Umsortierung gibt. Auf diese Weise können Sie sofort erkennen, welche Werte am häufigsten oder am seltensten auftreten.

Wenn Sie auf eine beliebige Zeile klicken, wird in der linken Bildschirmhälfte die Ansicht des ersten Datensatzes mit dem ausgewählten Preis geöffnet, sofern es mehrere Datensätze mit diesem Wert gibt. Sollen erste Analysen über die verschiedenen Werte ausgeführt werden, steht Ihnen im Bereich rechts oben unter Suche ein Auswahlfeld zur Verfügung, das Ihnen verschiedene Funktionen anbietet.

Die vorhandenen Funktionen ermöglichen eine Analyse der Topwerte sowie das Öffnen des Profilers, der Ihnen eine Auswertung über die verschiedenen Werte ermöglicht.

Wählen Sie den Profiler an und bestätigen das mit dem hellblauen Kreispfeil. Es startet umgehend eine Auswertung für die angewählte Datensatzinformation, die Sie schnell in einer Übersicht betrachten können.

Der Profiler analysiert in Echtzeit die verschiedenen Inhalte ohne im Vorfeld Daten berechnen zu müssen. Das Resultat ist eine Übersicht der Ergebnisse, die auf diversen Algorithmen und Routinen basiert. Unregelmäßigkeiten und Ausreißer in dem gewählten Feld werden dadurch deutlich erkennbar.

Bei Zahlenfeldern wird Ihnen abschließend die Benford-Analyse grafisch als Liniendiagramm präsentiert. Sie können hiermit auf einen Blick feststellen, ob empirisch generierte Datensätze eventuell manuell manipuliert wurden. Wenn die Analyse eines Zahlenfeldes nicht mit dem Benfordschen Gesetz übereinstimmt, deutet dies beispielsweise darauf hin, dass Preise umfassend manuell angepasst wurden.

Über die oben erwähnten Auswahloptionen in der Select-Box können weitere Analysen durchgeführt werden. Die Analyse der Top-80% zeigt Ihnen zum Beispiel diejenigen Werte an, die für 80% der Gesamtwerte verantwortlich sind. Dieses bildet den Ausgangspunkt für eine Pareto- oder auch ABC-Analyse. Je nachdem, welches Feld Sie auswählen, eröffnen sich vielfältige Möglichkeiten zur Erkenntnisgewinnung. Sie können so beispielsweise Informationen über DOLocationID (Drop-off location - Zielort), tip_amount (Trinkgeld) und vieles mehr erhalten.

Info

Weitere Möglichkeiten der explorativen Analyse finden Sie unter dem Menüpunkt Use Cases.