Hobby und Beruf verknüpfen – das war das Motiv für meine Idee, alle Depeche Mode-Konzerte seit 1980 auszuwerten und zu visualisieren. Nicht ganz trivial, aber sehr lehrreich: Damit die Geocodierung klappt, ist ein sauberer Datensatz das A und O. Doch der will hart erarbeitet sein – wie ich es nach langen Mühen schließlich hinbekommen habe.
Am 7. März 2014 ging mit dem Konzert in Moskau die „Delta Machine Tour“ von Depeche Mode zu Ende. Ich war selbst im Juni 2013 beim Konzert im Münchner Olympiastadion. In Deutschland spielen DM ja immer recht häufig, aber mich interessierte es dieses Mal genauer: Wie oft haben Depeche Mode hierzulande gespielt und auf welche Länder und Städte verteilen sich die mehr als 1000 Konzerte seit 1980. Hier erstmal die Ergebnisse:
1. auf welche Länder sich die 1202 Konzerte verteilen und
2. in welchen Städten diese 1202 Konzerte gespielt wurden.
Auf der Website von DM hatte ich die Rubrik „Past Tours“ entdeckt und schon immer mal mit dem Gedanken gespielt, das optisch umzusetzen. Folgende Schritte waren dazu notwendig:
- Daten scrapen
- Daten säubern
- Daten auswerten
- Daten geocodieren
- Daten visualisieren
- Daten veröffentlichen
1. Daten scrapen
Das ist nicht mein Spezialgebiet und die mir empfohlenen Programme Out Wit Hub oder die HTML-Import-Funktion von Google Spreadsheets halfen mir hier nicht weiter, da die Seiten nicht als Tabellen formatiert sind. Die Rettung war die englische Wikipedia, die jeder DM-Tour einen eigenen Artikel gewidmet hat. Hier ging es mit dem Google Chrome Plugin „Table Capture“ leicht, die einzelnen Tourdaten in ein Google Spreadsheet einzufügen.
2. Daten säubern
Natürlich war nicht alles astrein, zum Teil waren die Spalten verruscht, ein Teil der Datumsangaben hatte ein schräges Format. Und dann waren natürlich einige Ortsnamen nicht einheitlich, speziell US-Städte. Mal mit, mal ohne Bundesstaat-Anhängsel à la „TX“ oder auch ausgeschrieben „Texas“. Das ist aber wichtig, um Städte eindeutig identifizieren zu können: Es gibt eben ein Mansfield in England, mehr als 20 in den USA und zwei in Australien. Hier tat Open Refine gute Dienste. Mit einer regular expression, die mir die hilfsbereiten Kollegen der NICAR-L-Mailing-Liste verrieten, bekam ich das Datumsproblem in den Griff. Und mit einem Text-Facet und der Cluster-Funktion konnte ich die Städte vereinheitlichen. Teilweise habe ich das auch in Google Spreadsheets gemacht mit dem simplen „Suchen und Ersetzen“-Befehl. Hier muss man natürlich selbst schon den Fehler kennen.
3. Daten auswerten
In Spreadsheets wertete ich mit einer Pivot-Tabelle aus, in welchen 51 Ländern (auch hier gibt es Sonderfälle wie die Kanalinseln oder getrennte (Tschechien/Tschechoslowakei) bzw. vereinte Länder (BRD und DDR)) und in welchen 341 Städten die 1202 Konzerte seit 1980 gespielt wurden. Die Datenauswertung war in diesem Fall also vergleichsweise simpel, weil es mir ja nur um die Frage „WO?“ ging.
4. Daten geocodieren
Mit den Ländern war es noch relativ einfach. Die meisten Visualisierungsprogramme erkennen (englische) Ländernamen und können ihnen Polygone zuweisen. Daraus resultierte bei Visualisierungs-Tool CartoDB (siehe 5. Daten visualsieren) die erste, oben eingebundene Grafik.
Bei den Städten war das ungleich schwieriger. Voreilig wie ich war, jagte ich die Liste mit den Städten durch das praktische Geocodierungs-Tool von doogal.co.uk, das Längen- und Breitengrade ausgibt. Dabei musste ich aber feststellen, dass die Ergebnisse sehr fehlerhaft waren – weil eben viele englischsprachige Städte mehrfach existieren. Also baute ich in Spreadsheets eine neue Spalte und verband mit der „Concatenate“-Funktion die Spalten für Stadt und Land, ergänzt durch ein Komma, nach dem Muster: „Berlin, Germany“. Mit dieser konsolidierten Liste startete ich einen zweiten Anlauf bei doogal.co.uk – dieses Mal mit richtigen Ergebnissen. Da es sich um ein englisches Tool handelt, musste ich die Punkte bei den Geokoordinaten durch Kommas ersetzen, also aus „2.543673“ ein „2,543673“. Das geht in jedem Text-Editor mit dem Suchen-und-Ersetzen-Befehl ganz easy (mit einer regular expression kann man das natürlich auch in Open Refine machen).
5. Daten visualisieren
Zuerst wollte ich in der Google-Welt bleiben und lud mein Spreadsheet in Fusion Tables hoch. Die Geocodierung lief aber äußerst unbefriedigend und auch die Visualisierungs-Optionen wollten nicht so, wie ich wollte. Daraufhin schaute ich mir das von vielen Kollegen empfohlene CartoDB an.
Vorteile: in der Basisversion kostenlos, viele Darstellungsmöglichkeiten, vor allem die von mir gewünschte Funktion Städte in proportionalen Kreisen darzustellen: Je mehr Konzerte in einer Stadt, desto größer der Kreis.
Nachteile: in der Basisversion kann man nur fünf Datensätze haben, man muss ständig Versionen löschen. Die Synchronisierung mit einem Google-Datensatz ist nur in der Bezahlversion möglich.
Letzten Endes ist es mir aber gelungen, mit der „Bubbles“-Funktion die zweite Karte mit den Städten zu erstellen. Außerdem bietet CartoDB viele praktische Features auf der Karte: eine Suchfeld, einen Share-Button, eine Vollbildfunktion zum Beispiel.
6. Daten veröffentlichen
CartoDB unterscheidet zwischen Tabellen und Visualisierungen. Man muss also aus einer Tabelle eine Visualisierung machen. Diese Visualisierung lässt sich dann einbetten – so wie hier. Auch in den sozialen Netzwerken habe ich es geteilt und auf dadaviz. Inzwischen habe ich die Ergebnisse auch in Artikelform gegossen.
Lessons learned
Ein sauberer Datensatz ist enorm wichtig, sonst wird man verrückt, wenn man in der Visualisierung wieder einen Fehler entdeckt. Die fehlende Synchronisierung zwischen CartoDB und Google Spreadsheets machte es nötig, Korrekturen in Spreadsheets vorzunehmen und dann wieder neu in CartoDB hochzuladen. Das ist sehr nervig, vor allem aber fehleranfällig. Darum wäre ein Programm, in dem Datensäuberung, Datenanalyse und Datenvisualisierung Hand in Hand gehen, absolut empfehlenswert.
Ach ja: Depeche Mode haben in Deutschland 169 Konzerte gespielt, die meisten in Berlin (23), Hamburg (19) und hier in München (13). Insgesamt liegt Deutschland auf Platz 3 hinter den USA und Großbritannien. Mein Eindruck hat also nicht gettäuscht…
Pingback: 1202 Gigs in 34 Jahren: Die Konzert-Welt von Depeche Mode
Pingback: torial Blog | Konzertdaten-Visualisierung: Die Tücken der Geocodierung
Die Kommentarfunktion ist deaktiviert.