Eigene Crawler vs. Datenzukauf: Was steckt dahinter? – Ehrliche Antworten der Social Media Monitoring Anbieter auf dem #moca14

Quelle: monitoringcamp.de

Auf dem dritten Social Media Monitoring Camp (#moca14) hat ForschungsWeb als Monitoring-Berater nicht nur Sessions für Anwender angeboten, sondern dieses Mal auch zwei Sessions speziell für den Austausch unter den Social Media Monitoring-Anbietern veranstaltet. Ich möchte in diesem Artikel meinen ganz persönlichen Eindruck von der ersten Session zum Thema „Die Vor- und Nachteile verschiedener Datenerhebungsmethoden“ schildern, weil ich überwältigt war über die Offenheit und Ehrlichkeit der Tool-Anbieter, die ich sonst in den Vertriebsgesprächen mit den Anbietern doch oft vermisse. Anlässlich des Aufrufs von Mike Schnoor zu seiner Blogparade zum Thema „Social Media Monitoring und Social Media Analytics“ nimmt ForschungsWeb mit diesem Artikel gerne daran teil.

Intention der ersten Session zum Thema Vor- und Nachteile einer eigenen Crawler-Technologie vs. des Datenzukaufs war es mehr Transparenz und Aufklärung in das Thema für die Monitoring-Anwender zu bringen. Und genau dies ist auch gelungen! Gemeinsam diskutierten wir, in welchen Fällen es sich lohnt auf eigene Crawler zu setzen und wann man um einen Datenzukauf nicht herum kommt.

Warum ist die Frage überhaupt wichtig?

Bevor ich auf die Ergebnisse der Session eingehe, möchte ich kurz erklären, an welcher Stelle diese Frage überhaupt relevant für die Anwender wird. Möchte der Anwender einmal eine Quelle oder ein Dutzend neuer Quellen im Monitoring hinzufügen, ist es wichtig zu wissen, ob der Monitoring-Tool-Anbieter diese direkt anbinden kann oder sie erst an den Datenprovider weiterleiten muss. Hier ergibt sich schon der erste Vorteil der eigenen Crawler-Technologie. In vielen Fällen kann schneller reagiert werden, wenn das Quellenmanagement vom eigenen IT-Team übernommen wird. So auch im Falle eines durch den Anwender entdeckten Fehlers. Wird z.B. das Datum der Quelle falsch „abgezogen“ oder die gesamte Seite durchsucht und somit auch Suchwörter in Teasertexten zu weiteren Artikeln unter dem eigentlichen Beitrag erkannt, kann der Anbieter mit eigener Crawler-Technologie viel schneller den Fehler beheben.

Es gibt aber noch einen zweiten Grund: Der liegt in der Interpretation der Daten und in der Beurteilung der Güte der Daten. Wer nicht weiß, was die Datenbasis für eine Datenerhebung ist, kann auch nicht die Güte der Analyseergebnisse beurteilen. Oder anders ausgedrückt, wer nicht weiß, wie die Monitoring-Daten erfasst werden, kauft die Katze im Sack. Und dieses Black-Box-Problem bemängeln sehr viele Monitoring-Kunden, so ein Kernfazit der Session.

In der klassischen Marktforschung, aber auch in der klassischen Medienbeobachtung existiert dagegen bereits Einigkeit unter den Anbietern, dass nur durch Transparenz und Offenlegen der Datenerhebungsmethoden die Spreu vom Weizen getrennt werden kann. Natürlich hat es auch hier einige Jahre gedauert, bis man sich auf Standards in der Offenlegung der Datenbasis geeinigt hat, aber für beide Bereiche haben Kunden dieser Dienste nun eine verbindliche Richtlinie, die Aussagen über die Qualität der Datenbasis zu lassen. Dies fehlt in der Monitoring-Branche noch komplett. Die Session war der erste, durchaus gelungene Versuch, die Anbieter zu einem Austausch zu diesem Thema zu bewegen. Jedenfalls stimmten die anwesenden Anbieter der Notwendigkeit von mehr Transparenz und Aufklärung in dieser Frage zu.

Fragen Sie nach der Größe des Teams, das mit dem Quellen-Management beschäftigt ist

Entscheidender Nachteil der eigenen Crawler-Technologie besteht in der Kosten- und Qualitätsmanagement-Perspektive für den Anbieter. Möchte man eine ausreichend große Menge an Foren, Blogs oder auch sozialen Netzwerken kontinuierlich indizieren und nach Stichworten durchsuchen, dann benötigt man eine Menge gut ausgebildeter Fachkräfte. Diese IT-Fachkräfte übernehmen neben der Integration neuer Quellen auch die Pflege und Wartung der bereits in das Quellenset aufgenommenen Quellen. Dies wird unter anderem durch die häufigen Änderungen auf den Websites notwendig (z.B. Änderung am Seitenaufbau oder der Forenstruktur). Zudem stimmen sie sich mit den Plattformbetreibern ab. Je nach Volumen des Quellensets können das bis zu mehrere Millionen Seiten sein. Damit wird augenscheinlich, dass eine solche Arbeit erstens große Sorgfalt im Qualitäts- und Prozessmanagement erfordert und zweitens nicht von zwei bis drei IT-lern bewerkstelligt werden kann – jedenfalls nicht, wenn es um das Monitoring für mehrere Branchen und mehrere Länder geht. Auch hier zeigten sich die Anbieter in der Session sehr offen und gaben die Mitarbeiteranzahl der eigenen Quellenteams an.

Es kommt auf den Medientyp an

Eine Kernerkenntnis der Session war, dass je Medientyp der Anbieter entscheiden muss, welche Variante er technisch und kostenseitig umsetzen kann. Denn jeder Medientyp erfordert andere Technologien in der Beobachtung, im Durchsuchen der Seite und Erfassen der Beiträge. Auch in dieser Diskussion wurde wieder deutlich, dass nicht alle Monitoring-Anbieter Blogs und Foren als Teil des Social Webs begreifen. Bei ihnen dominiert der technische Blick auf die Quellen. Da viele Blogs und Foren analog zu klassischen Websites gecrawlt werden können, fallen diese Medientypen für sie nicht in die Kategorie Social Media. Nur soziale Netzwerke oder neuere Social Media-Phänomene wie Pinterest oder tumblr werden von ihnen als Social Media bezeichnet. Eine inhaltliche Charakterisierung ist dies jedenfalls. Wir empfehlen daher jedem Anbieter und Anwender die Einteilung rein inhaltlich vorzunehmen, da nur dies aussagekräftige Analysen und Interpretationen ermöglicht. Mehr zu den Medientypen kann hier nachlesen werden.

Nicht alle Seiten lassen sich mit Crawlern erfassen – hier werden die Daten über eine API direkt vom Plattformbetreiber zur Verfügung gestellt

Bzgl. der Technologie lässt sich in jedem Fall festhalten, dass Facebook und Twitter sich nur über die klassische Schnittstelle der Plattformen (Such-API) durchsuchen lassen. Eine klassische Webcrawler-Technologie kommt hier z.B. nicht zum Einsatz. Wer sich für die Facebook-Schnittstelle interessiert, dem ist z.B. der folgende Artikel zu empfehlen. Hier wird diese Art der Datenerfassung relativ gut erklärt, wobei es sicherlich in den letzten Jahren einige Neuerungen dazu gab. Aber das Grundprinzip der Datenerfassung mittels Schnittstelle erklärt der Artikel sehr gut.

Auch Twitter bietet solche Such-APIs an. Die Details können hier auf der Seite von Twitter nachgelesen werden: https://dev.twitter.com/docs/api/streaming. Aktuell bestehen für Twitter zwei Wege: Entweder gehen die Anbieter über die öffentlichen Such-APIs oder sie kaufen die Daten über Gnip oder andere Datenprovider hinzu. Der Vorteil im Falle des Twitter-Datenzukaufs besteht darin, dass die Daten auch historisch zur Verfügung gestellt werden können. Das ist im Falle der Such-API nicht möglich. Welche Art zu vollständigeren Daten führt ist noch nicht nachgewiesen. So ergaben die Tests der Anbieter recht unterschiedliche Ergebnisse.

Webcrawler wikipedia

Quelle: wikipedia.de

Foren und Blogs dagegen lassen sich gut mit einer klassischen Webcrawler-Technologie durchsuchen. Wichtig hierbei ist, dass die robot.txt-Datei der Seite beachtet wird. Mit dieser Datei regelt der Seitenbetreiber, ob die Seite automatisiert von Webcrawlern durchsucht und erfasst werden darf. Das bedeutet im Umkehrschluss, dass jeder Monitoring-Anbieter dort nachschauen muss, bevor er die Quelle in sein Monitoring aufnimmt. Vergegenwärtigt man sich die Anzahl an Foren und Blogs, die durchsucht werden müssen, um ein halbwegs aussagekräftiges Monitoring zu ermöglichen, wird schnell klar, warum das Quellen-Management von manchem Monitoring-Anbieter ausgelagert wird. Es ist personell für manche Anbieter einfach nicht rentabel diese Aufgabe inhouse erledigen zu lassen. Als Datenprovider für Blog- und Forendaten bieten sich zum BoardreaderTwingly, aber auch Trendiction an. Um Transparenz und Vertrauen in die Datenqualität zu schaffen, sollten die Monitoring-Anbieter hier mehr mit offenen Karten spielen. Denn viele Anbieter scheuen sich bisher noch davor, zu zugeben, dass sie für gewisse Länder und für gewisse Branchen auch die Foren- und Blogdaten hinzukaufen.

Ein globales Monitoring gelingt nur mit Datenzukauf

Durch diesen Punkt sind wir schon beim Thema globales Monitoring. Einigkeit herrschte in der Session-Diskussion darüber, dass kein Anbieter auf der Welt ein globales Monitoring ohne Datenzukauf bewerkstelligen kann. Von Land zu Land unterscheiden sich die Quellenlandschaften und -bestimmungen einfach zu sehr von einander. Daher arbeiten z.B. europäische Monitoring-Anbieter bei der Erschließung der Quellenlandschaft anderer Märkte mit den für die anderen Kontinente spezialisierten Datenprovidern zusammen.

Einigkeit bestand auch in dem Punkt, dass ein professioneller Monitoring-Anbieter nicht darauf verzichten kann, die Koordination der verschiedenen Datenerfassungsvarianten inhouse durchzuführen. Nur so ließe sich das nötige Know-how aufbauen und auf dem neuesten Stand halten, welches für die Quellenintegration und -pflege benötigt wird. Zudem kann man nur so dem Kunden ehrlich erklären, was die Ursache des jeweiligen Problems ist.

Überblick über die Vor- und Nachteile der jeweiligen Variante

Die folgende Tabelle fasst die Vor- und Nachteile auf einen Blick zusammen:

Vor- und Nachteile eigener Crawler vs. Datenzukauf_v02

 

Ein Schritt in Richtung Marktaufklärung

Im Rückblick betrachtet war die Diskussion ein weiterer Schritt in Richtung Professionalisierung der Monitoring-Branche, die ForschungsWeb seit seiner Gründung vorantreibt. Ich freue mich über die rege Teilnahme und die ehrlichen Antworten. Das zeigt, dass es Bedarf unter den Anbietern gibt, sich zu solchen Themen gegenseitig auszutauschen, weil alle sprichwörtlich im gleichen Boot sitzen. Ich bin gespannt, wie es mit dieser Diskussion weitergehen wird. Alle Anbieter und auch die Anwender sind herzlich eingeladen die Diskussion auch in den Kommentaren dieses Artikels weiterzuführen oder diesbzgl. auf uns zu zukommen.

Alle Anbieter kämpfen mit den gleichen Kundenfragen

Zum Schluss möchte ich noch auf ein allgewärtiges Phänomen hinweisen: Auch in dieser Diskussion zeigte sich, dass alle Anbieter das Problem kennen, dass der Kunde anruft und fragt, warum ein Beitrag, der über Google gefunden wurde, nicht im Monitoring enthalten ist. Allein die Erklärung hierfür ist schon einen eigenen Blogbeitrag wert, den wir gerne in unsere Themenplanung für das ForschungsWeb-Blog aufnehmen. In diesem Zusammenhang möchte ich noch eine Lese-Empfehlung zum Thema geben: Warum auch Google nicht alle Seiten im Internet findet. Sehr nachvollziehbar und auch für Laien leicht verständlich erklärt!

6 Antworten zu “Eigene Crawler vs. Datenzukauf: Was steckt dahinter? – Ehrliche Antworten der Social Media Monitoring Anbieter auf dem #moca14”

  1. Anna-Maria Zahn sagt:

    Hallo Anjou, eine solche Diskussion lebt von der Beteiligung. Daher war ich sehr erfreut, dass Ihr und auch die anderen Anbieter so offen darüber gesprochen habt. Nun heißt es dran bleiben. Ich bin gespannt, wie es weitergeht. Herzliche Grüße nach Berlin, Anna

  2. Hallo Anna,
    vielen Dank auch von unserer Seite für die Anregung einer solchen Diskussion im Rahmen des Monitoringcamps und die Zusammenfassung der Erkenntnisse.
    Viele Grüße aus Berlin
    Anjou

  3. […] Anna-Maria Zahn: Eigene Crawler vs. Datenzukauf: Was steckt dahinter? – Ehrliche Antworten der Soc… […]

  4. Anna-Maria Zahn sagt:

    Hallo Michél, vielen Dank für Deine Zustimmung. Auch ich stimme Dir zu, dass es auf Dauer nicht gut sein kann, dass man auf zwei bis drei Tools setzen muss, um wirklich alle Beiträge zu erfassen. Was hier hilft, ist die Fragestellung. Es gibt durchaus Untersuchungsfragen, wo es gar nicht darauf ankommt, wirklich alle Beiträge zu erfassen. Wichtiger ist da die Frage, ob man von den richtigen Communties die Beiträge erfasst hat. Für das Issue-Management und dem frühzeitigen Erkennen von Krisen ist das Erfassen aller Beiträge wiederum essentiell.
    Ich glaube, dass wir in diesem Punkt noch länger warten müssen, bis die Anbieter begreifen (bzw. sich trauen), dass man auch in diesem Feld zusammenarbeiten könnte :-). Wichtig ist in jedem Fall, dass das Thema auf die Agenda gesetzt wird.

  5. Michél Walther sagt:

    Hallo Anna_Maria,
    ein wirklich sehr schöner Artikel den ich gern weiterempfehle.
    Letztendlich ist es uns als Dienstleister mittlerweile gleich, ob der Social Media Monitoring Anbieter direkt crawlt, oder die Daten zukauft. Genau richtig bemerkt wurde, dass wenn Daten zugekauft, werden diese immer wieder mit kritischem Blick analysiert, bewertet und ggf. die Terme neu angepasst werden sollten. Auch an tollen Dashboards mit hübschen bunten Grafiken mangelt es nicht, jedoch bleiben in puncto Qualität und Anzahl der tatsächlichen Suchtreffer und deren Ergebnisse oft viele Fragen offen. Dies kann schon mal dazu führen, das der Kunde aggregierte Daten von zwei oder gar 3 Monitoring Anbietern bekommt um die Validität zu erhöhen. Auf Dauer kann dies natürlich keine Lösung sein und sind gespannt wie sich der Markt entwickeln wird.
    Ps: Auch wir haben hierzu einen Artikel veröffentlicht, der in einer kleinen Vergleichsstudie zwischen 3 Social Media Monitoring Anbietern die angesprochenen Punkte wiederspiegelt.

    VG

    Michél

  6. Danke für diesen sehr informativen Beitrag, dem wir inhaltlich uneingeschränkt zustimmen: Nicht die ausgefeiltsten Grafiken und „Gimmicks“, sondern in erster Linie eine gediegene und an den Anforderungen des Einzelfalls orientierte gute Datenqualität ist das A&O von Social Media Monitoring und Analyse jenseits des Hypes.
    Und was ein Tool grafisch nicht abbilden kann, lässt sich via Datenexport in Kombination z.B. mit einem BI-Tool jederzeit individuell generieren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Time limit is exhausted. Please reload CAPTCHA.