Big Data
Als Big Data werden große Datenmengen bezeichnet, die aus unterschiedlichen Quellen, wie dem Internet, der Wirtschaft, dem Gesundheitswesen, aber auch aus sozialen Medien u.v.m., stammen. Diese Datenmengen werden in sogenannten Big-Data-Analysen gespeichert, verarbeitet und ausgewertet, um wichtige Informationen und Erkenntnisse (beispielsweise für die Wirtschaftswissenschaft und Politikberatung) zu erlangen.
Eigenschaften
5 Merkmale sind für Big Data charakteristisch:
1. Volume:
Beschreibt das enorme Datenvolumen. Um Big Data analysieren zu können, müssen riesige Datenmengen gespeichert und verarbeitet werden.
2. Velocity (Geschwindigkeit):
Bezeichnet die Geschwindigkeit, mit der Daten entstehen. Durch die fortschreitende Digitalisierung und die steigende Zahl an mobilen Endgeräten stehen immer mehr Daten in immer kürzerer Zeit zur Verfügung.
3. Variety (Vielfalt):
Es gibt eine Vielzahl von unterschiedlichen Datenquellen und –formen. Daten können strukturiert, semi-strukturiert oder unstrukturiert sein und zum Beispiel als Audio- oder Videodatei vorliegen.
4. Veracity (Wahrhaftigkeit):
Beschreibt die Datenqualität, insbesondere in Bezug auf Authentizität, Vollständigkeit und Mehrdeutigkeit. Um eine hohe Qualität und Vertrauenswürdigkeit der Daten zu gewährleisten, müssen besondere Informationsextraktionsverfahren angewandt werden.
5. Value (Wert):
Steht für den Mehrwert, der durch die Analyse aller anfallenden Daten erzeugt wird. Durch zielgerichtete Auswertungen können aus vorhandenen Daten neue Informationen gewonnen und Vorhersagen getroffen werden.
Nutzung von Big-Data
Die Datenquellen, die derzeit für ökonomische Big-Data-Analysen genutzt werden, sind 35 Prozent administrativer Art, 22 Prozent stammen aus Statistikbüros und 15 Prozent basieren auf Umfragen. Neuere Datenquellen wie Sensoren (13 Prozent), Konsumentendaten (9 Prozent) und soziale Medien (7 Prozent) spielen noch eine eher untergeordnete Rolle.
Derzeit ist die Hälfte der in den Big-Data-Projekten verwendeten Datensätze offen oder halb-offen, das heißt die Nutzung erfordert eine Registrierung.
Formen der Big-Data-Analyse
Vorrangig fokussiert sich die Forschung auf deskriptive Analysen (mehr als 70 Prozent). Die zweithäufigste Analyseart ist laut einer Studie die Trendanalyse. Neuere Formen wie Text und Sentiment Mining sind noch nicht weit verbreitet. Text Mining extrahiert analysierbare Informationen aus Texten (z.B. Worthäufigkeiten), Sentiment Mining fängt Stimmungen zu einem Thema ein und kategorisiert Inhalt etwa in positiv oder negativ oder auf einer Werteskala. Das ermöglicht beispielsweise die Analyse der tatsächlichen Reaktion der Bevölkerung auf eine bestimmte politische Maßnahme, denn online äußern sich Menschen unter Umständen ehrlicher als in einer direkten Umfrage. Eine weitere, immer häufiger genutzte Form der Big-Data-Analyse ist das sogenannte Nowcasting. Dabei werden Informationen genutzt, die früher oder häufiger zur Verfügung stehen als die eigentliche Variable des Interesses. Es liefert damit eine sehr zeitnahe Prognose, die als „early estimate“ dienen kann. Google-Suchanfragen nach Begriffen wie „Arbeitsamt“ oder „Arbeitslosengeld beantragen“ werden etwa analysiert, um eine zeitnahe Aussage über die Entwicklung des Arbeitsmarktes zu treffen.
Anmerkungen
Generell eignen sich Big-Data-Analysen, um die traditionellen Statistiken zu ergänzen. Abstriche müssen bei der Kausalität der Analysen gemacht werden. Oft legen Big-Data-Analysen lediglich Korrelationen offen.
Die möglicherweise größte Herausforderung für den Wissenschaftler besteht darin, relevante von vorhandenen Daten unterscheiden zu können.
Quelle: Barbara Engels in IW-Kurzberichte 88.2016