Big Data

Wird überarbeitet von Jan-Hendrik

Der Begriff Big Data (Massendaten) bezeichnet die unter anderem aus den Bereichen des Internets, des Mobilfunks, des Gesundheitswesens oder aus polizeilichen Lageauswertungen gesammelten personenbezogenen Daten, die mit speziellen Absichten gespeichert, verarbeitet und analysiert werden.

Definition

Für den Begriff Big Data gibt es eine Vielzahl an Definitionen. Eine relativ unumstrittene Definition stammt von Gartner (Gartner, 2001; 2012), die "Big Data" in drei "V's" untergliedert: Volume (Volumen), Velocity (Geschwindigkeit) und Variety (Vielfalt). Big Data bezieht sich somit auf ansteigende Datenmengen, die wachsende Datenerzeugungsrate und die Zunahme an Datenquellen und Datenformaten. IBM ergänzte ein viertes "V": Veracity (Wahrhaftigkeit), die Glaubwürdigkeit der Daten und deren Analyse. An anderer Stelle wird noch auf ein weiteres „V“ hingewiesen: Value (Wert), also auf den unternehmerischen Mehrwert.

In diesem Artikel wird Big Data wie folgt verstanden: Die erhebliche Aufzeichnung, Interpretation und Analyse personenbezogener Daten aus fast allen technisch vernetzten Bereichen (Soziale Medien, Geschäftstransaktionen, Telekommunikation, Überwachung, erkennungsdienstliche(ED) Maßnahmen etc.). Diese Daten werden unter verschiedenen Aspekten analysiert. Es geht im speziellen um die Identifizierung von Strukturen anhand von Algorithmen (Data-Mining [1]), z.B. zum Zwecke der Marktforschung oder in Bezug auf eine kriminologische Relevanz.

Zeitliche Entwicklung von Big Data

Die Ursprünge von Big Data lassen sich auf das Jahr 1941 zurückführen, als das Oxford English Dictionary den Begriff "information explosion" aufnahm. Erste theoretische Arbeiten, die das exponentielle Wachstum wissenschaftlicher Daten behandelten, erschienen zwischen den 1960er und 1980er Jahren.

Zum ersten Mal wurde der Begriff "Big Data" 1997 erwähnt. In einem NASA Artikel (Cox und Ellsworth, 1997) wurden große Datenmengen und deren Analysemethoden thematisiert. Eine Definition wurde erst 2001 im Gartner Report (2001) geprägt, der die oben genannten drei "V's" beinhaltet. Auch erste Modelle zur Datenanalyse und makroökonomischen Vorhersage wurden Anfang der 2000er (z.B. Diebold, 2000) entwickelt. In den Folgejahren wurden neue Vorhersagen für Datenströme und deren Wachstumsraten gemacht und veröffentlicht. So soll sich im Jahre 2020 das Datenvolumen von ca. 8500 Exabyte (2015) auf ca. 40000 Exabyte erhöhen (1 Exabyte = 1 Mio TB) (statista.com).

Beispiele für die Nutzung von Big Data

Ein Interesse an Big Data ist von vielen Seiten erkennbar, so werden beispielsweise in Bereichen der Krankheits- und Gesundheitsforschung, folglich im Bereich von public health care, vor allem Daten analysiert, die eine epidemiologsiche Relevanz haben. Im Bereich der Verkehrsforschung wurde gezeigt, dass mit Big Data nicht nur Staus vorhergesehen werden konnten, sondern auch die Häufigkeit von Unfällen in bestimmten Abschnitten des Verkehrsnetzes.

In der Marktforschung ist Big Data für die personalisierte Werbung von Nutzen. Aufgrund eines z.B. bestimmten Klickverhaltens, Kaufverhaltens oder einer bestimmten Interessenslage werden hier Persönlichkeitsprofile erstellt, um individuell ansprechende Werbung zu generieren.

Ein aktuelles Beispiel aus der Politik (Stand: Februar 2017): Im Präsidentschaftswahlkampf der USA 2016 wurde der Wahlkampf von Donald Trump unter anderem mit Hilfe von Big Data geführt. So wurde beispielsweise individuelle Wahlwerbung mit Hilfe der Psychometrik[2] und der erstellen Persönlichkeitsprofile aus Daten von z.B sozialen Netzwerken, von der Marketingfirma Cambridge Analytica entwickelt (Grassegger und Krogerus, 2016)[3].

Anwendungen aus kriminologischer Sicht werden im folgenden Abschnitt behandelt.

Big Data aus kriminologischer Sicht

Aus kriminologischer Sicht wird Big Data genutzt um hauptsächlich kriminelle Strukturen und Verhaltensmuster, sowohl von Gruppen als auch von Individuen zu erkennen. Durch die Analyse von bspw. Gangmustern, typischem Sprachverhalten und Äußerungen krimineller Vereinigungen lassen sich unter anderem Standorte genannter Gruppierungen und/ oder Mitglieder derselben ausfindig machen. Auch die Analyse bestimmter Parameter (z.B. Körpersprache, Ausdrucksweise, Kaufverhalten etc.) wird genutzt, um anhand eines Zusammenhangs zwischen der Summe aus Parametern und potentiellem Straftäter auf die Wahrscheinlichkeit einer Gefährdung zu schließen. So ist zum Beispiel die Analyse einer bestimmten Körpersprache innerhalb einer Überwachungszone (z.B. Flughafen), ausschlaggebend für die Kategorisierung des Menschen in Delinquent und nicht Delinquent bzw. Verdächtiger und nicht Verdächtiger.

Big Data kann nicht nur Statistiken, also erhöhte Kriminalitätsrate in einem bestimmten Bereich darstellen, sondern auch Verbrechen „vorhersagen“.

Predictive Policing

In der Verbrechensbekämpfung wird unter anderem mit predictive policing (vorhersagende Polizeiarbeit) gearbeitet. Die erste Software für die Vorhersage kommender Straftaten hat IBM entwickelt, Blue CRUSH (2006). Eine in Deutschland verwendete Software ist PRECOBS (Pre crime observation system), die 2014 unter anderem in einem Pilotprojekt in Nürnberg getestet wurde.

Es gibt verschiedene Programme zur Prognose von Kriminalität, die jedoch alle auf statistischen Algorithmen basieren. Dabei werden verschiedene Ansätze zur Erhebung von Kriminalitätsmustern verwendet, zum Beispiel:

Rational Choice Theory: Man geht von einem rational denkenden Täter aus, der Vor- und Nachteile einer Straftat abwägt. Überwiegen die Nachteile, kann die Straftat verhindert werden.
Reviktimisierung: Eine Person, die einmal Opfer war, wird mit erhöhter Wahrscheinlichkeit erneut Opfer.
Boost-Hypothese: Der Straftäter bevorzugt ihm bekannte Gegenden um den Aufwand möglichst gering zu halten.
Near-repeat victimisation: Die Wahrscheinlichkeit, dass die Art des Delikts an gleichem Ort wiederholt wird, ist erhöht.
Flag-Hypothese: Objekte, die Möglichkeiten für Straftaten bieten, z.B. dunkle Gassen oder fehlende Alarmanlage, unterliegen einer erhöhten Wahrscheinlichkeit der wiederholten Straftat.
Routine Activity Theory: Hierbei muss ein Motiv und eine Gelegenheit zur Straftat vorhanden sein. Ist das Motiv oder die Gelegenheit nicht gegeben, kann die Straftat verhindert werden.

Anhand dieser und anderer Ansätze können kriminelle Strukturen erkannt werden und Prognosen für die Wahrscheinlichkeit von Straftaten zu bestimmten Zeiten, an bestimmten Orten und/ oder von bestimmten Personen und Personengruppen erstellt werden. So können im Optimalfall Straftaten vorhergesagt und verhindert werden.

Datenschutz

Laut Tätigkeitsbericht des Landesbeauftragten für den Datenschutz ist predictive policing aktuell z.B. anhand der Software PRECOBS in Deutschland datenschutzrechtlich nicht relevant, da keine personenbezogenen individuellen Daten preisgegeben werden. Die Daten werden ausschließlich Ortsbezogen und nicht personenbezogen ausgewertet. Abgesehen von Angaben zum Tatort, zur Tatzeit und zu besonders erwähnenswerten Tatumständen bereits vergangener Einbrüche, verwendet das System keine personenbezogenen Daten, um eine Berechnung der Tatvorhersage durchzuführen. Des Weiteren ist der letzte Entscheidungsträger der Polizeibeamte.

Sollte eine Erweiterung des Analyserasters um personenbezogene Daten, wie z.B. aus Foren, sozialen Netzwerken und anderer Interessenslagen mit einbezogen werden und mit polizeilichen Datenbeständen verknüpft werden, könnte sich eine datenschutzrechtliche Relevanz entwickeln.

Aktuell steht Big Data immer mehr in der Kritik, das Grundrecht auf Datenschutz zu verletzen, vor allem, wenn sich ein Eindruck von Entmündigung oder Diskriminierung von Personen oder Gruppen ergibt. Vor einem knappen Jahrzehnt war es z.B. noch kein politisches Problem in Großbritannien personenbezogene Prognosen vorzunehmen. Als jedoch 2012 bekannt wurde, dass Gesundheitsdaten der Gesamtbevölkerung ausgewertet werden sollten, um das Gesundheitswesen zu verbessern, wurde aufgrund des Grundrechts der informationellen Selbstbestimmung starke Kritik geäußert. (Weichert, Thilo 2013)

Art. 8 Abs. 2 der Europäischen Grundrechtecharta besagt, dass personenbezogene Daten nach „Treu und Glauben“ verarbeitet werden müssen „für festgelegte Zwecke und mit Einwilligung der betroffenen Person oder auf einer sonstigen gesetzlich geregelten legitimen Grundlage“. Es ist gesetzlich gefordert, dass im Interesse des digitalen Grundrechtsschutzes „so wenig personenbezogene Daten wie möglich“ verarbeitet und diese deshalb anonymisiert oder pseudonymisiert werden (§ 3a BDSG, nach Weichert, Thilo 2013).

Panoptikum

Das Panoptikum ist ein von Foucault entwickeltes Prinzip aus dem 19.ten Jahrhundert, das als Metapher der ständig empfundenen Überwachung dient.

Im Bereich von Big Data/ Data-Mining bewirkt die ständig empfundene Überwachung, der Panoptismus, eine präventive Verhaltensänderung aufgrund der Befürchtung, dass das Überwachungsorgan das potenziell straffällige Verhalten eines Individuums erkennt. Aus diesem Grund ist das individuelle gegebenenfalls straffällige Verhalten abzustellen.

Nachteilig an diesem Prinzip des hier metaphorisch dargestellten Panoptikums ist, dass jedes Individuum unabhängig von seinem devianten Verhalten in ein Muster eingeordnet wird. Dadurch passiert eine Stigmatisierung. Jedes Individuum kann aufgrund seiner Handlungen unter einen Generalverdacht gestellt werden, sodass jeder bis ins tiefste Privatleben „aufpassen“ muss welche Seiten er aufruft, Dinge er kauft oder welchen Interessen er nachgeht, um nicht in eine Verdächtigenkategorie eingeordnet zu werden. So liegt eine persönliche Beschränkung vor. Doch selbst, sollte man sich derer entziehen können, kann das nicht auffällige Verhalten auffällig sein.

Auch die Theorie der re- integrativen Beschämung von John Braithwaite, kann in Kontext zu Big Data gesetzt werden. Aus der Befürchtung der Sanktionierung von Handlungen, basierend auf der Analyse des eigenen Persönlichkeitsprofils und dem sich daraus entwickelnden Stigma, ergibt sich eine interne Kontrolle, die eine Richtung für sozial akzeptiertes Verhalten vorgibt.

Literatur

Beyer and Laney (2012): The importance of big data: A deﬁnition. Stamford, CT: Gartner.
Cox and Ellsworth (1997): Application-Controlled Demand Paging for Out-of-Core Visualization. Proceedings of the 8th IEEE Visualization Conference 1997.
Diebold, F.X. (2000): "Big Data" Dynamic Factor Models for Macroeconomic Measurement and Forecasting. Econometric Society. Eighth World Congress, 2000.
Douglas, L. (2001): 3d data management: Controlling data volume, velocity and variety. Gartner.
Foucault, Michel (2016): Michel Foucault - Die Hauptwerke. Suhrkamp Quarto.
Grassegger, Hannes und Krogerus, Mikael (2016): Ich habe nur gezeigt, dass es die Bombe gibt. Das Magazin N°48 – 3. Dezember 2016.
Kunz, Karl Ludwig und Singelnstein, Tobias (2016): Kriminologie. 7.Auflage. Utb Verlag.
Lamnek, Siegfried (2008): Theorien abweichenden Verhaltens II. „Moderne Ansätze“. 3. Auflage. Utb Verlag.
Landebeauftragter für Datenschutz (2017): 27. Tätigkeitsbericht des Landesbeauftragten für den Datenschutz (Bayern). Berichtszeitraum 2015 – 2016.
Ward, J. S. and Barker, A.: Undefined By Data: A Survey of Big Data Definitions.
Weichert, Thilo (2013): Big Data und Datenschutz. Unabhängiges Landeszentrum für Datenschutz Schleswig Holstein.
Whipkey, Katie and Verity, Andrej: Creative Commons. Guidance for Incorporating Big Dara into Humanitarian Operations.

Weblinks

IBM What is big data? - Bringing big data to the enterprise. [4]
Statista - Prognose zum Volumen der jährlich generierten digitalen Datenmenge [5]
Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Big Data, online im Internet: [6]
Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Informationsethik, online im Internet: [7]
Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Data-Mining, Online im Internet: [8]

Big Data

Inhaltsverzeichnis

Definition

Zeitliche Entwicklung von Big Data

Beispiele für die Nutzung von Big Data

Big Data aus kriminologischer Sicht

Predictive Policing

Datenschutz

Panoptikum

Literatur

Weblinks

Navigationsmenü

Big Data

Definition

Zeitliche Entwicklung von Big Data

Beispiele für die Nutzung von Big Data

Big Data aus kriminologischer Sicht

Predictive Policing

Datenschutz

Panoptikum

Literatur

Weblinks

Navigationsmenü

Suche