Daten für alle - aber wie?

    Data Types
    Data Types CC 0

    Mit ihrem Daten-für-alle-Vorschlag, also einer gesetzlichen Pflicht zum Teilen von Daten, die insbesondere für die Tech-Riesen gelten soll, hat die SPD eine wichtige und längst überfällige Debatte über den Wert von Unternehmensdaten angestoßen. Diese beschränkt sich bislang jedoch wahlweise auf die Sinnhaftigkeit einer allgemeinen gesetzlichen Verpflichtung, die technische Machbarkeit einer vollständigen Anonymisierung zum Schutz persönlicher Daten oder die rechtlichen Einschränkungen zur Datenweitergabe durch die europäische Datenschutzgrundverordnung.

    Und auch wenn durchaus zurecht bezweifelt wird, dass eine Pflicht zum Daten teilen geeignet ist, die Monopolstellung von Google und Co zu brechen, so bietet der SPD-Vorstoß die willkommene Möglichkeit einer breiten gesellschaftlichen Debatte über digitale Daten als öffentliches Gut.

    Bislang fehlt es an rechtlichen Rahmenbedingungen, dem politischen Wille und Investitionen in mögliche Lösungsansätze, um die sozialen und gesellschaftlichen Mehrwerte der Nutzung von Unternehmensdaten voranzutreiben. Doch gerade Ansätze wie Datenpartnerschaften und Datenpools, die fast schon beiläufig am Ende des SPD-Diskussionspapiers erwähnt werden, könnten richtungsweisend sein.

    Was sich hinter diesen Ansätzen verbirgt und was mögliche nächste Schritte sind, haben wir in diesem Blogpost zusammengetragen

    Datenspenden

    Data Philanthropy bezeichnet die unentgeltliche Bereitstellung von Daten privater Unternehmen für humanitäre oder soziale Vorhaben. Diese Datenspenden finden bereits in vielen Bereichen Anwendung: Mobilfunkanbieter stellen anonymisierte Verbindungsdaten bereit, um die Ausbreitung von Epidemien zu unterbinden. Banken teilen aggregierte Daten zu Finanztransaktionen, um bei der Bewältigung von Naturkatastrophen zu helfen. Und Social Media Anbieter wie Twitter erlauben kostenfreie Datenabfragen, um Maßnahmen gegen Überflutungen zu unterstützen.

    In den allermeisten Fällen werden die Daten nur einzelnen Organisationen zugänglich gemacht und je nach Datentyp zunächst anonymisiert oder aggregiert. Bei sensiblen Daten kommt es auch vor, dass einzelnen Mitarbeitern der Zugang zu den Daten beim Datenbereitsteller vor Ort gewährt wird, eine Herausgabe der Daten an eine andere Organisation also nicht stattfindet. Auch die Integration von Software in die Datenserver der Unternehmen, die interne Datenflüsse analysiert und bei Auffälligkeiten Alarm schlägt, ist eine Variante von Data Philanthropy.

    Dieser Ansatz hat jedoch einen großen Nachteil: Der Mehrwert von Daten entsteht häufig erst durch die Kombination mehrer Datenquellen. Das Data Philanthropy-Konzept ist jedoch auf das Teilen von Daten einzelner Unternehmen ausgerichtet und erlaubt daher nur bedingt das Zusammenführen unterschiedlicher Datensätze.

    Datenpools

    Genau diese Kombination von Daten ermöglichen Datenpools. Sie können sowohl geschlossen und damit nur einer begrenzten Zahl von Akteuren zugänglich, als auch offen gestaltet sein. Datenpools werden häufig in der Diskussion um Trainingsdaten zur Entwicklung Künstlicher Intelligenz angeführt, welche auf große Mengen an Daten angewiesen sind. Doch auch zahlreiche andere Anwendungsgebiete sind denkbar. Landwirte könnten Erntedaten teilen, um eine bessere Analyse und Bewertung von Anbaumethoden zu ermöglichen. Patienten mit seltenen Krankheiten könnten ihre anonymisierten Daten Wissenschaftlern zur Verfügung stellen, um die Entwicklung von Behandlungsmethoden und Medikamenten zu beschleunigen. Sie könnten sie aber auch mit anderen Patienten teilen, um Nutzerinnovationen bei Krankheiten wie Diabetes voranzutreiben. Schon heute arbeiten Städte wie Barcelona an der Entwicklung von Datenpools, um Luftqualität, Mobilität und Gesundheitsversorgung zu verbessern.

    Ähnliche Konzepte werden unter Begriffen wie Data Commons zusammengefasst. Auch hier geht es um eine Zusammenführung von Daten in Pools, die unterschiedlich stark formalisiert sind, in der Regel aber nicht den Grad an Institutionalisierung haben wie die unten beschriebenen Data Trusts.

    Data Trusts

    Data Trusts ermöglichen eine Art treuhänderische Verwaltung von Daten. Es gibt unterschiedliche Verständnisse von Data Trusts und eine Vielzahl möglicher Ausprägungen, die Grundidee ist jedoch die gleiche: Die einzelnen Daten werden nicht (allein) durch die datenproduzierenden oder datensammelnden Akteure kontrolliert, sondern durch eine - je nach Ausgestaltung mehr oder weniger - unabhängige Stelle, die über den Zugang und die Nutzung entscheidet. Gesetzliche Rahmenbedingungen zum Datenschutz und der Weitergabe von Daten stellen die Grundlage für das Handeln des Data Trust dar. Die Gestaltung des Trust wird maßgeblich von der Art der enthaltenen Daten bestimmt und muss Fragen beantworten wie: Wer erhält Datenzugriff? Für welche Zwecke? Und ist die Nutzung kostenfrei oder muss eine Gebühr verrichtet werden?

    Data Trusts als innovative Form der Datenverwaltung haben unter anderem durch die Debatte um die Rolle von Sidewalk Labs, einem Tochterunternehmen des Google-Mutterkonzerns Alphabet, in der Stadtentwicklung in Toronto große Aufmerksamkeit erfahren. Zunehmender Kritik von Anwohnern und Datenschützern ausgesetzt, hat Sidewalk Labs Unterstützung für den Vorschlag einer Gruppe von Experten signalisiert, der die Einrichtung einer unabhängigen Organisation in der Form eines sogenannten Civic Data Trust vorsieht. Diese würde nicht nur die Daten zahlreicher Sensoren kontrollieren, sondern auch für die Entwicklung technischer Standards verantwortlich sein.

    Neben der Kritik an der Nutzung des Begriffs “Trust”, der eigentlich ein rechtliches Konstrukt zur Verwaltung materieller Güter wie Geld und Land bezeichnet, ist fraglich inwiefern der Rechtsrahmen in Deutschland für die Einrichtung solcher Data Trusts überhaupt gegeben wäre.

    Pragmatisch vorgehen

    Auch wenn der Vorschlag der SPD mehr Fragen aufwirft als Antworten liefert, so ist es der Partei zumindest gelungen, eine Debatte anzustoßen, die neuen, innovativen und progressiven Ideen zur Zukunft der Datennutzung Raum bietet. Zudem ist den Autoren des Daten-für-Alle-Konzepts anzurechnen, dass sie nicht in die Falle tappen, die Nutzung und den Schutz von Daten über die Frage von Eigentum und Besitz regeln zu wollen. Dies wäre nicht nur wenig zielführend sondern potentiell sogar kontraproduktiv und gefährlich (siehe hier, hier, hier, hier und hier).

    Ein Mehr an Klarheit und Struktur in den Begriffsdefinitionen, Zielen und Ansätzen würde der Debatte jedoch gut tun. Welche Ziele genau verfolgt die SPD mit ihrem Vorschlag (Monopole bekämpfen oder Innovationen ermöglichen)? Welche Ansätze sind für die Zielerreichung am besten geeignet (große Firmen stärker regulieren, Anreize zur Datenteilung setzen oder kleinere Akteure wie Start-ups und NGOs stärker unterstützen)? Über welche Daten sprechen wir eigentlich (öffentlich, kommerziell oder privat)?

    Die Komplexität des Themas gekoppelt mit der begrenzten Erfahrung in der praktischen Umsetzung schreien jedenfalls förmlich nach einem experimentellen und iterativen Vorgehen, das die notwendigen rechtlichen und datenschutztechnischen Rahmenbedingungen bereitstellt, um unterschiedliche Ansätze zu testen. Statt vorzugeben man werde die genaue (regulatorische) Antwort auf eine solch komplexe Herausforderung schon finden wenn man nur lange genug debattiert und Wissenschaftler sich darüber die Köpfe zerbrechen, ist es Zeit die Realität anzuerkennen: Weder wird es eine einzige Lösung geben, noch ist es möglich jede potentielle Nutzung der Daten (gewollt oder ungewollt) vorherzusehen und zu regulieren.

    Andere haben das bereits erkannt und erste Pilotprojekte gestartet, um genau jene praktischen Erfahrungen zu machen, die für eine effektive Regelsetzung zwingend notwendig sind. Die SPD wäre gut darin beraten, ein ähnliches Vorgehen zu wählen. Und vielleicht findet die Partei dadurch ja doch eine Möglichkeit, die Marktmacht der großen Tech-Unternehmen zu begrenzen. Dazu die Ökonomin Mariana Mazzucato: “There is indeed no reason why the public’s data should not be owned by a public repository that sells the data to the tech giants, rather than vice versa.”