Tracker gegen Tracking: Nutzung maschinellen Lernens zur Unterstützung ethischer Entscheidungen

F-Droid ist ein App-Store der Community für freie Software, der seit 2010 daran arbeitet, den Anwendern alle Formen von Tracking und Werbung sichtbar zu machen. Er ist ein verlässlicher Begriff für Datenschutz in Android geworden und App-Entwickler, die sich auf den Grundlagen des Datenschutzes verkaufen, unternehmen zusätzliche Anstrengungen, damit ihre Apps in die F-Droid-Sammlung aufgenommen werden. Dazu gehören Nextcloud, Tor Browser, TAZ.de und Tutanota. Die Prüfung von Apps auf Tracking ist arbeitsintensiv und fehleranfällig, mehr denn je aber gefordert. F-Droid besitzt bereits Instrumente, die Mitwirkende bei diesem Prozess helfen, erkennbar an den Ticketsystemen App Submission und Request For Packaging (RFP). Wir haben auch funktionsfähige Prototypen zur Nutzung maschinellen Lernens, um diesen Prozess erheblich zu beschleunigen, zur Verstärkung der Menschen, weniger um sie zu ersetzen.

Nachdem die primäre Motivation der F-Droid-Community ein ethischer Software-Vertrieb ist, werden Algorithmen niemals Menschen in moralischen Entscheidungen ersetzen. Wir haben also die Verwendung maschinellen Lernens darauf untersucht, Tracking auf allgemeingültigere Weise zu erkennen, ohne von Hand zusammengestellte Listen von Tracking-Bibliotheken. In einer finanziell geförderten Projektarbeit, werden wir die F-Droid-Tools weiterentwickeln und sie für jeden Anwendungsfall, der eine zuverlässige Erkennung von Trackern in Android-Apps braucht, allgemein zugänglich machen. Sie baut auf unserer Zusammenarbeit mit Exodus Privacy und LibScout auf.

Dieses Projekt beruht auf einigen Machbarkeitsstudien, die Aaron Kaplan und Hans-Christoph Steiner durchführten, als sie mit Studenten am Data Science Lab der Wirtschaftsuniversität Wien (WU) arbeiteten. Wir fokusierten uns auf die Nutzung von Maschinenlernen bei Android-Apps, in erster Linie um Schadsoftware zu erkennen, im zweiten Zug, um Tracking-Bibliotheken aufzuspüren. Das ist natürlich letztendlich eine Begleiterscheinung der Leistungen der F-Droid-Community und der finanziell geförderten Anstrengungen des Guardian Project, ein System komplett ohne jedes Tracking aufzubauen. Ein besonderer Dank gilt hier dem F-Droid-Gründer Ciaran Gultnieks für die Festlegung des ethischen Aspekts, der uns alle begeistert, seit damals 2010.

Finanzierung

Das momentan mit 44.500 € geförderte Projekt wird durch den Privacy & Trust Enhancing Technologies (PET) Fund von NLnet finanziert. F-Droid hat sowohl große, zweckbestimmte Rechenkapazitäten von der GCC Compile Farm erhalten, wie auch einige gemeinsam benutzte Ressourcen von Aaron Kaplan. Das Budget wird ausschließlich dazu verwendet, die von den Leuten aufgebrachte Zeit für Forschung, Entwicklung und Integrationsarbeit zu honorieren:

  • Softwareentwicklung, damit die vorhandenen Tools von LibScout und Exodus Privacy vollständig in den Stack von F-Droid integriert werden.
  • Erforschung und Entwicklung maschinellen Lernens.
  • Community-Management sowohl zur Koordinierung von F-Droid-Mitwirkenden, App-Entwicklern, Tool-Entwicklern, wissenschaftlichen Forschern usw., als auch zur Förderung dieser Instrumente
  • Ausarbeitung und Bereitstellung aller zweckdienlichen Teile dieses Projekts, was auch bedeutet, dass sie in Debian aufgenommen werden

Verwandte Arbeiten

  • Der allgemeine, von uns hier zugrunde gelegte Ansatz ist im Zusammenhang mit Internetseiten erprobt. Der Brave Browser beinhaltet Techniken maschinellen Lernens, um Werbung und Tracker auf Internetseiten zu blockieren. Es ist ein, zu dem was wir vorschlagen, sehr ähnlicher Grundgedanke, aber das Beispiel ist in einen Browser eingebettet und wirkt nur bei Internetseiten.

  • Exodus Privacy hat manuell eine ausführliche Liste der auf den Empfang von Nutzerdaten ausgerichteten Tracking-Bibliotheken und -Domänen zusammengetragen. Sie verwenden diese dann, um Apps von Google Play zu scannen. Diese Ergebnisse werden danach auf ihrer Website veröffentlicht. Exodus Privacy würde unmittelbar von dieser Arbeit profitieren, da sie das Instrument, das wir schaffen werden, nutzen könnten.

  • Ghostery verwendet KI-Techniken, um dynamisch Werbung auf Internetseiten zu sperren.

  • F-Droid besitzt seinen eigenen fdroid scanner, um auf der Basis von manuell erstellten regulären Ausdrücken Prüfungen zu erledigen. Dieser wurde mit Exodus Privacy in F-Droids Issuebot kombiniert, der Apps automatisch durchleuchtet, die auf Nutzeranfrage in F-Droid eingeführt werden sollen.

  • LibScout verwendet maschinelles Lernen, um zu ermitteln, welche Versionen welcher Bibliotheken in einer Android-App (APK) enthalten sind. Unter Verwendung der Liste der Bibliotheken von Exodus Privacy, arbeiteten mit dem Autor von LibScout zusammen, um einen funktionsfähigen Prototyp eines Tracking-Bibliothek-Detektors zu erstellen.

  • Drebin demonstrierte eindeutig, dass Maschinenlernen dazu verwendet werden kann, Android-Apps anhand bestimmter Aspekte ihres Verhaltens automatisch zu klassifizieren. Ihr Ziel war es, Malware zu finden. In Zusammenarbeit mit CERT.at und dem WU Data Science Lab reproduzierten wir die Ergebnisse des Drebin-Papiers.

Die Herausforderungen

Das größte Versprechen dieses Projekts ist auch die größte technische Herausforderung: einen Weg zu finden, Datensätze zu übernehmen, die Tracking-Bibliotheken enthalten (z. B. F-Droids manuelle Prüfung, LibScout, Exodus Privacy) und diese in ein für maschinelles Lernen allgemeingültigeres Herangehen umzuwandeln. Wir werden einen große Reihe möglicher Features untersuchen müssen, um die ins Maschinenlernen einzuschließen, die sich von den Tracking-Bibliotheken selbst unterscheiden. Diese allgemeingültige Herangehensweise wird Tracking-Erkennung bereitstellen mit mehr Automatisierung und weniger Wartungsarbeit beim erneuten Ausführen des Maschinenlernens aufgrund aktualisierter Datensätze, weil neue Tracking-Bibliotheken in Betrieb genommen werden.

Die technischen Verfahren, um herauszufinden, ob eine App Tracker enthält, sind bestens bekannt und beschrieben. Sie erfordern derzeit Kenntnisse in der Android-Entwicklung. Maschinelles Lernen hat bewiesen, dass es in der Lage ist, zuverlässig Tracker in Apps zu entdecken, dieses Projekt wird funktionierende Prototypen in produktive Software überführen, sie in die von der Community betriebenen Prozesse von F-Droid integrieren und diese neuen Instrumente allen anderen leicht zugänglich machen, um sie auf deren spezifische Anwendungsfälle anzuwenden. Die Sammlung an Tools wird sowohl Quellcode als auch Binärdateien durchsuchen. Das Scannen von binären APK-Dateien ist wichtig, selbst wenn der Quellcode zur Verfügung steht, da F-Droid-Nutzer in der Regel APKs beziehen. F-Droid kann dann sicherstellen, dass keine proprietären Dinge enthalten sind, weder aus Versehen noch über versteckte Tricks in Build-Systemen.

Vorausgesetzt Android-Apps wurden irgendwo heruntergeladen, so werden diese neuen Tools in der Lage sein, mit einem sehr hohen Sicherheitsgrad darzustellen, welche davon irgendeine Art des Trackings in sich tragen. Mit dem Projektanteil, der in Verbindung mit der Anwendung von LibScout steht, ist zum jetzigen Zeitpunkt das Konzept in Prototypen bestätigt worden. Dessen Anwendung ist eine unkomplizierte Sache, um einen geprüften Prototypen zur Produktionsreife zu bringen.

Organisationen, die sich auf Apps verlassen, die strengen Datenschutzanforderungen genügen müssen, wie Banken unter der EU DSGVO, können diese Instrumente nutzen, um sich zu vergewissern, dass Apps, denen sie vertrauen, kein illegales Tracking enthalten und um sicherzustellen, dass solches Tracking nicht in zukünftigen Versionen hinzugefügt wird.

Diese Techniken sind auch auf anderen Plattformen anwendbar, wie Progressive Web Apps und Apple iOS. Ein Bootstrapping einer anderen Plattform würde ein zu Trainingszwecken gekennzeichnetes Set an Apps erfordern, um das maschinelle Lernen damit zu füttern. F-Droid bietet bereits dieses Set und Android ist das beliebteste Betriebssystem der Welt, was Android zur idealen Plattform macht, um hier mit diesen Arbeiten zu beginnen.

Der Mensch im Mittelpunkt

F-Droid ist ein community-betriebenes freies Softwareprojekt ganz im Geiste von Debian. Die Community hat sich immer zum Ziel gesetzt, 100% verifizierte freie Software anzubieten, die aus dem Quellcode erstellt wird. Von Anbeginn an bestand genauso auch ein Interesse an weiteren ethischen Überlegungen, die sich in F-Droid’s Anti-Features ausdrücken. Dies sind Dinge, die mit Tracking (beinhaltet Tracking), Ads (enthält Werbung) und NonFreeNet (benötigt einen proprietären Netzwerkdienst) gekennzeichnet sind. Der Prozess, um sicherzustellen, dass die Apps zu 100% freie Software sind, wie auch die Kennzeichnung der Apps mit den erforderlichen Anti-Features ist ein händischer Vorgang, an dem viele Menschen beteiligt sind, der lediglich ein bisschen durch Automatisierung unterstützt wird. Dieses Projekt passt direkt zu diesem vorhandenem Ökosystem. Es wird zum einen auf der Grundlage des vorhandenen Prototyps schnell Verbesserungen der Arbeitsabläufe der Mitwirkenden liefern, zum anderen Experimente erbringen, die dazu dienen, den gesamten Workflow eines jeden, der daran arbeitet Tracker aufzuspüren, drastisch zu verbessern.

F-Droid fügt sich in das gesamte Android-App-Ökosystem in einer sehr speziellen Rolle ein. Es ist die einzige Quelle, die ausschließlich freie Software vertreibt, und hat sich ein wohl verdientes Ansehen aufgebaut, keine Kompromisse in ethischen Standpunkten einzugehen, die die Community vorgibt. Dies hat dazu geführt, dass es zum “clean set”-Standard in allen Angelegenheiten der Forschung zu Schadsoftware und Tracking in Android wurde. Viele wissenschaftliche Artikel, die sich mit Android-Malware beschäftigen, zitieren f-droid.org als den Quell von Ground Truth.

Zum Abschluss ist es wichtig, zu betonen, dass es essentiell ist, dass die Menschen immer im Mittelpunkt dieser Instrumente bleiben werden. Wir stellen Instrumente her, um die Menschen zu unterstützen, nicht um sie zu ersetzen. So wie es die primäre Intention der F-Droid-Community ist, einen moralisch einwandfreien Softwarevertrieb aufzubauen, werden Algorithmen niemals Menschen in der auf ethischen Fragen beruhenden Entscheidungsfindung ersetzen. Die Tools können die technischen Details so automatisieren, dass Mitarbeiter, sie nicht zu verstehen brauchen, damit sie ihnen in den Arbeitsabläufen bedeutend helfen.