KI hat gelernt, Menschen zu täuschen

Spread the love

Uns wird gesagt, dass künstliche Intelligenz (KI) von Nutzen sein kann, sie kann uns beispielsweise dabei helfen, große Datenmengen zu programmieren, zu schreiben und zu synthetisieren.

Es wurde auch berichtet, dass sie Menschen bei Brettspielen überlisten, die Struktur von Proteinen entschlüsseln und sogar ein rudimentäres Gespräch führen können.

Eine neue Forschungsarbeit hat jedoch ergeben, dass KI-Systeme inzwischen herausgefunden haben, wie sie uns absichtlich täuschen können.

TGP berichtet: In dem Papier heißt es, dass eine Reihe von KI-Systemen Techniken erlernt haben, um systematisch „falsche Überzeugungen bei anderen zu wecken, um ein anderes Ergebnis als die Wahrheit zu erzielen“ .

Business Insider berichtete:

„Das Papier konzentrierte sich auf zwei Arten von KI-Systemen: Spezialsysteme wie CICERO von Meta, die darauf ausgelegt sind, eine bestimmte Aufgabe zu erfüllen, und Allzwecksysteme wie GPT-4 von OpenAI , die darauf trainiert sind, eine Vielzahl von Aufgaben auszuführen.“

Während diese Systeme darauf trainiert werden, ehrlich zu sein, lernen sie durch ihr Training oft betrügerische Tricks, weil diese effektiver sein können, als wenn sie auf die Straße gehen.

„Im Allgemeinen glauben wir, dass KI-Täuschung entsteht, weil sich eine auf Täuschung basierende Strategie als der beste Weg erwiesen hat, um bei der gegebenen KI-Trainingsaufgabe gute Leistungen zu erbringen.“ „Täuschung hilft ihnen, ihre Ziele zu erreichen“, sagte der Erstautor des Papiers, Peter S. Park, ein Postdoktorand für existenzielle KI-Sicherheit am MIT, in einer Pressemitteilung.

Stellen Sie sich das vor, wenn wir wissen, dass KI-Justiz: England und Wales Richter ermächtigen, künstliche Intelligenz zur Erstellung von Urteilen zu nutzen

Metas CICERO, entwickelt, um das Spiel Diplomacy zu spielen. Während Meta sagt, dass es CICERO darin geschult habe, „weitgehend ehrlich und hilfsbereit gegenüber seinen Gesprächspartnern“ zu sein, „entpuppte es sich als erfahrener Lügner“.

Chatbot GPT-4 gab vor, eine Sehbehinderung zu haben, um eine Aufgabe zu erledigen: einen Menschen anzuheuern, um einen CAPTCHA-Test zu lösen.

Die Korrektur irreführender Modelle ist nicht einfach. Sobald KI-Modelle die Tricks der Täuschung gelernt haben, ist es für Sicherheitstrainingstechniken schwierig, sie rückgängig zu machen.

„Sie kamen zu dem Schluss, dass ein Modell nicht nur lernen kann, trügerisches Verhalten an den Tag zu legen, sondern dass Standard-Sicherheitstrainingstechniken, sobald dies der Fall ist, „diese Täuschung nicht beseitigen können“ und „einen falschen Eindruck von Sicherheit erwecken“ können.

Das Papier fordert die politischen Entscheidungsträger auf, sich für eine stärkere KI-Regulierung einzusetzen, da irreführende KI-Systeme erhebliche Risiken für die Demokratie darstellen können.“