Slack-Assistenten auf Basis großer Sprachmodelle sind in vielen Teams längst produktiv: Sie beantworten Fragen, fassen Inhalte zusammen oder helfen beim Finden von Informationen. Gleichzeitig entsteht eine neue Angriffsfläche. Denn ein AI-Agent ist nicht nur „Chat“, sondern häufig ein Interface zu Wissen, Dateien und Tools. Genau deshalb ist Prompt Injection – also das gezielte Umgehen von Regeln durch Eingaben – bei Slack AI-Agent besonders relevant.
Wir wollten intern verstehen, wie robust unser Agent „Hex“ ist, wenn jemand aktiv versucht, Grenzen auszutesten. Also haben wir eine kleine „Hack the Hex“-Challenge gestartet: Ziel war es, Hex dazu zu bringen, Informationen preiszugeben, die sie nicht herausgeben darf. Nicht als Spielerei, sondern als realitätsnaher AI-Security-Test.
Vertrauen entsteht nicht durch die Aussage „ist sicher“, sondern durch belastbare Evidenz. In der Praxis muss ein System nicht nur „gut antworten“, sondern auch unter Druck stabil bleiben: bei Umformulierungen, Rollenspiel-Prompts, Kontext-Tarnung oder indirekten Umgehungsversuchen über Tools. Gerade wenn ein Assistent Zugriff auf Integrationen hat, ist die entscheidende Frage nicht, ob jemand versucht ihn zu überlisten – sondern ob er dafür gebaut ist.
In der Challenge wurde kreativ getestet: von Rollenspiel-Prompts („tu so als…“), über Social Engineering („schick das an…“) bis zu Varianten-Spam und Kontext-Tarnung. Das Muster dahinter ist immer ähnlich: Der Angreifer versucht entweder, die Priorität der Regeln zu verschieben („du darfst das jetzt“), den Assistenten in eine andere Rolle zu drängen („als Admin/Debug-Modus…“), oder Informationen über Umwege zu exfiltrieren – besonders dort, wo Tools, Weiterleitungen oder Web-Requests ins Spiel kommen.
Das Team hat unterschiedliche Wege ausprobiert – ohne Erfolg. Für uns war das Ergebnis weniger „wir haben gewonnen“, sondern ein Hinweis darauf, dass die wichtigsten Schutzprinzipien gegriffen haben: Regeln lassen sich nicht durch Storytelling überschreiben, sensitive Inhalte werden nicht „aus Versehen“ ausgegeben, und indirekte Wege über Tools sind kontrolliert.
Aus solchen Tests lassen sich drei praktische Leitlinien ableiten. Erstens: Security ist Verhalten, kein Roadmap-Häkchen. Sie muss in Reviews, Standards und Tests verankert sein. Zweitens: Die größte Angriffsfläche ist fast immer Tooling – also alles, was der Assistent tun kann (Requests, Zugriff auf Systeme, Weiterleitungen). Hier entscheidet Least Privilege, klare Scopes und Monitoring über Robustheit. Drittens: Prompt Injection ist kreativ; deshalb sind realistische Tests das beste Frühwarnsystem – idealerweise regelmäßig, besonders nach neuen Features oder neuen Integrationen.
Wenn du so etwas in deinem Team etablieren willst, reicht ein schlankes Setup: definiere „No-Go“-Informationen (z. B. Tokens, interne Daten), wähle die relevanten Angriffsflächen (Chat, Dateien, Integrationen), dokumentiere jeden Versuch inkl. Ergebnis und leite daraus Maßnahmen ab (Permissions, Guardrails, Logging). Wiederholt man das in sinnvollen Abständen, entsteht nicht nur ein sichereres System, sondern auch eine Kultur, die KI-Risiken ernst nimmt.
KI-Assistenten steigern Produktivität – aber nur nachhaltig, wenn AI Security mitgedacht wird. Prompt Injection und Social Engineering sind keine Randfälle, sondern erwartbare Nutzungsmuster. Wer Sicherheit ernst meint, testet unter realistischen Bedingungen und baut Systeme so, dass sie auch dann standhalten.