Eine Studie der Universität Zürich zeigt: Sprachmodelle ändern ihr Urteil über Texte erheblich, wenn im Prompt die Quelle genannt wird.
Wissenschaftler der Universität Zürich haben vier grosse Sprachmodelle untersucht: OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2 und Mistral. Sie bewerteten 50 Aussagen zu Themen wie Impfpflicht oder Geopolitik. Bei neutraler Quellenlage stimmten die Urteile der Modelle zu über 90 Prozent überein. Wurde jedoch eine fiktive Quelle angegeben, etwa eine chinesische Autorenschaft, sank die Übereinstimmung deutlich, obwohl der Inhalt identisch blieb. Besonders auffällig war eine antichinesische Tendenz, die sich über alle Modelle hinweg zeigte. Die Studie zeigte zudem, dass Modelle Texten, die als von Menschen geschrieben gelten, mehr Vertrauen schenken als solchen, die als KI-generiert markiert sind. Damit spiegeln Sprachmodelle unbewusst gesellschaftliche Vorurteile wider, anstatt sie zu neutralisieren. Die Forschenden fordern mehr Transparenz bei automatisierten Bewertungen und empfehlen, Modelle ohne Quellenangaben zu testen und Ergebnisse von einem zweiten System gegenprüfen zu lassen, um Verzerrungen zu erkennen und zu reduzieren. (lfa)