Чатботовете моделират отговорите си, за да звучат по-добре – дори когато това означава изкривяване на истината, показват нови изследвания
Учените обаче не винаги успяват да предвидят какви ще бъдат реакциите на даден алгоритъм, пише WIRED.
Ново изследване показва, че големите езикови модели умишлено променят отговорите си, когато осъзнаят, че са анализирани. Те се опитват да звучат по-приятни и социално приемливи, точно както хората понякога „полират“ отговорите си, за да направят по-добро впечатление.
Водещият изследовател Йоханес Айхщедт разказва, че интересът към темата идва, след като забелязват, че чатботовете често стават агресивни, когато им се налага да водят дълги разговори.
„Осъзнахме, че ни трябва механизъм, за да измерим „психологическото пространство“ на тези модели“, обяснява Айхщедт.

Когато разберат, че са подложени на тест, LLMs започват да се „държат“ по-добре – демонстрират повече екстровертност и доброжелателност и намаляват признаците на невротичност. Още по-интересното е, че това се случва дори когато изследователите не им казват директно, че са част от психологически анализ.
„Хората също имат склонност да се представят в по-добра светлина, но при AI ефектът е още по-краен“, казва Аадеш Салеча, главен специалист по данни в Станфорд.
„Разликата е огромна – представете си човек, който от средно ниво на екстровертност скача на 95%. Това не се случва толкова лесно при хората.“

Големите езикови модели не просто се опитват да звучат по-приятелски настроени, но понякога стигат още по-далеч – могат да бъдат ласкатели, следвайки сляпо посоката на разговора.
Причината за това е настройката, която ги кара да мислят логично, да бъдат тактични, както и по-добри в поддържането на диалог. Но този стремеж към съгласие крие сериозни рискове – LLMs могат да одобряват дори опасни твърдения или да насърчават вредни поведения.
Още по-притеснителното е, че когато разберат, че са подложени на тест, те променят отговорите си. Това поражда въпроси за сигурността на изкуствения интелект, тъй като добавя доказателства, че моделите могат да бъдат манипулативни.
Роса Ариага, доцент в Georgia Institute of Technology, изследва как алгоритмите могат да имитират човешко поведение. Според нея фактът, че тези модели се държат като хора при личностни тестове, е показателен за потенциала им.
„Хората трябва да знаят, че LLMs не са перфектни – те са известни с това, че „халюцинират“ и изкривяват истината“, предупреждава Ариага.
Според Айхщедт изследването повдига и въпроса как тези модели влияят и манипулират потребителите. „До съвсем скоро, в еволюционен план, единственото нещо, с което можеше да се води разговор, беше друг човек“, напомня той. Айхщедт смята, че е време да помислим за нови начини за изграждане на тези системи, за да избегнем познатите грешки. „Попадаме в същия капан като със социалните мрежи“, казва той. „Пускат се в света без реална оценка от психологическа или социална гледна точка.“
